收集全球10,000⁺个好用的AI软件
-
HumanVid是什么?一文让你看懂HumanVid的技术原理、主要功能、应用场景HumanVid概述简介 HumanVid是香港中文大学和上海人工智能实验室一起推出的高质量数据集,专为人类图像动画训练设计。结合了现实世界视频和合... -
VITA是什么?一文让你看懂VITA的技术原理、主要功能、应用场景VITA概述简介 VITA是腾讯优图实验室推出的全球首个开源多模态大语言大模型(MLLM),能理解和处理视频、图像、文本和音频。基于Mixtral ... -
FancyVideo是什么?一文让你看懂FancyVideo的技术原理、主要功能、应用场景FancyVideo概述简介 FancyVideo是360联合中山大学推出的AI文生视频模型。基于创新的跨帧文本引导模块(Cross-frame T... -
DeepSeek-Prover-V1.5是什么?一文让你看懂DeepSeek-Prover-V1.5的技术原理、主要功能、应用场景DeepSeek-Prover-V1.5概述简介 DeepSeek-Prover-V1.5是由DeepSeek团队开发的开源数学大模型,拥有70亿参... -
CogView-3-Plus是什么?一文让你看懂CogView-3-Plus的技术原理、主要功能、应用场景CogView-3-Plus概述简介 CogView-3-Plus是智谱AI最新推出的AI文生图模型,采用Transformer架构替代传统UNet... -
GLM-4V-Plus是什么?一文让你看懂GLM-4V-Plus的技术原理、主要功能、应用场景GLM-4V-Plus概述简介 GLM-4V-Plus是智谱AI最新推出的多模态AI大模型,专注于图像和视频理解。GLM-4V-Plus不仅能够精确... -
Qwen2-VL是什么?一文让你看懂Qwen2-VL的技术原理、主要功能、应用场景Qwen2-VL概述简介 Qwen2-VL是阿里巴巴达摩院开源的视觉多模态AI大模型,具备高级图像和视频理解能力。Qwen2-VL支持多种语言,能处... -
VFusion3D是什么?一文让你看懂VFusion3D的技术原理、主要功能、应用场景VFusion3D概述简介 VFusion3D 是由 Meta 和牛津大学的开发人员一起推出的AI生成3D模型项目,能从单张图片或文本描述中生成高质... -
Video-LLaVA2是什么?一文让你看懂Video-LLaVA2的技术原理、主要功能、应用场景Video-LLaVA2概述简介 Video-LLaVA2是由北京大学ChatLaw课题组推出的开源多模态智能理解系统,通过创新的时空卷积(STC)... -
LLaVA-OneVision是什么?一文让你看懂LLaVA-OneVision的技术原理、主要功能、应用场景LLaVA-OneVision概述简介 LLaVA-OneVision是字节跳动推出开源的多模态AI大模型,LLaVA-OneVision通过整合数... -
LongVILA是什么?一文让你看懂LongVILA的技术原理、主要功能、应用场景LongVILA概述简介 LongVILA是一个面向长视频理解的视觉语言AI大模型,由英伟达、MIT、UC 伯克利、得克萨斯大学奥斯汀分校共同开发。... -
VectorVein是什么?一文让你看懂VectorVein的技术原理、主要功能、应用场景VectorVein概述简介 VectorVein 是一款开源的无代码AI工作流工具,通过简化的拖拽操作,让用户无需编程知识即可构建智能工作流,实现... -
VideoGameBunny是什么?一文让你看懂VideoGameBunny的技术原理、主要功能、应用场景VideoGameBunny概述简介 VideoGameBunny(VGB)是一个专为视频游戏设计的开源大型多模态模型,由加拿大阿尔伯塔大学研究团队... -
DeepSeek-V2.5是什么?一文让你看懂DeepSeek-V2.5的技术原理、主要功能、应用场景DeepSeek-V2.5概述简介 DeepSeek-V2.5 是DeepSeek推出的融合通用与代码能力的全新开源模型。保留了之前 Chat 模型... -
ViewCrafter是什么?一文让你看懂ViewCrafter的技术原理、主要功能、应用场景ViewCrafter概述简介 ViewCrafter 是北大和港中文联合腾讯提出的一种先进的视频扩散模型,能从单个或少量图像中合成高保真的新视图。... -
VideoLLaMB是什么?一文让你看懂VideoLLaMB的技术原理、主要功能、应用场景VideoLLaMB VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信... -
DeepSeek-Coder-V2是什么?一文让你看懂DeepSeek-Coder-V2的技术原理、主要功能、应用场景DeepSeek-Coder-V2概述简介 DeepSeek-Coder-V2 是由DeepSeek推出的开源代码语言大模型,在代码特定任务中的表现... -
VoxInstruct是什么?一文让你看懂VoxInstruct的技术原理、主要功能、应用场景VoxInstruct概述简介 VoxInstruct 是由清华大学开源的语音合成技术,能根据人类语言指令生成高度符合用户需求的语音。系统采用统一的... -
XVERSE-MoE-A36B是什么?一文让你看懂XVERSE-MoE-A36B的技术原理、主要功能、应用场景XVERSE-MoE-A36B概述简介 XVERSE-MoE-A36B是由元象推出的中国最大的MoE(Mixture of Experts,混合专家... -
PyVideoTrans是什么?一文让你看懂PyVideoTrans的技术原理、主要功能、应用场景PyVideoTrans概述简介 PyVideoTrans 是开源的视频翻译配音工具,将视频内容从一种语言自动翻译成另一种语言,并添加相应的字幕和配...