V

首页 > V

HumanVid是什么？一文让你看懂HumanVid的技术原理、主要功能、应用场景

HumanVid概述简介 HumanVid是香港中文大学和上海人工智能实验室一起推出的高质量数据集，专为人类图像动画训练设计。结合了现实世界视频和合...
VITA是什么？一文让你看懂VITA的技术原理、主要功能、应用场景

VITA概述简介 VITA是腾讯优图实验室推出的全球首个开源多模态大语言大模型（MLLM），能理解和处理视频、图像、文本和音频。基于Mixtral ...
FancyVideo是什么？一文让你看懂FancyVideo的技术原理、主要功能、应用场景

FancyVideo概述简介 FancyVideo是360联合中山大学推出的AI文生视频模型。基于创新的跨帧文本引导模块（Cross-frame T...
DeepSeek-Prover-V1.5是什么？一文让你看懂DeepSeek-Prover-V1.5的技术原理、主要功能、应用场景

DeepSeek-Prover-V1.5概述简介 DeepSeek-Prover-V1.5是由DeepSeek团队开发的开源数学大模型，拥有70亿参...
CogView-3-Plus是什么？一文让你看懂CogView-3-Plus的技术原理、主要功能、应用场景

CogView-3-Plus概述简介 CogView-3-Plus是智谱AI最新推出的AI文生图模型，采用Transformer架构替代传统UNet...
GLM-4V-Plus是什么？一文让你看懂GLM-4V-Plus的技术原理、主要功能、应用场景

GLM-4V-Plus概述简介 GLM-4V-Plus是智谱AI最新推出的多模态AI大模型，专注于图像和视频理解。GLM-4V-Plus不仅能够精确...
Qwen2-VL是什么？一文让你看懂Qwen2-VL的技术原理、主要功能、应用场景

Qwen2-VL概述简介 Qwen2-VL是阿里巴巴达摩院开源的视觉多模态AI大模型，具备高级图像和视频理解能力。Qwen2-VL支持多种语言，能处...
VFusion3D是什么？一文让你看懂VFusion3D的技术原理、主要功能、应用场景

VFusion3D概述简介 VFusion3D 是由 Meta 和牛津大学的开发人员一起推出的AI生成3D模型项目，能从单张图片或文本描述中生成高质...
Video-LLaVA2是什么？一文让你看懂Video-LLaVA2的技术原理、主要功能、应用场景

Video-LLaVA2概述简介 Video-LLaVA2是由北京大学ChatLaw课题组推出的开源多模态智能理解系统，通过创新的时空卷积（STC）...
LLaVA-OneVision是什么？一文让你看懂LLaVA-OneVision的技术原理、主要功能、应用场景

LLaVA-OneVision概述简介 LLaVA-OneVision是字节跳动推出开源的多模态AI大模型，LLaVA-OneVision通过整合数...
LongVILA是什么？一文让你看懂LongVILA的技术原理、主要功能、应用场景

LongVILA概述简介 LongVILA是一个面向长视频理解的视觉语言AI大模型，由英伟达、MIT、UC 伯克利、得克萨斯大学奥斯汀分校共同开发。...
VectorVein是什么？一文让你看懂VectorVein的技术原理、主要功能、应用场景

VectorVein概述简介 VectorVein 是一款开源的无代码AI工作流工具，通过简化的拖拽操作，让用户无需编程知识即可构建智能工作流，实现...
VideoGameBunny是什么？一文让你看懂VideoGameBunny的技术原理、主要功能、应用场景

VideoGameBunny概述简介 VideoGameBunny（VGB）是一个专为视频游戏设计的开源大型多模态模型，由加拿大阿尔伯塔大学研究团队...
DeepSeek-V2.5是什么？一文让你看懂DeepSeek-V2.5的技术原理、主要功能、应用场景

DeepSeek-V2.5概述简介 DeepSeek-V2.5 是DeepSeek推出的融合通用与代码能力的全新开源模型。保留了之前 Chat 模型...
ViewCrafter是什么？一文让你看懂ViewCrafter的技术原理、主要功能、应用场景

ViewCrafter概述简介 ViewCrafter 是北大和港中文联合腾讯提出的一种先进的视频扩散模型，能从单个或少量图像中合成高保真的新视图。...
VideoLLaMB是什么？一文让你看懂VideoLLaMB的技术原理、主要功能、应用场景

VideoLLaMB VideoLLaMB 是一种创新的长视频理解框架，通过引入记忆桥接层和递归记忆令牌来处理视频数据，确保在分析时不丢失关键视觉信...
DeepSeek-Coder-V2是什么？一文让你看懂DeepSeek-Coder-V2的技术原理、主要功能、应用场景

DeepSeek-Coder-V2概述简介 DeepSeek-Coder-V2 是由DeepSeek推出的开源代码语言大模型，在代码特定任务中的表现...
VoxInstruct是什么？一文让你看懂VoxInstruct的技术原理、主要功能、应用场景

VoxInstruct概述简介 VoxInstruct 是由清华大学开源的语音合成技术，能根据人类语言指令生成高度符合用户需求的语音。系统采用统一的...
XVERSE-MoE-A36B是什么？一文让你看懂XVERSE-MoE-A36B的技术原理、主要功能、应用场景

XVERSE-MoE-A36B概述简介 XVERSE-MoE-A36B是由元象推出的中国最大的MoE（Mixture of Experts，混合专家...
PyVideoTrans是什么？一文让你看懂PyVideoTrans的技术原理、主要功能、应用场景

PyVideoTrans概述简介 PyVideoTrans 是开源的视频翻译配音工具，将视频内容从一种语言自动翻译成另一种语言，并添加相应的字幕和配...

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们

AI TOOL