V

首页 > V

LongVU是什么？一文让你看懂LongVU的技术原理、主要功能、应用场景

LongVU概述简介 LongVU是Meta AI团队推出的长视频理解模型，基于时空自适应压缩机制。解决处理长视频时受限于大型语言大模型（LLM）上...
VILA-U 是什么？一文让你看懂VILA-U 的技术原理、主要功能、应用场景

VILA-U概述简介 VILA-U是集成视频、图像、语言理解和生成的统一基础模型。基于单一的自回归下一个标记预测框架处理理解和生成任务，简化模型结构...
Video-XL是什么？一文让你看懂Video-XL的技术原理、主要功能、应用场景

Video-XL概述简介 Video-XL是北京智源人工智能研究院联合上海交大、中国人民大学、中科院、北邮和北大的开发人员一起推出的专为小时级视频理...
VtripGPT是什么？一文让你看懂VtripGPT的技术原理、主要功能、应用场景

VtripGPT概述简介 VtripGPT是视旅科技推出的专注于旅游领域的AI大模型，基于深度合成服务为旅游对话生成提供智能支持。模型基于Trans...
DreamVideo-2是什么？一文让你看懂DreamVideo-2的技术原理、主要功能、应用场景

DreamVideo-2概述简介 DreamVideo-2是创新的零样本视频定制框架，复旦大学和阿里集团等机构联合推出。DreamVideo-2能根...
HOVER是什么？一文让你看懂HOVER的技术原理、主要功能、应用场景

HOVER是什么 HOVER是英伟达推出的1.5M小模型，全称为“Humanoid Versatile Controller”，即人形机器人的多功能...
Voice Changer是什么？一文让你看懂Voice Changer的技术原理、主要功能、应用场景

Voice Changer概述简介 Voice Changer是Cartesia推出的新模型，能将任何音频剪辑的语音转换成其他音色，且保留原始音频的...
VirSci是什么？一文让你看懂VirSci的技术原理、主要功能、应用场景

VirSci概述简介 VirSci（Virtual Scientists）是上海人工智能实验室推出的多智能体AI科学研究工具，基于模拟科学家团队的合...
VideoTuna是什么？一文让你看懂VideoTuna的技术原理、主要功能、应用场景

VideoTuna概述简介 VideoTuna是集成多种AI视频生成模型的代码库，支持文本到视频、图像到视频和文本到图像的转换。VideoTuna提...
MMBench-Video是什么？一文让你看懂MMBench-Video的技术原理、主要功能、应用场景

MMBench-Video概述简介 MMBench-Video是新颖的长视频多题问答基准测试，是浙江大学、上海人工智能实验室、上海交通大学和香港中文...
VQAScore是什么？一文让你看懂VQAScore的技术原理、主要功能、应用场景

VQAScore概述简介 VQAScore是CMU和Meta联合推出的评估方法，基于视觉问答（VQA）模型衡量由文本提示生成的图像质量。VQASco...
Recraft V3是什么？一文让你看懂Recraft V3的技术原理、主要功能、应用场景

Recraft V3概述简介 Recraft V3是Recraft公司推出的AI文本到图像生成模型，在Hugging Face的文本到图像模型排行榜...
Fashion-VDM是什么？一文让你看懂Fashion-VDM的技术原理、主要功能、应用场景

Fashion-VDM概述简介 Fashion-VDM是谷歌和华盛顿大学一起推出的基于视频扩散模型（VDM）的虚拟试穿技术。能在给定服装图像和人物视...
CogVideoX v1.5是什么？一文让你看懂CogVideoX v1.5的技术原理、主要功能、应用场景

CogVideoX v1.5概述简介 CogVideoX v1.5是智谱最新开源的AI视频生成模型。模型包含CogVideoX v1.5-5B和Co...
HourVideo是什么？一文让你看懂HourVideo的技术原理、主要功能、应用场景

HourVideo概述简介 HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频理解基准数据集，包含500个第一人称视角视频，时长20至12...
VideoChat是什么？一文让你看懂VideoChat的技术原理、主要功能、应用场景

VideoChat概述简介 VideoChat是开源的实时数字人对话系统，支持语音输入和实时对话功能。用户自定义数字人的形象和音色，无需训练即可进行...
Vidu 1.5是什么？一文让你看懂Vidu 1.5的技术原理、主要功能、应用场景

Vidu 1.5概述简介 Vidu 1.5是生数科技推出的AI视频生成平台最新版本，致力于帮助创作者自由表达和高效创作。具备多模态视频大模型，支持参...
Vision Search Assistant是什么？一文让你看懂Vision Search Assistant的技术原理、主要功能、应用场景

Vision Search Assistant概述简介 Vision Search Assistant（VSA）是结合视觉语言大模型（VLMs）和网...
MVDrag3D是什么？一文让你看懂MVDrag3D的技术原理、主要功能、应用场景

MVDrag3D概述简介 MVDrag3D是创新的3D编辑框架，结合多视图生成和重建先验实现灵活且富有创造性的拖拽编辑。框架用多视图扩散模型作为生成...
OmniVision是什么？一文让你看懂OmniVision的技术原理、主要功能、应用场景

OmniVision概述简介 OmniVision是紧凑的多模态模型，拥有968M参数，专为边缘设备优化。OmniVision能处理视觉和文本输入，...

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们

AI TOOL