收集全球10,000⁺个好用的AI软件
-
LongVU是什么?一文让你看懂LongVU的技术原理、主要功能、应用场景LongVU概述简介 LongVU是Meta AI团队推出的长视频理解模型,基于时空自适应压缩机制。解决处理长视频时受限于大型语言大模型(LLM)上... -
VILA-U 是什么?一文让你看懂VILA-U 的技术原理、主要功能、应用场景VILA-U概述简介 VILA-U是集成视频、图像、语言理解和生成的统一基础模型。基于单一的自回归下一个标记预测框架处理理解和生成任务,简化模型结构... -
Video-XL是什么?一文让你看懂Video-XL的技术原理、主要功能、应用场景Video-XL概述简介 Video-XL是北京智源人工智能研究院联合上海交大、中国人民大学、中科院、北邮和北大的开发人员一起推出的专为小时级视频理... -
VtripGPT是什么?一文让你看懂VtripGPT的技术原理、主要功能、应用场景VtripGPT概述简介 VtripGPT是视旅科技推出的专注于旅游领域的AI大模型,基于深度合成服务为旅游对话生成提供智能支持。模型基于Trans... -
DreamVideo-2是什么?一文让你看懂DreamVideo-2的技术原理、主要功能、应用场景DreamVideo-2概述简介 DreamVideo-2是创新的零样本视频定制框架,复旦大学和阿里集团等机构联合推出。DreamVideo-2能根... -
HOVER是什么?一文让你看懂HOVER的技术原理、主要功能、应用场景HOVER是什么 HOVER是英伟达推出的1.5M小模型,全称为“Humanoid Versatile Controller”,即人形机器人的多功能... -
Voice Changer是什么?一文让你看懂Voice Changer的技术原理、主要功能、应用场景Voice Changer概述简介 Voice Changer是Cartesia推出的新模型,能将任何音频剪辑的语音转换成其他音色,且保留原始音频的... -
VirSci是什么?一文让你看懂VirSci的技术原理、主要功能、应用场景VirSci概述简介 VirSci(Virtual Scientists)是上海人工智能实验室推出的多智能体AI科学研究工具,基于模拟科学家团队的合... -
VideoTuna是什么?一文让你看懂VideoTuna的技术原理、主要功能、应用场景VideoTuna概述简介 VideoTuna是集成多种AI视频生成模型的代码库,支持文本到视频、图像到视频和文本到图像的转换。VideoTuna提... -
MMBench-Video是什么?一文让你看懂MMBench-Video的技术原理、主要功能、应用场景MMBench-Video概述简介 MMBench-Video是新颖的长视频多题问答基准测试,是浙江大学、上海人工智能实验室、上海交通大学和香港中文... -
VQAScore是什么?一文让你看懂VQAScore的技术原理、主要功能、应用场景VQAScore概述简介 VQAScore是CMU和Meta联合推出的评估方法,基于视觉问答(VQA)模型衡量由文本提示生成的图像质量。VQASco... -
Recraft V3是什么?一文让你看懂Recraft V3的技术原理、主要功能、应用场景Recraft V3概述简介 Recraft V3是Recraft公司推出的AI文本到图像生成模型,在Hugging Face的文本到图像模型排行榜... -
Fashion-VDM是什么?一文让你看懂Fashion-VDM的技术原理、主要功能、应用场景Fashion-VDM概述简介 Fashion-VDM是谷歌和华盛顿大学一起推出的基于视频扩散模型(VDM)的虚拟试穿技术。能在给定服装图像和人物视... -
CogVideoX v1.5是什么?一文让你看懂CogVideoX v1.5的技术原理、主要功能、应用场景CogVideoX v1.5概述简介 CogVideoX v1.5是智谱最新开源的AI视频生成模型。模型包含CogVideoX v1.5-5B和Co... -
HourVideo是什么?一文让你看懂HourVideo的技术原理、主要功能、应用场景HourVideo概述简介 HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频理解基准数据集,包含500个第一人称视角视频,时长20至12... -
VideoChat是什么?一文让你看懂VideoChat的技术原理、主要功能、应用场景VideoChat概述简介 VideoChat是开源的实时数字人对话系统,支持语音输入和实时对话功能。用户自定义数字人的形象和音色,无需训练即可进行... -
Vidu 1.5是什么?一文让你看懂Vidu 1.5的技术原理、主要功能、应用场景Vidu 1.5概述简介 Vidu 1.5是生数科技推出的AI视频生成平台最新版本,致力于帮助创作者自由表达和高效创作。具备多模态视频大模型,支持参... -
Vision Search Assistant是什么?一文让你看懂Vision Search Assistant的技术原理、主要功能、应用场景Vision Search Assistant概述简介 Vision Search Assistant(VSA)是结合视觉语言大模型(VLMs)和网... -
MVDrag3D是什么?一文让你看懂MVDrag3D的技术原理、主要功能、应用场景MVDrag3D概述简介 MVDrag3D是创新的3D编辑框架,结合多视图生成和重建先验实现灵活且富有创造性的拖拽编辑。框架用多视图扩散模型作为生成... -
OmniVision是什么?一文让你看懂OmniVision的技术原理、主要功能、应用场景OmniVision概述简介 OmniVision是紧凑的多模态模型,拥有968M参数,专为边缘设备优化。OmniVision能处理视觉和文本输入,...