收集全球10,000⁺个好用的AI软件
-
MV-MATH是什么?一文让你看懂MV-MATH的技术原理、主要功能、应用场景MV-MATH概述简介 MV-MATH 是中科院自动化所提出的新基准数据集,评估多模态大语言大模型(MLLMs)在多视觉场景中的数学推理能力。数据集... -
VACE是什么?一文让你看懂VACE的技术原理、主要功能、应用场景VACE概述简介 VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视... -
BEHAVIOR Robot Suite是什么?一文让你看懂BEHAVIOR Robot Suite的技术原理、主要功能、应用场景BEHAVIOR Robot Suite概述简介 BEHAVIOR Robot Suite(BRS)是斯坦福大学李飞飞团队推出的用在学习全身操作完成... -
Open-LLM-VTuber是什么?一文让你看懂Open-LLM-VTuber的技术原理、主要功能、应用场景Open-LLM-VTuber概述简介 Open-LLM-VTuber 是开源的跨平台语音交互 AI 伴侣项目。支持实时语音对话、视觉感知,配备生动... -
I2V3D是什么?一文让你看懂I2V3D的技术原理、主要功能、应用场景I2V3D概述简介 I2V3D是香港城市大学和微软 GenAI创新的图像到视频生成框架,支持将静态图像转换为动态视频,基于3D几何引导实现精确的动画... -
Skywork R1V是什么?一文让你看懂Skywork R1V的技术原理、主要功能、应用场景Skywork R1V概述简介 Skywork R1V是昆仑万维开源的第一款工业界多模态思维链推理模型,具备强大的视觉链式推理能力。Skywork ... -
Stable Virtual Camera是什么?一文让你看懂Stable Virtual Camera的技术原理、主要功能、应用场景Stable Virtual Camera概述简介 Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能... -
Step-Video-TI2V是什么?一文让你看懂Step-Video-TI2V的技术原理、主要功能、应用场景Step-Video-TI2V概述简介 Step-Video-TI2V 是阶跃星辰(StepFun)推出的开源图生视频(Image-to-Video... -
MoshiVis是什么?一文让你看懂MoshiVis的技术原理、主要功能、应用场景MoshiVis概述简介 MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。... -
StarVector是什么?一文让你看懂StarVector的技术原理、主要功能、应用场景StarVector概述简介 StarVector 是开源的多模态视觉语言大模型,ServiceNow Research、Mila – Quebec... -
Qwen2.5-VL-32B是什么?一文让你看懂Qwen2.5-VL-32B的技术原理、主要功能、应用场景Qwen2.5-VL-32B概述简介 Qwen2.5-VL-32B是阿里巴巴开源的多模态模型,参数规模为32B。模型在Qwen2.5-VL系列的基础... -
Mureka V6是什么?一文让你看懂Mureka V6的技术原理、主要功能、应用场景Mureka V6概述简介 Mureka V6是昆仑万维推出的AI音乐创作平台的基座模型,支持纯音乐生成以及10种语言的AI音乐创作。引入自研的IC... -
Video-T1是什么?一文让你看懂Video-T1的技术原理、主要功能、应用场景Video-T1概述简介 Video-T1 是清华大学和腾讯的开发人员一起推出的视频生成技术,基于测试时扩展(Test-Time Scaling,T... -
QVQ-Max是什么?一文让你看懂QVQ-Max的技术原理、主要功能、应用场景QVQ-Max概述简介 QVQ-Max 是阿里通义推出的视觉推理模型,是QVQ-72B-Preview的正式升级版。QVQ-Max能“看懂”图片和视... -
I2VGen-X是什么?一文让你看懂I2VGen-X的技术原理、主要功能、应用场景I2VGen-XL概述简介 I2VGen-XL 是阿里巴巴达摩院推出的一款开源的图像到视频的生成模型,通过创新的级联扩散方法,将文本视频数据与视频结... -
MagicVideo-V2是什么?一文让你看懂MagicVideo-V2的技术原理、主要功能、应用场景MagicVideo-V2概述简介 MagicVideo-V2 是字节跳动公司团队开发的一款AI视频生成模型和框架,通过将文本到图像模型、视频运动生... -
VideoCrafter2是什么?一文让你看懂VideoCrafter2的技术原理、主要功能、应用场景VideoCrafter2 是什么? VideoCrafter2是一个由腾讯AI实验室开发的视频生成模型,旨在克服高质量视频数据获取的局限性,训练出... -
Vary-toy是什么?一文让你看懂Vary-toy的技术原理、主要功能、应用场景Vary-toy概述简介 Vary-toy是一个小型的视觉语言大模型(LVLM),由来自旷视、国科大、华中大的开发人员共同提出,旨在解决大型视觉语言... -
V-JEPA是什么?一文让你看懂V-JEPA的技术原理、主要功能、应用场景V-JEPA是什么? V-JEPA(Video Joint-Embedding Predictive Architecture,视频联合嵌入预测架构... -
VideoPoet是什么?一文让你看懂VideoPoet的技术原理、主要功能、应用场景VideoPoet概述简介 VideoPoet是由谷歌的研究团队开发的一种基于大模型的AI视频生成方案,支持从文本、图像或视频输入中合成高质量的视频...