收集全球10,000⁺个好用的AI软件
-
Google AI StudioGoogle AI Studio是一个基于Vertex AI在Google Cloud上构建和部署AI应用程序的平台。它提供了一个无代码界面,使开发人... -
Nemotron-4-340B-BaseNemotron-4-340B-Base是由NVIDIA开发的大型语言模型,拥有3400亿参数,支持4096个token的上下文长度,适用于生成合成数... -
Vision Search Assistant是什么?一文让你看懂Vision Search Assistant的技术原理、主要功能、应用场景Vision Search Assistant概述简介 Vision Search Assistant(VSA)是结合视觉语言大模型(VLMs)和网... -
MVDrag3D是什么?一文让你看懂MVDrag3D的技术原理、主要功能、应用场景MVDrag3D概述简介 MVDrag3D是创新的3D编辑框架,结合多视图生成和重建先验实现灵活且富有创造性的拖拽编辑。框架用多视图扩散模型作为生成... -
OmniVision是什么?一文让你看懂OmniVision的技术原理、主要功能、应用场景OmniVision概述简介 OmniVision是紧凑的多模态模型,拥有968M参数,专为边缘设备优化。OmniVision能处理视觉和文本输入,... -
Free Video-LLM是什么?一文让你看懂Free Video-LLM的技术原理、主要功能、应用场景Free Video-LLM概述简介 Free Video-LLM是创新的无需训练的高效视频语言大模型,基于提示引导的视觉感知技术,实现对视频内容的... -
Voyage Multimodal-3是什么?一文让你看懂Voyage Multimodal-3的技术原理、主要功能、应用场景Voyage Multimodal-3概述简介 Voyage Multimodal-3 是 Voyage AI 推出的先进的多模态嵌入模型,能处理交... -
LLaVA-o1是什么?一文让你看懂LLaVA-o1的技术原理、主要功能、应用场景LLaVA-o1概述简介 LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研... -
Verifier Engineering是什么?一文让你看懂Verifier Engineering的技术原理、主要功能、应用场景Verifier Engineering概述简介 Verifier Engineering(验证器工程)是中国科学院、阿里巴巴和小红书联合推出的新型... -
BlueLM-V-3B是什么?一文让你看懂BlueLM-V-3B的技术原理、主要功能、应用场景BlueLM-V-3B概述简介 BlueLM-V-3B是vivo AI Lab和香港中文大学MMLab联合推出的算法和系统协同设计方法,支持高效部署... -
StableV2V是什么?一文让你看懂StableV2V的技术原理、主要功能、应用场景StableV2V概述简介 StableV2V是中国科技大学推出的开源视频编辑项目,基于文本、草图、图片等输入实现视频中物体的精准编辑和替换。项目用... -
JoyVASA是什么?一文让你看懂JoyVASA的技术原理、主要功能、应用场景JoyVASA概述简介 JoyVASA是京东健康国际公司开源的音频驱动的数字人头项目,基于扩散模型技术,根据音频信号生成与音频同步的面部动态和头部运... -
TIP-I2V是什么?一文让你看懂TIP-I2V的技术原理、主要功能、应用场景TIP-I2V概述简介 TIP-I2V是大规模真实文V本和图像提示数据集,用在图像到视频生成领域。TIP-I2V包含超过170万独特的用户文本和图像... -
MVPaint是什么?一文让你看懂MVPaint的技术原理、主要功能、应用场景MVPaint概述简介 MVPaint是腾讯PCG 、上海AI LAB、南洋理工大学S-Lab、清华大学一起推出的3D纹理生成框架,基于同步多视角扩... -
LTX Video是什么?一文让你看懂LTX Video的技术原理、主要功能、应用场景LTX Video概述简介 LTX Video是Lightricks推出的开源AI视频生成模型,能在4秒内生成5秒的高质量视频,速度超过观看速度。基... -
AutoVFX是什么?一文让你看懂AutoVFX的技术原理、主要功能、应用场景AutoVFX概述简介 AutoVFX是先进的物理特效框架,是伊利诺伊大学香槟分校研究团队推出的,能根据自然语言指令自动创建真实感和动态的视觉特效(... -
EchoMimicV2是什么?一文让你看懂EchoMimicV2的技术原理、主要功能、应用场景EchoMimicV2概述简介 EchoMimicV2是阿里蚂蚁集团推出的半身人体AI数字人项目,基于参考图片、音频剪辑和手部姿势序列生成高质量动画... -
CAVIA是什么?一文让你看懂CAVIA的技术原理、主要功能、应用场景CAVIA概述简介 CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的多视角视频生成框架,能将单一输入图像转换成多个时空一致的视频序列。框... -
ViewExtrapolator是什么?一文让你看懂ViewExtrapolator的技术原理、主要功能、应用场景ViewExtrapolator概述简介 ViewExtrapolator是南洋理工大学、UCAS研究团队一起推出的新视角外推方法,基于稳定视频扩散... -
SmolVLM是什么?一文让你看懂SmolVLM的技术原理、主要功能、应用场景SmolVLM概述简介 SmolVLM是Hugging Face推出的轻量级视觉语言大模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和...