收集全球10,000⁺个好用的AI软件
-
Free Video-LLM是什么?一文让你看懂Free Video-LLM的技术原理、主要功能、应用场景Free Video-LLM概述简介 Free Video-LLM是创新的无需训练的高效视频语言大模型,基于提示引导的视觉感知技术,实现对视频内容的... -
Voyage Multimodal-3是什么?一文让你看懂Voyage Multimodal-3的技术原理、主要功能、应用场景Voyage Multimodal-3概述简介 Voyage Multimodal-3 是 Voyage AI 推出的先进的多模态嵌入模型,能处理交... -
LLaVA-o1是什么?一文让你看懂LLaVA-o1的技术原理、主要功能、应用场景LLaVA-o1概述简介 LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研... -
Verifier Engineering是什么?一文让你看懂Verifier Engineering的技术原理、主要功能、应用场景Verifier Engineering概述简介 Verifier Engineering(验证器工程)是中国科学院、阿里巴巴和小红书联合推出的新型... -
BlueLM-V-3B是什么?一文让你看懂BlueLM-V-3B的技术原理、主要功能、应用场景BlueLM-V-3B概述简介 BlueLM-V-3B是vivo AI Lab和香港中文大学MMLab联合推出的算法和系统协同设计方法,支持高效部署... -
StableV2V是什么?一文让你看懂StableV2V的技术原理、主要功能、应用场景StableV2V概述简介 StableV2V是中国科技大学推出的开源视频编辑项目,基于文本、草图、图片等输入实现视频中物体的精准编辑和替换。项目用... -
JoyVASA是什么?一文让你看懂JoyVASA的技术原理、主要功能、应用场景JoyVASA概述简介 JoyVASA是京东健康国际公司开源的音频驱动的数字人头项目,基于扩散模型技术,根据音频信号生成与音频同步的面部动态和头部运... -
TIP-I2V是什么?一文让你看懂TIP-I2V的技术原理、主要功能、应用场景TIP-I2V概述简介 TIP-I2V是大规模真实文V本和图像提示数据集,用在图像到视频生成领域。TIP-I2V包含超过170万独特的用户文本和图像... -
MVPaint是什么?一文让你看懂MVPaint的技术原理、主要功能、应用场景MVPaint概述简介 MVPaint是腾讯PCG 、上海AI LAB、南洋理工大学S-Lab、清华大学一起推出的3D纹理生成框架,基于同步多视角扩... -
LTX Video是什么?一文让你看懂LTX Video的技术原理、主要功能、应用场景LTX Video概述简介 LTX Video是Lightricks推出的开源AI视频生成模型,能在4秒内生成5秒的高质量视频,速度超过观看速度。基... -
AutoVFX是什么?一文让你看懂AutoVFX的技术原理、主要功能、应用场景AutoVFX概述简介 AutoVFX是先进的物理特效框架,是伊利诺伊大学香槟分校研究团队推出的,能根据自然语言指令自动创建真实感和动态的视觉特效(... -
EchoMimicV2是什么?一文让你看懂EchoMimicV2的技术原理、主要功能、应用场景EchoMimicV2概述简介 EchoMimicV2是阿里蚂蚁集团推出的半身人体AI数字人项目,基于参考图片、音频剪辑和手部姿势序列生成高质量动画... -
CAVIA是什么?一文让你看懂CAVIA的技术原理、主要功能、应用场景CAVIA概述简介 CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的多视角视频生成框架,能将单一输入图像转换成多个时空一致的视频序列。框... -
ViewExtrapolator是什么?一文让你看懂ViewExtrapolator的技术原理、主要功能、应用场景ViewExtrapolator概述简介 ViewExtrapolator是南洋理工大学、UCAS研究团队一起推出的新视角外推方法,基于稳定视频扩散... -
SmolVLM是什么?一文让你看懂SmolVLM的技术原理、主要功能、应用场景SmolVLM概述简介 SmolVLM是Hugging Face推出的轻量级视觉语言大模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和... -
NVLM是什么?一文让你看懂NVLM的技术原理、主要功能、应用场景NVLM概述简介 NVLM是NVIDIA推出的前沿多模态大型语言大模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问... -
LongLLaVA是什么?一文让你看懂LongLLaVA的技术原理、主要功能、应用场景LongLLaVA概述简介 LongLLaVA是的多模态大型语言大模型(MLLM),是香港中文大学(深圳)的开发人员推出。基于混合架构,结合Mamb... -
EMOVA是什么?一文让你看懂EMOVA的技术原理、主要功能、应用场景EMOVA概述简介 EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、... -
Voice-Pro是什么?一文让你看懂Voice-Pro的技术原理、主要功能、应用场景Voice-Pro概述简介 Voice-Pro是开源的多功能音频处理工具,集成语音转文字(STT)、文本转语音(TTS)、实时翻译、YouTube视... -
HiFiVFS是什么?一文让你看懂HiFiVFS的技术原理、主要功能、应用场景HiFiVFS概述简介 HiFiVFS(High Fidelity Video Face Swapping)是腾讯和VIVO公司推出的高保真视频换脸...