收集全球10,000⁺个好用的AI软件
-
NVLM是什么?一文让你看懂NVLM的技术原理、主要功能、应用场景NVLM概述简介 NVLM是NVIDIA推出的前沿多模态大型语言大模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问... -
LongLLaVA是什么?一文让你看懂LongLLaVA的技术原理、主要功能、应用场景LongLLaVA概述简介 LongLLaVA是的多模态大型语言大模型(MLLM),是香港中文大学(深圳)的开发人员推出。基于混合架构,结合Mamb... -
EMOVA是什么?一文让你看懂EMOVA的技术原理、主要功能、应用场景EMOVA概述简介 EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、... -
Voice-Pro是什么?一文让你看懂Voice-Pro的技术原理、主要功能、应用场景Voice-Pro概述简介 Voice-Pro是开源的多功能音频处理工具,集成语音转文字(STT)、文本转语音(TTS)、实时翻译、YouTube视... -
HiFiVFS是什么?一文让你看懂HiFiVFS的技术原理、主要功能、应用场景HiFiVFS概述简介 HiFiVFS(High Fidelity Video Face Swapping)是腾讯和VIVO公司推出的高保真视频换脸... -
MVGenMaster是什么?一文让你看懂MVGenMaster的技术原理、主要功能、应用场景MVGenMaster概述简介 MVGenMaster是复旦大学、阿里巴巴达摩院和湖潘实验室一起推出的多视图扩散模型,基于增强3D先验处理多样化的新... -
HunyuanVideo是什么?一文让你看懂HunyuanVideo的技术原理、主要功能、应用场景HunyuanVideo概述简介 HunyuanVideo是腾讯开源的视频生成模型,拥有130亿参数,是目前参数量最大的开源视频模型之一。Hunyu... -
Lobe Vidol是什么?一文让你看懂Lobe Vidol的技术原理、主要功能、应用场景Lobe Vidol概述简介 Lobe Vidol是开源的数字人创作平台,让每个人都能轻松创建和互动自己的虚拟偶像。Lobe Vidol提供流畅的对... -
Vanna是什么?一文让你看懂Vanna的技术原理、主要功能、应用场景Vanna概述简介 Vanna是开源的Python RAG(Retrieval-Augmented Generation)框架,能帮助用户基于大型语... -
I2V-01-Live是什么?一文让你看懂I2V-01-Live的技术原理、主要功能、应用场景I2V-01-Live概述简介 I2V-01-Live是海螺AI推出的图生视频模型,能将静态二维图像转化为动态视频。模型基于深度学习技术,增强动作的... -
ClearerVoice-Studio是什么?一文让你看懂ClearerVoice-Studio的技术原理、主要功能、应用场景ClearerVoice-Studio概述简介 ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成语音增强、... -
GLM-4V-Flash是什么?一文让你看懂GLM-4V-Flash的技术原理、主要功能、应用场景clone-voice概述简介 Clone-voice是开源的声音克隆工具,基于深度学习技术分析和模拟人类声音,实现声音的高质量克隆。工具支持包括中... -
NVILA是什么?一文让你看懂NVILA的技术原理、主要功能、应用场景NVILA概述简介 NVILA是NVIDIA推出的系列视觉语言大模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。... -
Florence-VL是什么?一文让你看懂Florence-VL的技术原理、主要功能、应用场景Florence-VL概述简介 Florence-VL是创新的多模态大型语言大模型(MLLMs),是马里兰大学和微软研究院一起推出的。Florenc... -
VISION XL是什么?一文让你看懂VISION XL的技术原理、主要功能、应用场景VISION XL概述简介 VISION XL是高效的视频修复和超分辨率工具,基于潜在扩散模型技术,专注于解决高清视频的逆问题。工具能修复视频缺失部... -
CausVid是什么?一文让你看懂CausVid的技术原理、主要功能、应用场景CausVid概述简介 CausVid是Adobe和MIT一起推出的自回归实时视频生成技术,能实现视频的即时播放。基于蒸馏预训练的双向扩散模型构建出... -
DeepSeek-V2.5-1210是什么?一文让你看懂DeepSeek-V2.5-1210的技术原理、主要功能、应用场景DeepSeek-V2.5-1210概述简介 DeepSeek-V2.5-1210是 DeepSeek 推出的 DeepSeek V2 系列收官AI... -
书生·万象InternVL 2.5是什么?一文让你看懂书生·万象InternVL 2.5的技术原理、主要功能、应用场景书生·万象InternVL 2.5概述简介 书生·万象InternVL 2.5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言大模型... -
STIV是什么?一文让你看懂STIV的技术原理、主要功能、应用场景STIV概述简介 STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出... -
Insight-V是什么?一文让你看懂Insight-V的技术原理、主要功能、应用场景Insight-V概述简介 Insight-V是南洋理工大学、腾讯公司和清华大学的研究者们一起推出的多模态模型,能提升多模态大型语言大模型在长链视觉...