V

首页 > V

NVLM是什么？一文让你看懂NVLM的技术原理、主要功能、应用场景

NVLM概述简介 NVLM是NVIDIA推出的前沿多模态大型语言大模型（LLMs），在视觉-语言任务上达到与顶尖专有模型（如GPT-4o）和开放访问...
LongLLaVA是什么？一文让你看懂LongLLaVA的技术原理、主要功能、应用场景

LongLLaVA概述简介 LongLLaVA是的多模态大型语言大模型（MLLM），是香港中文大学（深圳）的开发人员推出。基于混合架构，结合Mamb...
EMOVA是什么？一文让你看懂EMOVA的技术原理、主要功能、应用场景

EMOVA概述简介 EMOVA（EMotionally Omni-present Voice Assistant）是多模态全能模型，是香港科技大学、...
Voice-Pro是什么？一文让你看懂Voice-Pro的技术原理、主要功能、应用场景

Voice-Pro概述简介 Voice-Pro是开源的多功能音频处理工具，集成语音转文字（STT）、文本转语音（TTS）、实时翻译、YouTube视...
HiFiVFS是什么？一文让你看懂HiFiVFS的技术原理、主要功能、应用场景

HiFiVFS概述简介 HiFiVFS（High Fidelity Video Face Swapping）是腾讯和VIVO公司推出的高保真视频换脸...
MVGenMaster是什么？一文让你看懂MVGenMaster的技术原理、主要功能、应用场景

MVGenMaster概述简介 MVGenMaster是复旦大学、阿里巴巴达摩院和湖潘实验室一起推出的多视图扩散模型，基于增强3D先验处理多样化的新...
HunyuanVideo是什么？一文让你看懂HunyuanVideo的技术原理、主要功能、应用场景

HunyuanVideo概述简介 HunyuanVideo是腾讯开源的视频生成模型，拥有130亿参数，是目前参数量最大的开源视频模型之一。Hunyu...
Lobe Vidol是什么？一文让你看懂Lobe Vidol的技术原理、主要功能、应用场景

Lobe Vidol概述简介 Lobe Vidol是开源的数字人创作平台，让每个人都能轻松创建和互动自己的虚拟偶像。Lobe Vidol提供流畅的对...
Vanna是什么？一文让你看懂Vanna的技术原理、主要功能、应用场景

Vanna概述简介 Vanna是开源的Python RAG（Retrieval-Augmented Generation）框架，能帮助用户基于大型语...
I2V-01-Live是什么？一文让你看懂I2V-01-Live的技术原理、主要功能、应用场景

I2V-01-Live概述简介 I2V-01-Live是海螺AI推出的图生视频模型，能将静态二维图像转化为动态视频。模型基于深度学习技术，增强动作的...
ClearerVoice-Studio是什么？一文让你看懂ClearerVoice-Studio的技术原理、主要功能、应用场景

ClearerVoice-Studio概述简介 ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架，集成语音增强、...
GLM-4V-Flash是什么？一文让你看懂GLM-4V-Flash的技术原理、主要功能、应用场景

clone-voice概述简介 Clone-voice是开源的声音克隆工具，基于深度学习技术分析和模拟人类声音，实现声音的高质量克隆。工具支持包括中...
NVILA是什么？一文让你看懂NVILA的技术原理、主要功能、应用场景

NVILA概述简介 NVILA是NVIDIA推出的系列视觉语言大模型，能平衡效率和准确性。模型用“先扩展后压缩”策略，有效处理高分辨率图像和长视频。...
Florence-VL是什么？一文让你看懂Florence-VL的技术原理、主要功能、应用场景

Florence-VL概述简介 Florence-VL是创新的多模态大型语言大模型（MLLMs），是马里兰大学和微软研究院一起推出的。Florenc...
VISION XL是什么？一文让你看懂VISION XL的技术原理、主要功能、应用场景

VISION XL概述简介 VISION XL是高效的视频修复和超分辨率工具，基于潜在扩散模型技术，专注于解决高清视频的逆问题。工具能修复视频缺失部...
CausVid是什么？一文让你看懂CausVid的技术原理、主要功能、应用场景

CausVid概述简介 CausVid是Adobe和MIT一起推出的自回归实时视频生成技术，能实现视频的即时播放。基于蒸馏预训练的双向扩散模型构建出...
DeepSeek-V2.5-1210是什么？一文让你看懂DeepSeek-V2.5-1210的技术原理、主要功能、应用场景

DeepSeek-V2.5-1210概述简介 DeepSeek-V2.5-1210是 DeepSeek 推出的 DeepSeek V2 系列收官AI...
书生·万象InternVL 2.5是什么？一文让你看懂书生·万象InternVL 2.5的技术原理、主要功能、应用场景

书生·万象InternVL 2.5概述简介书生·万象InternVL 2.5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言大模型...
STIV是什么？一文让你看懂STIV的技术原理、主要功能、应用场景

STIV概述简介 STIV（Scalable Text and Image Conditioned Video Generation）是苹果公司推出...
Insight-V是什么？一文让你看懂Insight-V的技术原理、主要功能、应用场景

Insight-V概述简介 Insight-V是南洋理工大学、腾讯公司和清华大学的研究者们一起推出的多模态模型，能提升多模态大型语言大模型在长链视觉...

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们

AI TOOL