V

首页 > V

Free Video-LLM是什么？一文让你看懂Free Video-LLM的技术原理、主要功能、应用场景

Free Video-LLM概述简介 Free Video-LLM是创新的无需训练的高效视频语言大模型，基于提示引导的视觉感知技术，实现对视频内容的...
Voyage Multimodal-3是什么？一文让你看懂Voyage Multimodal-3的技术原理、主要功能、应用场景

Voyage Multimodal-3概述简介 Voyage Multimodal-3 是 Voyage AI 推出的先进的多模态嵌入模型，能处理交...
LLaVA-o1是什么？一文让你看懂LLaVA-o1的技术原理、主要功能、应用场景

LLaVA-o1概述简介 LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学（Lehigh University）组成的研...
Verifier Engineering是什么？一文让你看懂Verifier Engineering的技术原理、主要功能、应用场景

Verifier Engineering概述简介 Verifier Engineering（验证器工程）是中国科学院、阿里巴巴和小红书联合推出的新型...
BlueLM-V-3B是什么？一文让你看懂BlueLM-V-3B的技术原理、主要功能、应用场景

BlueLM-V-3B概述简介 BlueLM-V-3B是vivo AI Lab和香港中文大学MMLab联合推出的算法和系统协同设计方法，支持高效部署...
StableV2V是什么？一文让你看懂StableV2V的技术原理、主要功能、应用场景

StableV2V概述简介 StableV2V是中国科技大学推出的开源视频编辑项目，基于文本、草图、图片等输入实现视频中物体的精准编辑和替换。项目用...
JoyVASA是什么？一文让你看懂JoyVASA的技术原理、主要功能、应用场景

JoyVASA概述简介 JoyVASA是京东健康国际公司开源的音频驱动的数字人头项目，基于扩散模型技术，根据音频信号生成与音频同步的面部动态和头部运...
TIP-I2V是什么？一文让你看懂TIP-I2V的技术原理、主要功能、应用场景

TIP-I2V概述简介 TIP-I2V是大规模真实文V本和图像提示数据集，用在图像到视频生成领域。TIP-I2V包含超过170万独特的用户文本和图像...
MVPaint是什么？一文让你看懂MVPaint的技术原理、主要功能、应用场景

MVPaint概述简介 MVPaint是腾讯PCG 、上海AI LAB、南洋理工大学S-Lab、清华大学一起推出的3D纹理生成框架，基于同步多视角扩...
LTX Video是什么？一文让你看懂LTX Video的技术原理、主要功能、应用场景

LTX Video概述简介 LTX Video是Lightricks推出的开源AI视频生成模型，能在4秒内生成5秒的高质量视频，速度超过观看速度。基...
AutoVFX是什么？一文让你看懂AutoVFX的技术原理、主要功能、应用场景

AutoVFX概述简介 AutoVFX是先进的物理特效框架，是伊利诺伊大学香槟分校研究团队推出的，能根据自然语言指令自动创建真实感和动态的视觉特效（...
EchoMimicV2是什么？一文让你看懂EchoMimicV2的技术原理、主要功能、应用场景

EchoMimicV2概述简介 EchoMimicV2是阿里蚂蚁集团推出的半身人体AI数字人项目，基于参考图片、音频剪辑和手部姿势序列生成高质量动画...
CAVIA是什么？一文让你看懂CAVIA的技术原理、主要功能、应用场景

CAVIA概述简介 CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的多视角视频生成框架，能将单一输入图像转换成多个时空一致的视频序列。框...
ViewExtrapolator是什么？一文让你看懂ViewExtrapolator的技术原理、主要功能、应用场景

ViewExtrapolator概述简介 ViewExtrapolator是南洋理工大学、UCAS研究团队一起推出的新视角外推方法，基于稳定视频扩散...
SmolVLM是什么？一文让你看懂SmolVLM的技术原理、主要功能、应用场景

SmolVLM概述简介 SmolVLM是Hugging Face推出的轻量级视觉语言大模型，专为设备端推理设计。以20亿参数量，实现了高效内存占用和...
NVLM是什么？一文让你看懂NVLM的技术原理、主要功能、应用场景

NVLM概述简介 NVLM是NVIDIA推出的前沿多模态大型语言大模型（LLMs），在视觉-语言任务上达到与顶尖专有模型（如GPT-4o）和开放访问...
LongLLaVA是什么？一文让你看懂LongLLaVA的技术原理、主要功能、应用场景

LongLLaVA概述简介 LongLLaVA是的多模态大型语言大模型（MLLM），是香港中文大学（深圳）的开发人员推出。基于混合架构，结合Mamb...
EMOVA是什么？一文让你看懂EMOVA的技术原理、主要功能、应用场景

EMOVA概述简介 EMOVA（EMotionally Omni-present Voice Assistant）是多模态全能模型，是香港科技大学、...
Voice-Pro是什么？一文让你看懂Voice-Pro的技术原理、主要功能、应用场景

Voice-Pro概述简介 Voice-Pro是开源的多功能音频处理工具，集成语音转文字（STT）、文本转语音（TTS）、实时翻译、YouTube视...
HiFiVFS是什么？一文让你看懂HiFiVFS的技术原理、主要功能、应用场景

HiFiVFS概述简介 HiFiVFS（High Fidelity Video Face Swapping）是腾讯和VIVO公司推出的高保真视频换脸...

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们

AI TOOL