V

首页 > V

CogView-4是什么？一文让你看懂CogView-4的技术原理、主要功能、应用场景

CogView4概述简介 CogView4 是智谱推出的开源文生图模型，具有60亿参数，支持原生中文输入和中文文字生成。模型在 DPG-Bench ...
VideoLLaMA3是什么？一文让你看懂VideoLLaMA3的技术原理、主要功能、应用场景

VideoLLaMA3概述简介 VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型，专注于图像和视频理解。基于 Qwen 2.5 架构，结合...
Qwen2.5-VL是什么？一文让你看懂Qwen2.5-VL的技术原理、主要功能、应用场景

Qwen2.5-VL概述简介 Qwen2.5-VL是阿里通义千问团队开源的旗舰视觉语言大模型，具有3B、7B和72B三种不同规模。模型在视觉理解方面...
QVQ-72B-Preview是什么？一文让你看懂QVQ-72B-Preview的技术原理、主要功能、应用场景

QVQ-72B-Preview概述简介 QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型，专注于提升视觉推理能力。模型在多个...
MobileVD是什么？一文让你看懂MobileVD的技术原理、主要功能、应用场景

MobileVD概述简介 MobileVD（Mobile Video Diffusion）是首个针对移动设备优化的视频扩散模型，Qualcomm A...
VARGPT是什么？一文让你看懂VARGPT的技术原理、主要功能、应用场景

VARGPT概述简介 VARGPT是创新的多模态大语言大模型，专注于视觉理解和生成任务。基于自回归框架，将视觉生成与理解统一在一个模型中，避免任务切...
VideoReward是什么？一文让你看懂VideoReward的技术原理、主要功能、应用场景

VideoReward概述简介 VideoReward 是香港中文大学、清华大学、快手科技等联合创建的视频生成偏好数据集及奖励模型。包含182,00...
VideoJAM是什么？一文让你看懂VideoJAM的技术原理、主要功能、应用场景

VideoJAM概述简介 VideoJAM是Meta推出的，用在增强视频生成模型运动连贯性的框架。基于引入联合外观-运动表示，让模型在训练阶段同时学...
MVoT是什么？一文让你看懂MVoT的技术原理、主要功能、应用场景

MVoT概述简介 MVoT（Multimodal Visualization-of-Thought）是微软研究院、剑桥大学语言技术实验室、中国科学院...
DynVFX是什么？一文让你看懂DynVFX的技术原理、主要功能、应用场景

DynVFX概述简介 DynVFX是创新的视频增强技术，能根据简单的文本指令将动态内容无缝集成到真实视频中。通过结合预训练的文本到视频扩散模型和视觉...
VisoMaster是什么？一文让你看懂VisoMaster的技术原理、主要功能、应用场景

VisoMaster概述简介 VisoMaster 是基于 AI 技术的换脸和编辑软件，功能强大操作简便。支持图片、视频以及直播换脸，能生成自然逼真...
FlashVideo是什么？一文让你看懂FlashVideo的技术原理、主要功能、应用场景

FlashVideo概述简介 FlashVideo是字节跳动团队提出的高效的高分辨率视频生成框架，通过两阶段方法解决了传统单阶段扩散模型在高分辨率视...
LLaVA-Rad是什么？一文让你看懂LLaVA-Rad的技术原理、主要功能、应用场景

LLaVA-Rad概述简介 LLaVA-Rad是微软研究院推出的小型多模态模型，专注于临床放射学报告生成。是LLaVA-Med项目的分支，特别是胸部...
VideoCaptioner是什么？一文让你看懂VideoCaptioner的技术原理、主要功能、应用场景

VideoCaptioner概述简介 VideoCaptioner（中文名：卡卡字幕助手）是基于大语言大模型（LLM）的智能字幕处理工具，能简化视频...
InternVideo2.5是什么？一文让你看懂InternVideo2.5的技术原理、主要功能、应用场景

InternVideo2.5概述简介 InternVideo2.5是上海人工智能实验室联合南京大学、中科院深圳先进技术研究院共同开源的视频多模态大模...
Lumina-Video是什么？一文让你看懂Lumina-Video的技术原理、主要功能、应用场景

Lumina-Video概述简介 Lumina-Video是上海 AI Lab 和香港中文大学推出的视频生成框架，基于Next-DiT架构，针对视频...
RWKV-7-2.9B是什么？一文让你看懂RWKV-7-2.9B的技术原理、主要功能、应用场景

RWKV-7-2.9B概述简介 RWKV-7-2.9B模型（RWKV-7-World-2.9B-V3）是RWKV 基金推出的先进 RNN 大语言大...
Sa2VA是什么？一文让你看懂Sa2VA的技术原理、主要功能、应用场景

Sa2VA概述简介 Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学一起推出的多模态大语言大模型，是SAM2和LLaVA结合而成，能实...
AnyCharV是什么？一文让你看懂AnyCharV的技术原理、主要功能、应用场景

AnyCharV概述简介 AnyCharV是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控视频生成框架，能将任意参考角色图像与目...
Long-VITA是什么？一文让你看懂Long-VITA的技术原理、主要功能、应用场景

Long-VITA概述简介 Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型，能处理超过100万tokens的长文本输入，在...

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们

AI TOOL