V

首页 > V

MV-Adapter是什么？一文让你看懂MV-Adapter的技术原理、主要功能、应用场景

MV-Adapter概述简介 MV-Adapter是多视图一致图像生成模型，是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Ada...
RWKV-7是什么？一文让你看懂RWKV-7的技术原理、主要功能、应用场景

RWKV-7概述简介 RWKV-7是RWKV系列的最新大模型架构版本，超越了传统的attention和linear attention范式，具有更灵...
VisionFM是什么？一文让你看懂VisionFM的技术原理、主要功能、应用场景

VisionFM概述简介 VisionFM（伏羲慧眼）是多模态多任务的视觉基础模型，专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,4...
VSI-Bench是什么？一文让你看懂VSI-Bench的技术原理、主要功能、应用场景

VSI-Bench概述简介 VSI-Bench（Visual-Spatial Intelligence Benchmark）是李飞飞、谢赛宁及他们的...
OCTAVE是什么？一文让你看懂OCTAVE的技术原理、主要功能、应用场景

OCTAVE 概述简介 OCTAVE（Omni-Capable Text and Voice Engine）是Hume AI推出的新一代语音语言大模...
QVQ是什么？一文让你看懂QVQ的技术原理、主要功能、应用场景

QVQ概述简介 QVQ是阿里基于Qwen2-VL-72B构建的开源多模态推理模型，结合视觉理解和复杂问题解决能力，提升人工智能的认知能力。QVQ在视...
DeepSeek V3是什么？一文让你看懂DeepSeek V3的技术原理、主要功能、应用场景

DeepSeek V3概述简介 DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司深度求索（DeepSeek）开源的最新版AI大模型，在多...
VidTok是什么？一文让你看懂VidTok的技术原理、主要功能、应用场景

VidTok概述简介 VidTok（Video Tokenizer）是微软开源的先进的视频分词器，通过高效的算法将视频内容转换成一系列“视频词”。支...
AGUVIS是什么？一文让你看懂AGUVIS的技术原理、主要功能、应用场景

AGUVIS概述简介 AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架，专为自主GUI智能体设计，能在各种平台（如网页、桌面...
Enhance-A-Video是什么？一文让你看懂Enhance-A-Video的技术原理、主要功能、应用场景

Enhance-A-Video概述简介 Enhance-A-Video 是新加坡国立大学、上海人工智能实验室和德克萨斯大学奥斯汀分校联合推出的视频生...
Valley是什么？一文让你看懂Valley的技术原理、主要功能、应用场景

Valley概述简介 Valley是字节跳动推出的多模态大模型，用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准...
Vision Parse是什么？一文让你看懂Vision Parse的技术原理、主要功能、应用场景

Vision Parse概述简介 Vision Parse是开源的PDF文档转换工具，基于视觉语言大模型（Vision LLMs）将PDF文件转换成...
VE-Bench是什么？一文让你看懂VE-Bench的技术原理、主要功能、应用场景

VE-Bench概述简介 VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目...
VideoPhy是什么？一文让你看懂VideoPhy的技术原理、主要功能、应用场景

VideoPhy概述简介 VideoPhy是UCLA和谷歌研究研究院联合推出的，首个评估视频生成模型物理常识能力的基准测试，能衡量模型生成的视频是否...
VideoVAE+是什么？一文让你看懂VideoVAE+的技术原理、主要功能、应用场景

VideoVAE+概述简介 VideoVAE+（VideoVAE Plus）是香港科技大学团队推出的先进的跨模态视频变分自编码器（Video VAE...
VersaGen是什么？一文让你看懂VersaGen的技术原理、主要功能、应用场景

VersaGen概述简介 VersaGen是文本到图像合成的生成式AI代理，能实现灵活的视觉控制能力。VersaGen能处理包括单一视觉主体、多个视...
VideoMaker是什么？一文让你看懂VideoMaker的技术原理、主要功能、应用场景

VideoMaker概述简介 VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目，基于视频扩散模型（VDM）的零样本定制视频...
VITRON是什么？一文让你看懂VITRON的技术原理、主要功能、应用场景

VITRON概述简介 VITRON是Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大型语言大模型（LLM），能全面理解和处理...
VMix是什么？一文让你看懂VMix的技术原理、主要功能、应用场景

VMix概述简介 VMix是创新的即插即用美学适配器，提升文本到图像扩散模型生成图像的美学质量。通过解耦输入文本提示中的内容描述和美学描述，将细粒度...
VideoAnydoor是什么？一文让你看懂VideoAnydoor的技术原理、主要功能、应用场景

VideoAnydoor概述简介 VideoAnydoor是香港大学、阿里集团达摩院、湖畔实验室、华中科技大学联合推出的零样本的视频对象插入框架，能...

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们

AI TOOL