V

首页 > V

SVDQuant是什么？一文让你看懂SVDQuant的技术原理、主要功能、应用场景

SVDQuant概述简介 SVDQuant是MIT研究团队推出的后训练量化技术，针对扩散模型，将模型的权重和激活值量化至4位，减少内存占用加速推理过...
CosyVoice 2.0是什么？一文让你看懂CosyVoice 2.0的技术原理、主要功能、应用场景

CosyVoice 2.0概述简介 CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版，模型用有限标量量化...
Veo 2是什么？一文让你看懂Veo 2的技术原理、主要功能、应用场景

Veo 2概述简介 Veo 2 是 Google DeepMind 推出的 AI 视频生成模型，能根据文本或图像提示生成高质量视频内容。Veo 2支...
Ivy-VL是什么？一文让你看懂Ivy-VL的技术原理、主要功能、应用场景

Ivy-VL概述简介 Ivy-VL是AI Safeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI大模型，专为移动端和边缘设备设计。模...
VMB是什么？一文让你看懂VMB的技术原理、主要功能、应用场景

VMB概述简介 VMB（Visuals Music Bridge）是中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室、上...
MV-Adapter是什么？一文让你看懂MV-Adapter的技术原理、主要功能、应用场景

MV-Adapter概述简介 MV-Adapter是多视图一致图像生成模型，是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Ada...
RWKV-7是什么？一文让你看懂RWKV-7的技术原理、主要功能、应用场景

RWKV-7概述简介 RWKV-7是RWKV系列的最新大模型架构版本，超越了传统的attention和linear attention范式，具有更灵...
VisionFM是什么？一文让你看懂VisionFM的技术原理、主要功能、应用场景

VisionFM概述简介 VisionFM（伏羲慧眼）是多模态多任务的视觉基础模型，专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,4...
VSI-Bench是什么？一文让你看懂VSI-Bench的技术原理、主要功能、应用场景

VSI-Bench概述简介 VSI-Bench（Visual-Spatial Intelligence Benchmark）是李飞飞、谢赛宁及他们的...
OCTAVE是什么？一文让你看懂OCTAVE的技术原理、主要功能、应用场景

OCTAVE 概述简介 OCTAVE（Omni-Capable Text and Voice Engine）是Hume AI推出的新一代语音语言大模...
QVQ是什么？一文让你看懂QVQ的技术原理、主要功能、应用场景

QVQ概述简介 QVQ是阿里基于Qwen2-VL-72B构建的开源多模态推理模型，结合视觉理解和复杂问题解决能力，提升人工智能的认知能力。QVQ在视...
DeepSeek V3是什么？一文让你看懂DeepSeek V3的技术原理、主要功能、应用场景

DeepSeek V3概述简介 DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司深度求索（DeepSeek）开源的最新版AI大模型，在多...
VidTok是什么？一文让你看懂VidTok的技术原理、主要功能、应用场景

VidTok概述简介 VidTok（Video Tokenizer）是微软开源的先进的视频分词器，通过高效的算法将视频内容转换成一系列“视频词”。支...
AGUVIS是什么？一文让你看懂AGUVIS的技术原理、主要功能、应用场景

AGUVIS概述简介 AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架，专为自主GUI智能体设计，能在各种平台（如网页、桌面...
Enhance-A-Video是什么？一文让你看懂Enhance-A-Video的技术原理、主要功能、应用场景

Enhance-A-Video概述简介 Enhance-A-Video 是新加坡国立大学、上海人工智能实验室和德克萨斯大学奥斯汀分校联合推出的视频生...
Valley是什么？一文让你看懂Valley的技术原理、主要功能、应用场景

Valley概述简介 Valley是字节跳动推出的多模态大模型，用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准...
Vision Parse是什么？一文让你看懂Vision Parse的技术原理、主要功能、应用场景

Vision Parse概述简介 Vision Parse是开源的PDF文档转换工具，基于视觉语言大模型（Vision LLMs）将PDF文件转换成...
VideoPhy是什么？一文让你看懂VideoPhy的技术原理、主要功能、应用场景

VideoPhy概述简介 VideoPhy是UCLA和谷歌研究研究院联合推出的，首个评估视频生成模型物理常识能力的基准测试，能衡量模型生成的视频是否...
VideoVAE+是什么？一文让你看懂VideoVAE+的技术原理、主要功能、应用场景

VideoVAE+概述简介 VideoVAE+（VideoVAE Plus）是香港科技大学团队推出的先进的跨模态视频变分自编码器（Video VAE...
VersaGen是什么？一文让你看懂VersaGen的技术原理、主要功能、应用场景

VersaGen概述简介 VersaGen是文本到图像合成的生成式AI代理，能实现灵活的视觉控制能力。VersaGen能处理包括单一视觉主体、多个视...

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们

AI TOOL