收集全球10,000⁺个好用的AI软件
-
MV-Adapter是什么?一文让你看懂MV-Adapter的技术原理、主要功能、应用场景MV-Adapter概述简介 MV-Adapter是多视图一致图像生成模型,是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Ada... -
RWKV-7是什么?一文让你看懂RWKV-7的技术原理、主要功能、应用场景RWKV-7概述简介 RWKV-7是RWKV系列的最新大模型架构版本,超越了传统的attention和linear attention范式,具有更灵... -
VisionFM是什么?一文让你看懂VisionFM的技术原理、主要功能、应用场景VisionFM概述简介 VisionFM(伏羲慧眼)是多模态多任务的视觉基础模型,专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,4... -
VSI-Bench是什么?一文让你看懂VSI-Bench的技术原理、主要功能、应用场景VSI-Bench概述简介 VSI-Bench(Visual-Spatial Intelligence Benchmark)是李飞飞、谢赛宁及他们的... -
OCTAVE是什么?一文让你看懂OCTAVE的技术原理、主要功能、应用场景OCTAVE 概述简介 OCTAVE(Omni-Capable Text and Voice Engine)是Hume AI推出的新一代语音语言大模... -
QVQ是什么?一文让你看懂QVQ的技术原理、主要功能、应用场景QVQ概述简介 QVQ是阿里基于Qwen2-VL-72B构建的开源多模态推理模型,结合视觉理解和复杂问题解决能力,提升人工智能的认知能力。QVQ在视... -
DeepSeek V3是什么?一文让你看懂DeepSeek V3的技术原理、主要功能、应用场景DeepSeek V3概述简介 DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司深度求索(DeepSeek)开源的最新版AI大模型,在多... -
VidTok是什么?一文让你看懂VidTok的技术原理、主要功能、应用场景VidTok概述简介 VidTok(Video Tokenizer)是微软开源的先进的视频分词器,通过高效的算法将视频内容转换成一系列“视频词”。支... -
AGUVIS是什么?一文让你看懂AGUVIS的技术原理、主要功能、应用场景AGUVIS概述简介 AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架,专为自主GUI智能体设计,能在各种平台(如网页、桌面... -
Enhance-A-Video是什么?一文让你看懂Enhance-A-Video的技术原理、主要功能、应用场景Enhance-A-Video概述简介 Enhance-A-Video 是新加坡国立大学、上海人工智能实验室和德克萨斯大学奥斯汀分校联合推出的视频生... -
Valley是什么?一文让你看懂Valley的技术原理、主要功能、应用场景Valley概述简介 Valley是字节跳动推出的多模态大模型,用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准... -
Vision Parse是什么?一文让你看懂Vision Parse的技术原理、主要功能、应用场景Vision Parse概述简介 Vision Parse是开源的PDF文档转换工具,基于视觉语言大模型(Vision LLMs)将PDF文件转换成... -
VE-Bench是什么?一文让你看懂VE-Bench的技术原理、主要功能、应用场景VE-Bench概述简介 VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目... -
VideoPhy是什么?一文让你看懂VideoPhy的技术原理、主要功能、应用场景VideoPhy概述简介 VideoPhy是UCLA和谷歌研究研究院联合推出的,首个评估视频生成模型物理常识能力的基准测试,能衡量模型生成的视频是否... -
VideoVAE+是什么?一文让你看懂VideoVAE+的技术原理、主要功能、应用场景VideoVAE+概述简介 VideoVAE+(VideoVAE Plus)是香港科技大学团队推出的先进的跨模态视频变分自编码器(Video VAE... -
VersaGen是什么?一文让你看懂VersaGen的技术原理、主要功能、应用场景VersaGen概述简介 VersaGen是文本到图像合成的生成式AI代理,能实现灵活的视觉控制能力。VersaGen能处理包括单一视觉主体、多个视... -
VideoMaker是什么?一文让你看懂VideoMaker的技术原理、主要功能、应用场景VideoMaker概述简介 VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目,基于视频扩散模型(VDM)的零样本定制视频... -
VITRON是什么?一文让你看懂VITRON的技术原理、主要功能、应用场景VITRON概述简介 VITRON是Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大型语言大模型(LLM),能全面理解和处理... -
VMix是什么?一文让你看懂VMix的技术原理、主要功能、应用场景VMix概述简介 VMix是创新的即插即用美学适配器,提升文本到图像扩散模型生成图像的美学质量。通过解耦输入文本提示中的内容描述和美学描述,将细粒度... -
VideoAnydoor是什么?一文让你看懂VideoAnydoor的技术原理、主要功能、应用场景VideoAnydoor概述简介 VideoAnydoor是香港大学、阿里集团达摩院、湖畔实验室、华中科技大学联合推出的零样本的视频对象插入框架,能...