收集全球10,000⁺个好用的AI软件
-
SVDQuant是什么?一文让你看懂SVDQuant的技术原理、主要功能、应用场景SVDQuant概述简介 SVDQuant是MIT研究团队推出的后训练量化技术,针对扩散模型,将模型的权重和激活值量化至4位,减少内存占用加速推理过... -
CosyVoice 2.0是什么?一文让你看懂CosyVoice 2.0的技术原理、主要功能、应用场景CosyVoice 2.0概述简介 CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化... -
Veo 2是什么?一文让你看懂Veo 2的技术原理、主要功能、应用场景Veo 2概述简介 Veo 2 是 Google DeepMind 推出的 AI 视频生成模型,能根据文本或图像提示生成高质量视频内容。Veo 2支... -
Ivy-VL是什么?一文让你看懂Ivy-VL的技术原理、主要功能、应用场景Ivy-VL概述简介 Ivy-VL是AI Safeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI大模型,专为移动端和边缘设备设计。模... -
VMB是什么?一文让你看懂VMB的技术原理、主要功能、应用场景VMB概述简介 VMB(Visuals Music Bridge)是中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室、上... -
MV-Adapter是什么?一文让你看懂MV-Adapter的技术原理、主要功能、应用场景MV-Adapter概述简介 MV-Adapter是多视图一致图像生成模型,是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Ada... -
RWKV-7是什么?一文让你看懂RWKV-7的技术原理、主要功能、应用场景RWKV-7概述简介 RWKV-7是RWKV系列的最新大模型架构版本,超越了传统的attention和linear attention范式,具有更灵... -
VisionFM是什么?一文让你看懂VisionFM的技术原理、主要功能、应用场景VisionFM概述简介 VisionFM(伏羲慧眼)是多模态多任务的视觉基础模型,专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,4... -
VSI-Bench是什么?一文让你看懂VSI-Bench的技术原理、主要功能、应用场景VSI-Bench概述简介 VSI-Bench(Visual-Spatial Intelligence Benchmark)是李飞飞、谢赛宁及他们的... -
OCTAVE是什么?一文让你看懂OCTAVE的技术原理、主要功能、应用场景OCTAVE 概述简介 OCTAVE(Omni-Capable Text and Voice Engine)是Hume AI推出的新一代语音语言大模... -
QVQ是什么?一文让你看懂QVQ的技术原理、主要功能、应用场景QVQ概述简介 QVQ是阿里基于Qwen2-VL-72B构建的开源多模态推理模型,结合视觉理解和复杂问题解决能力,提升人工智能的认知能力。QVQ在视... -
DeepSeek V3是什么?一文让你看懂DeepSeek V3的技术原理、主要功能、应用场景DeepSeek V3概述简介 DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司深度求索(DeepSeek)开源的最新版AI大模型,在多... -
VidTok是什么?一文让你看懂VidTok的技术原理、主要功能、应用场景VidTok概述简介 VidTok(Video Tokenizer)是微软开源的先进的视频分词器,通过高效的算法将视频内容转换成一系列“视频词”。支... -
AGUVIS是什么?一文让你看懂AGUVIS的技术原理、主要功能、应用场景AGUVIS概述简介 AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架,专为自主GUI智能体设计,能在各种平台(如网页、桌面... -
Enhance-A-Video是什么?一文让你看懂Enhance-A-Video的技术原理、主要功能、应用场景Enhance-A-Video概述简介 Enhance-A-Video 是新加坡国立大学、上海人工智能实验室和德克萨斯大学奥斯汀分校联合推出的视频生... -
Valley是什么?一文让你看懂Valley的技术原理、主要功能、应用场景Valley概述简介 Valley是字节跳动推出的多模态大模型,用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准... -
Vision Parse是什么?一文让你看懂Vision Parse的技术原理、主要功能、应用场景Vision Parse概述简介 Vision Parse是开源的PDF文档转换工具,基于视觉语言大模型(Vision LLMs)将PDF文件转换成... -
VideoPhy是什么?一文让你看懂VideoPhy的技术原理、主要功能、应用场景VideoPhy概述简介 VideoPhy是UCLA和谷歌研究研究院联合推出的,首个评估视频生成模型物理常识能力的基准测试,能衡量模型生成的视频是否... -
VideoVAE+是什么?一文让你看懂VideoVAE+的技术原理、主要功能、应用场景VideoVAE+概述简介 VideoVAE+(VideoVAE Plus)是香港科技大学团队推出的先进的跨模态视频变分自编码器(Video VAE... -
VersaGen是什么?一文让你看懂VersaGen的技术原理、主要功能、应用场景VersaGen概述简介 VersaGen是文本到图像合成的生成式AI代理,能实现灵活的视觉控制能力。VersaGen能处理包括单一视觉主体、多个视...