收集全球10,000⁺个好用的AI软件
-
Sonic是什么?一文让你看懂Sonic的技术原理、主要功能、应用场景Sonic概述简介 Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架,基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习...
-
FireRedASR是什么?一文让你看懂FireRedASR的技术原理、主要功能、应用场景FireRedASR概述简介 FireRedASR 是小红书开源的工业级自动语音识别(ASR)模型家族,支持普通话、中文方言和英语,在普通话 ASR...
-
MVoT是什么?一文让你看懂MVoT的技术原理、主要功能、应用场景MVoT概述简介 MVoT(Multimodal Visualization-of-Thought)是微软研究院、剑桥大学语言技术实验室、中国科学院...
-
DynVFX是什么?一文让你看懂DynVFX的技术原理、主要功能、应用场景DynVFX概述简介 DynVFX是创新的视频增强技术,能根据简单的文本指令将动态内容无缝集成到真实视频中。通过结合预训练的文本到视频扩散模型和视觉...
-
WorldSense是什么?一文让你看懂WorldSense的技术原理、主要功能、应用场景WorldSense概述简介 WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言大模型(MLLMs)在现实世界场景中对视觉、听...
-
Kiln AI是什么?一文让你看懂Kiln AI的技术原理、主要功能、应用场景Kiln AI概述简介 Kiln AI是开源的 AI 开发工具,能简化大型语言大模型(LLM)的微调、合成数据生成和数据集协作。Kiln AI提供直...
-
Airweave是什么?一文让你看懂Airweave的技术原理、主要功能、应用场景Airweave概述简介 Airweave 是开源工具,能将任何应用程序的数据(包括API、数据库、网站等)同步到图数据库和向量数据库中,让数据能基...
-
MotionCanvas是什么?一文让你看懂MotionCanvas的技术原理、主要功能、应用场景MotionCanvas概述简介 MotionCanvas是香港中文大学、Adobe 研究院和莫纳什大学推出的图像到视频(I2V)生成方法,能将静态...
-
MedRAX是什么?一文让你看懂MedRAX的技术原理、主要功能、应用场景MedRAX概述简介 MedRAX(Medical Reasoning Agent for Chest X-ray)是专门用于胸部X光检查的医学推理...
-
LangBot是什么?一文让你看懂LangBot的技术原理、主要功能、应用场景LangBot概述简介 LangBot 是开源的即时聊天机器人平台,支持多平台(如 QQ、微信、飞书、Discord 等)和多种大语言大模型(如 C...
-
LLMDet是什么?一文让你看懂LLMDet的技术原理、主要功能、应用场景LLMDet概述简介 LLMDet是阿里集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器,基于与大型语言大模型...
-
VisoMaster是什么?一文让你看懂VisoMaster的技术原理、主要功能、应用场景VisoMaster概述简介 VisoMaster 是基于 AI 技术的换脸和编辑软件,功能强大操作简便。支持图片、视频以及直播换脸,能生成自然逼真...
-
FlashVideo是什么?一文让你看懂FlashVideo的技术原理、主要功能、应用场景FlashVideo概述简介 FlashVideo是字节跳动团队提出的高效的高分辨率视频生成框架,通过两阶段方法解决了传统单阶段扩散模型在高分辨率视...
-
ACE++是什么?一文让你看懂ACE++的技术原理、主要功能、应用场景ACE++概述简介 ACE++是阿里巴巴通义实验室推出的先进的图像生成与编辑工具,通过指令化和上下文感知的内容填充技术,实现了高质量的图像创作和编辑...
-
LLaVA-Rad是什么?一文让你看懂LLaVA-Rad的技术原理、主要功能、应用场景LLaVA-Rad概述简介 LLaVA-Rad是微软研究院推出的小型多模态模型,专注于临床放射学报告生成。是LLaVA-Med项目的分支,特别是胸部...
-
Satori是什么?一文让你看懂Satori的技术原理、主要功能、应用场景Satori概述简介 Satori是 MIT、哈佛大学等机构研究者推出的 7B 参数的大型语言大模型,专注于提升推理能力。基于Qwen-2.5-Ma...
-
Goku是什么?一文让你看懂Goku的技术原理、主要功能、应用场景Goku概述简介 Goku是香港大学和字节跳动联合发布的最新视频生成模型,专为图像和视频的联合生成设计。基于先进的rectified flow Tr...
-
AnythingLLM是什么?一文让你看懂AnythingLLM的技术原理、主要功能、应用场景AnythingLLM概述简介 AnythingLLM 是开源免费且支持多模态交互的全栈 AI 客户端。AnythingLLM支持文本、图像和音频等...
-
VideoCaptioner是什么?一文让你看懂VideoCaptioner的技术原理、主要功能、应用场景VideoCaptioner概述简介 VideoCaptioner(中文名:卡卡字幕助手)是基于大语言大模型(LLM)的智能字幕处理工具,能简化视频...
-
Zonos是什么?一文让你看懂Zonos的技术原理、主要功能、应用场景Zonos概述简介 Zonos是Zyphra推出的高保真文本到语音(TTS)模型。Zonos包含两个模型:16亿参数的Transformer模型和S...