功能

首页 > 功能

Sonic是什么？一文让你看懂Sonic的技术原理、主要功能、应用场景

Sonic概述简介 Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架，基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习...
FireRedASR是什么？一文让你看懂FireRedASR的技术原理、主要功能、应用场景

FireRedASR概述简介 FireRedASR 是小红书开源的工业级自动语音识别（ASR）模型家族，支持普通话、中文方言和英语，在普通话 ASR...
MVoT是什么？一文让你看懂MVoT的技术原理、主要功能、应用场景

MVoT概述简介 MVoT（Multimodal Visualization-of-Thought）是微软研究院、剑桥大学语言技术实验室、中国科学院...
DynVFX是什么？一文让你看懂DynVFX的技术原理、主要功能、应用场景

DynVFX概述简介 DynVFX是创新的视频增强技术，能根据简单的文本指令将动态内容无缝集成到真实视频中。通过结合预训练的文本到视频扩散模型和视觉...
WorldSense是什么？一文让你看懂WorldSense的技术原理、主要功能、应用场景

WorldSense概述简介 WorldSense是小红书和上海交通大学推出的，用在评估多模态大型语言大模型（MLLMs）在现实世界场景中对视觉、听...
Kiln AI是什么？一文让你看懂Kiln AI的技术原理、主要功能、应用场景

Kiln AI概述简介 Kiln AI是开源的 AI 开发工具，能简化大型语言大模型（LLM）的微调、合成数据生成和数据集协作。Kiln AI提供直...
Airweave是什么？一文让你看懂Airweave的技术原理、主要功能、应用场景

Airweave概述简介 Airweave 是开源工具，能将任何应用程序的数据（包括API、数据库、网站等）同步到图数据库和向量数据库中，让数据能基...
MotionCanvas是什么？一文让你看懂MotionCanvas的技术原理、主要功能、应用场景

MotionCanvas概述简介 MotionCanvas是香港中文大学、Adobe 研究院和莫纳什大学推出的图像到视频（I2V）生成方法，能将静态...
MedRAX是什么？一文让你看懂MedRAX的技术原理、主要功能、应用场景

MedRAX概述简介 MedRAX（Medical Reasoning Agent for Chest X-ray）是专门用于胸部X光检查的医学推理...
LangBot是什么？一文让你看懂LangBot的技术原理、主要功能、应用场景

LangBot概述简介 LangBot 是开源的即时聊天机器人平台，支持多平台（如 QQ、微信、飞书、Discord 等）和多种大语言大模型（如 C...
LLMDet是什么？一文让你看懂LLMDet的技术原理、主要功能、应用场景

LLMDet概述简介 LLMDet是阿里集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器，基于与大型语言大模型...
VisoMaster是什么？一文让你看懂VisoMaster的技术原理、主要功能、应用场景

VisoMaster概述简介 VisoMaster 是基于 AI 技术的换脸和编辑软件，功能强大操作简便。支持图片、视频以及直播换脸，能生成自然逼真...
FlashVideo是什么？一文让你看懂FlashVideo的技术原理、主要功能、应用场景

FlashVideo概述简介 FlashVideo是字节跳动团队提出的高效的高分辨率视频生成框架，通过两阶段方法解决了传统单阶段扩散模型在高分辨率视...
ACE++是什么？一文让你看懂ACE++的技术原理、主要功能、应用场景

ACE++概述简介 ACE++是阿里巴巴通义实验室推出的先进的图像生成与编辑工具，通过指令化和上下文感知的内容填充技术，实现了高质量的图像创作和编辑...
LLaVA-Rad是什么？一文让你看懂LLaVA-Rad的技术原理、主要功能、应用场景

LLaVA-Rad概述简介 LLaVA-Rad是微软研究院推出的小型多模态模型，专注于临床放射学报告生成。是LLaVA-Med项目的分支，特别是胸部...
Satori是什么？一文让你看懂Satori的技术原理、主要功能、应用场景

Satori概述简介 Satori是 MIT、哈佛大学等机构研究者推出的 7B 参数的大型语言大模型，专注于提升推理能力。基于Qwen-2.5-Ma...
Goku是什么？一文让你看懂Goku的技术原理、主要功能、应用场景

Goku概述简介 Goku是香港大学和字节跳动联合发布的最新视频生成模型，专为图像和视频的联合生成设计。基于先进的rectified flow Tr...
AnythingLLM是什么？一文让你看懂AnythingLLM的技术原理、主要功能、应用场景

AnythingLLM概述简介 AnythingLLM 是开源免费且支持多模态交互的全栈 AI 客户端。AnythingLLM支持文本、图像和音频等...
VideoCaptioner是什么？一文让你看懂VideoCaptioner的技术原理、主要功能、应用场景

VideoCaptioner概述简介 VideoCaptioner（中文名：卡卡字幕助手）是基于大语言大模型（LLM）的智能字幕处理工具，能简化视频...
Zonos是什么？一文让你看懂Zonos的技术原理、主要功能、应用场景

Zonos概述简介 Zonos是Zyphra推出的高保真文本到语音（TTS）模型。Zonos包含两个模型：16亿参数的Transformer模型和S...

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们

AI TOOL