功能

首页 > 功能

Proactive Agent是什么？一文让你看懂Proactive Agent的技术原理、主要功能、应用场景

Proactive Agent概述简介 Proactive Agent是清华大学联合面壁智能等团队推出的新一代主动Agent交互范式，具备主动性，...
EMOVA是什么？一文让你看懂EMOVA的技术原理、主要功能、应用场景

EMOVA概述简介 EMOVA（EMotionally Omni-present Voice Assistant）是多模态全能模型，是香港科技大学、...
OminiControl是什么？一文让你看懂OminiControl的技术原理、主要功能、应用场景

OminiControl概述简介 OminiControl是高度通用且参数高效的图像生成框架，为扩散变换器模型如FLUX.1设计，实现对图像生成过程...
Talker-Reasoner是什么？一文让你看懂Talker-Reasoner的技术原理、主要功能、应用场景

Talker-Reasoner概述简介 Talker-Reasoner是谷歌DeepMind推出的双思维AI代理架构，借鉴人类的认知理论，将代理分为...
Diffusion Self-Distillation是什么？一文让你看懂Diffusion Self-Distillation的技术原理、主要功能、应用场景

Diffusion Self-Distillation概述简介 Diffusion Self-Distillation（扩散自蒸馏，简称DSD）是斯...
Open Materials 2024是什么？一文让你看懂Open Materials 2024的技术原理、主要功能、应用场景

Open Materials 2024概述简介 Open Materials 2024 (OMat24) 是Meta推出的包含超过1.1亿个结构的密...
CodeDPO是什么？一文让你看懂CodeDPO的技术原理、主要功能、应用场景

CodeDPO概述简介 CodeDPO是北京大学与字节跳动合作推出的代码生成优化框架，能提升代码模型在正确性和效率方面的表现。框架基于自生成和验证机...
Voice-Pro是什么？一文让你看懂Voice-Pro的技术原理、主要功能、应用场景

Voice-Pro概述简介 Voice-Pro是开源的多功能音频处理工具，集成语音转文字（STT）、文本转语音（TTS）、实时翻译、YouTube视...
Generative Omnimatte是什么？一文让你看懂Generative Omnimatte的技术原理、主要功能、应用场景

Generative Omnimatte概述简介 Generative Omnimatte 是 Google DeepMind 等机构推出的视频编辑...
GLM-PC是什么？一文让你看懂GLM-PC的技术原理、主要功能、应用场景

GLM-PC概述简介 GLM-PC是智谱推出的基于多模态大模型CogAgent的电脑智能体。能像人类一样“观察”和“操作”计算机，协助用户高效完成各...
TryOffDiff是什么？一文让你看懂TryOffDiff的技术原理、主要功能、应用场景

TryOffDiff概述简介 TryOffDiff（VTOFF）是基于扩散模型的新型虚拟试穿技术，用高保真服装重建实现虚拟试穿，专注于从单张穿着者照...
GLM-Edge是什么？一文让你看懂GLM-Edge的技术原理、主要功能、应用场景

GLM-Edge概述简介 GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型，包含GLM-Edge-1.5B-Chat、...
FlagevalMM是什么？一文让你看懂FlagevalMM的技术原理、主要功能、应用场景

FlagevalMM概述简介 FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架，能全面评估处理文本、图像、视频等多种模态的模型，...
Delta-CoMe是什么？一文让你看懂Delta-CoMe的技术原理、主要功能、应用场景

Delta-CoMe概述简介 Delta-CoMe是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法，一...
Agent-E是什么？一文让你看懂Agent-E的技术原理、主要功能、应用场景

Agent-E概述简介 Agent-E是基于AutoGen代理框架构建的智能自动化系统，专注于浏览器内的自动化操作。Agent-E基于自然语言交互，...
Magic Copy是什么？一文让你看懂Magic Copy的技术原理、主要功能、应用场景

Magic Copy概述简介 Magic Copy是开源的AI抠图工具，支持Chrome浏览器扩展，基于Meta的Segment Anything ...
NSFW Detector是什么？一文让你看懂NSFW Detector的技术原理、主要功能、应用场景

NSFW Detector概述简介 NSFW Detector（Not Safe For Work，简称 NSFW）是开源的检测不适宜内容工具，NS...
MultiFoley是什么？一文让你看懂MultiFoley的技术原理、主要功能、应用场景

MultiFoley概述简介 MultiFoley是Adobe Research和密歇根大学一起推出的音效生成系统，能基于文本、音频和视频的多模态控...
CAT4D是什么？一文让你看懂CAT4D的技术原理、主要功能、应用场景

CAT4D概述简介 CAT4D是Google DeepMind、哥伦比亚大学和加州大学圣地亚哥分校一起推出的，能从单目视频创建4D场景（动态3D）表...
Make-It-Animatable是什么？一文让你看懂Make-It-Animatable的技术原理、主要功能、应用场景

Make-It-Animatable概述简介 Make-It-Animatable是中国科学技术大学和Tencent PCG推出的数据驱动框架，能在...

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们

AI TOOL