收集全球10,000⁺个好用的AI软件
-
Proactive Agent是什么?一文让你看懂Proactive Agent的技术原理、主要功能、应用场景Proactive Agent概述简介 Proactive Agent是清华大学联合面壁智能等团队推出的新一代主动Agent交互范式 ,具备主动性,...
-
EMOVA是什么?一文让你看懂EMOVA的技术原理、主要功能、应用场景EMOVA概述简介 EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、...
-
OminiControl是什么?一文让你看懂OminiControl的技术原理、主要功能、应用场景OminiControl概述简介 OminiControl是高度通用且参数高效的图像生成框架,为扩散变换器模型如FLUX.1设计,实现对图像生成过程...
-
Talker-Reasoner是什么?一文让你看懂Talker-Reasoner的技术原理、主要功能、应用场景Talker-Reasoner概述简介 Talker-Reasoner是谷歌DeepMind推出的双思维AI代理架构,借鉴人类的认知理论,将代理分为...
-
Diffusion Self-Distillation是什么?一文让你看懂Diffusion Self-Distillation的技术原理、主要功能、应用场景Diffusion Self-Distillation概述简介 Diffusion Self-Distillation(扩散自蒸馏,简称DSD)是斯...
-
Open Materials 2024是什么?一文让你看懂Open Materials 2024的技术原理、主要功能、应用场景Open Materials 2024概述简介 Open Materials 2024 (OMat24) 是Meta推出的包含超过1.1亿个结构的密...
-
CodeDPO是什么?一文让你看懂CodeDPO的技术原理、主要功能、应用场景CodeDPO概述简介 CodeDPO是北京大学与字节跳动合作推出的代码生成优化框架,能提升代码模型在正确性和效率方面的表现。框架基于自生成和验证机...
-
Voice-Pro是什么?一文让你看懂Voice-Pro的技术原理、主要功能、应用场景Voice-Pro概述简介 Voice-Pro是开源的多功能音频处理工具,集成语音转文字(STT)、文本转语音(TTS)、实时翻译、YouTube视...
-
Generative Omnimatte是什么?一文让你看懂Generative Omnimatte的技术原理、主要功能、应用场景Generative Omnimatte概述简介 Generative Omnimatte 是 Google DeepMind 等机构推出的视频编辑...
-
GLM-PC是什么?一文让你看懂GLM-PC的技术原理、主要功能、应用场景GLM-PC概述简介 GLM-PC是智谱推出的基于多模态大模型CogAgent的电脑智能体。能像人类一样“观察”和“操作”计算机,协助用户高效完成各...
-
TryOffDiff是什么?一文让你看懂TryOffDiff的技术原理、主要功能、应用场景TryOffDiff概述简介 TryOffDiff(VTOFF)是基于扩散模型的新型虚拟试穿技术,用高保真服装重建实现虚拟试穿,专注于从单张穿着者照...
-
GLM-Edge是什么?一文让你看懂GLM-Edge的技术原理、主要功能、应用场景GLM-Edge概述简介 GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,包含GLM-Edge-1.5B-Chat、...
-
FlagevalMM是什么?一文让你看懂FlagevalMM的技术原理、主要功能、应用场景FlagevalMM概述简介 FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架,能全面评估处理文本、图像、视频等多种模态的模型,...
-
Delta-CoMe是什么?一文让你看懂Delta-CoMe的技术原理、主要功能、应用场景Delta-CoMe概述简介 Delta-CoMe是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法,一...
-
Agent-E是什么?一文让你看懂Agent-E的技术原理、主要功能、应用场景Agent-E概述简介 Agent-E是基于AutoGen代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。Agent-E基于自然语言交互,...
-
Magic Copy是什么?一文让你看懂Magic Copy的技术原理、主要功能、应用场景Magic Copy概述简介 Magic Copy是开源的AI抠图工具,支持Chrome浏览器扩展,基于Meta的Segment Anything ...
-
NSFW Detector是什么?一文让你看懂NSFW Detector的技术原理、主要功能、应用场景NSFW Detector概述简介 NSFW Detector(Not Safe For Work,简称 NSFW)是开源的检测不适宜内容工具,NS...
-
MultiFoley是什么?一文让你看懂MultiFoley的技术原理、主要功能、应用场景MultiFoley概述简介 MultiFoley是Adobe Research和密歇根大学一起推出的音效生成系统,能基于文本、音频和视频的多模态控...
-
CAT4D是什么?一文让你看懂CAT4D的技术原理、主要功能、应用场景CAT4D概述简介 CAT4D是Google DeepMind、哥伦比亚大学和加州大学圣地亚哥分校一起推出的,能从单目视频创建4D场景(动态3D)表...
-
Make-It-Animatable是什么?一文让你看懂Make-It-Animatable的技术原理、主要功能、应用场景Make-It-Animatable概述简介 Make-It-Animatable是中国科学技术大学和Tencent PCG推出的数据驱动框架,能在...