收集全球10,000⁺个好用的AI软件
-
TEN Agent是什么?一文让你看懂TEN Agent的技术原理、主要功能、应用场景TEN Agent概述简介 TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agen... -
FLOAT是什么?一文让你看懂FLOAT的技术原理、主要功能、应用场景FLOAT概述简介 FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型,基于流匹配生成模型,学习运动潜在空间... -
STIV是什么?一文让你看懂STIV的技术原理、主要功能、应用场景STIV概述简介 STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出... -
POINTS 1.5是什么?一文让你看懂POINTS 1.5的技术原理、主要功能、应用场景POINTS 1.5概述简介 POINTS 1.5 是腾讯微信发布的多模态大模型,是POINTS 1.0的升级版本。 模型继续沿用了POINTS 1... -
RDT是什么?一文让你看懂RDT的技术原理、主要功能、应用场景RDT概述简介 RDT(Robotics Diffusion Transformer)是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操... -
Manga Image Translator是什么?一文让你看懂Manga Image Translator的技术原理、主要功能、应用场景Manga Image Translator概述简介 Manga Image Translator是开源的漫画图片文字翻译工具,能一键翻译漫画和图片... -
NodeTool是什么?一文让你看懂NodeTool的技术原理、主要功能、应用场景NodeTool概述简介 NodeTool是开源的AI工作流可视化构建器。NodeTool集成广泛的AI工具和模型,基于简单、可视化的界面,让用户无... -
FACTS Grounding是什么?一文让你看懂FACTS Grounding的技术原理、主要功能、应用场景FACTS Grounding概述简介 FACTS Grounding是谷歌DeepMind推出的评估大型语言大模型(LLMs)能力的基准测试,衡量... -
Gemini 2.0 Flash Thinking是什么?一文让你看懂Gemini 2.0 Flash Thinking的技术原理、主要功能、应用场景Gemini 2.0 Flash Thinking概述简介 Gemini 2.0 Flash Thinking 是谷歌最新发布的推理增强型 AI 模... -
LeviTor是什么?一文让你看懂LeviTor的技术原理、主要功能、应用场景LeviTor概述简介 LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D... -
OCTAVE是什么?一文让你看懂OCTAVE的技术原理、主要功能、应用场景OCTAVE 概述简介 OCTAVE(Omni-Capable Text and Voice Engine)是Hume AI推出的新一代语音语言大模... -
TRELLIS是什么?一文让你看懂TRELLIS的技术原理、主要功能、应用场景TRELLIS概述简介 TRELLIS是清华大学、中国科学技术大学和微软研究院推出的3D生成模型,基于Structured LATent(SLAT)... -
DRT-o1是什么?一文让你看懂DRT-o1的技术原理、主要功能、应用场景DRT-o1概述简介 DRT-o1是腾讯研究院推出的一系列AI大模型,通过长链思考推理(CoT)技术显著提升了文学作品的翻译质量,尤其在处理比喻和隐... -
VidTok是什么?一文让你看懂VidTok的技术原理、主要功能、应用场景VidTok概述简介 VidTok(Video Tokenizer)是微软开源的先进的视频分词器,通过高效的算法将视频内容转换成一系列“视频词”。支... -
ModernBERT是什么?一文让你看懂ModernBERT的技术原理、主要功能、应用场景ModernBERT概述简介 ModernBERT是Answer.AI、LightOn、约翰斯·霍普金斯大学、英伟达和HuggingFace联合推出... -
DiTCtrl是什么?一文让你看懂DiTCtrl的技术原理、主要功能、应用场景DiTCtrl概述简介 DiTCtrl是基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,是香港中文大学和腾讯等机构联合推出的。DiTC... -
The Language of Motion是什么?一文让你看懂The Language of Motion的技术原理、主要功能、应用场景The Language of Motion概述简介 The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言大模型,能整... -
EDTalk是什么?一文让你看懂EDTalk的技术原理、主要功能、应用场景EDTalk概述简介 EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型,能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一... -
Mind GPT-3o是什么?一文让你看懂Mind GPT-3o的技术原理、主要功能、应用场景Mind GPT-3o概述简介 Mind GPT-3o是理想汽车推出的多模态端到端大模型,融合语音、视觉和语言理解技术,实现高效实时交互。Mind ... -
MinT是什么?一文让你看懂MinT的技术原理、主要功能、应用场景MinT概述简介 MinT(Mind the Time)是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架,基于精确的...