T

首页 > T

TEN Agent是什么？一文让你看懂TEN Agent的技术原理、主要功能、应用场景

TEN Agent概述简介 TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agen...
FLOAT是什么？一文让你看懂FLOAT的技术原理、主要功能、应用场景

FLOAT概述简介 FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型，基于流匹配生成模型，学习运动潜在空间...
STIV是什么？一文让你看懂STIV的技术原理、主要功能、应用场景

STIV概述简介 STIV（Scalable Text and Image Conditioned Video Generation）是苹果公司推出...
POINTS 1.5是什么？一文让你看懂POINTS 1.5的技术原理、主要功能、应用场景

POINTS 1.5概述简介 POINTS 1.5 是腾讯微信发布的多模态大模型，是POINTS 1.0的升级版本。模型继续沿用了POINTS 1...
RDT是什么？一文让你看懂RDT的技术原理、主要功能、应用场景

RDT概述简介 RDT（Robotics Diffusion Transformer）是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操...
Manga Image Translator是什么？一文让你看懂Manga Image Translator的技术原理、主要功能、应用场景

Manga Image Translator概述简介 Manga Image Translator是开源的漫画图片文字翻译工具，能一键翻译漫画和图片...
NodeTool是什么？一文让你看懂NodeTool的技术原理、主要功能、应用场景

NodeTool概述简介 NodeTool是开源的AI工作流可视化构建器。NodeTool集成广泛的AI工具和模型，基于简单、可视化的界面，让用户无...
FACTS Grounding是什么？一文让你看懂FACTS Grounding的技术原理、主要功能、应用场景

FACTS Grounding概述简介 FACTS Grounding是谷歌DeepMind推出的评估大型语言大模型（LLMs）能力的基准测试，衡量...
Gemini 2.0 Flash Thinking是什么？一文让你看懂Gemini 2.0 Flash Thinking的技术原理、主要功能、应用场景

Gemini 2.0 Flash Thinking概述简介 Gemini 2.0 Flash Thinking 是谷歌最新发布的推理增强型 AI 模...
LeviTor是什么？一文让你看懂LeviTor的技术原理、主要功能、应用场景

LeviTor概述简介 LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术，结合深度信息和K-means聚类点控制视频中3D...
OCTAVE是什么？一文让你看懂OCTAVE的技术原理、主要功能、应用场景

OCTAVE 概述简介 OCTAVE（Omni-Capable Text and Voice Engine）是Hume AI推出的新一代语音语言大模...
TRELLIS是什么？一文让你看懂TRELLIS的技术原理、主要功能、应用场景

TRELLIS概述简介 TRELLIS是清华大学、中国科学技术大学和微软研究院推出的3D生成模型，基于Structured LATent（SLAT）...
DRT-o1是什么？一文让你看懂DRT-o1的技术原理、主要功能、应用场景

DRT-o1概述简介 DRT-o1是腾讯研究院推出的一系列AI大模型，通过长链思考推理（CoT）技术显著提升了文学作品的翻译质量，尤其在处理比喻和隐...
VidTok是什么？一文让你看懂VidTok的技术原理、主要功能、应用场景

VidTok概述简介 VidTok（Video Tokenizer）是微软开源的先进的视频分词器，通过高效的算法将视频内容转换成一系列“视频词”。支...
ModernBERT是什么？一文让你看懂ModernBERT的技术原理、主要功能、应用场景

ModernBERT概述简介 ModernBERT是Answer.AI、LightOn、约翰斯·霍普金斯大学、英伟达和HuggingFace联合推出...
DiTCtrl是什么？一文让你看懂DiTCtrl的技术原理、主要功能、应用场景

DiTCtrl概述简介 DiTCtrl是基于多模态扩散变换器（MM-DiT）架构的多提示视频生成方法，是香港中文大学和腾讯等机构联合推出的。DiTC...
The Language of Motion是什么？一文让你看懂The Language of Motion的技术原理、主要功能、应用场景

The Language of Motion概述简介 The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言大模型，能整...
EDTalk是什么？一文让你看懂EDTalk的技术原理、主要功能、应用场景

EDTalk概述简介 EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型，能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一...
Mind GPT-3o是什么？一文让你看懂Mind GPT-3o的技术原理、主要功能、应用场景

Mind GPT-3o概述简介 Mind GPT-3o是理想汽车推出的多模态端到端大模型，融合语音、视觉和语言理解技术，实现高效实时交互。Mind ...
MinT是什么？一文让你看懂MinT的技术原理、主要功能、应用场景

MinT概述简介 MinT（Mind the Time）是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架，基于精确的...

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们

AI TOOL