收集全球10,000⁺个好用的AI软件
-
T2A-01-HD是什么?一文让你看懂T2A-01-HD的技术原理、主要功能、应用场景T2A-01-HD概述简介 T2A-01-HD是海螺AI海外版推出新的语音模型。支持声音克隆,仅需10秒音频即可精准克隆声音,保留情感底色。模型具备... -
SHMT是什么?一文让你看懂SHMT的技术原理、主要功能、应用场景SHMT概述简介 SHMT(Self-supervised Hierarchical Makeup Transfer)是阿里巴巴达摩院与武汉理工大学... -
OmniThink是什么?一文让你看懂OmniThink的技术原理、主要功能、应用场景OmniThink概述简介 OmniThink是浙江大学和阿里巴巴通义实验室联合开发的创新的机器写作框架,通过模拟人类的迭代扩展和反思过程,突破大型... -
DITTO-2是什么?一文让你看懂DITTO-2的技术原理、主要功能、应用场景DITTO-2概述简介 DITTO-2 是 Adobe 和加州大学开发人员联合推出的新型音乐生成模型,通过优化扩散模型的推理时间,实现快速且可控的音... -
Textoon是什么?一文让你看懂Textoon的技术原理、主要功能、应用场景Textoon概述简介 Textoon是阿里集团通义实验室推出的创新项目,首个能根据文本提示生成Live2D格式2D卡通角色的方法。基于先进的语言和... -
UI-TARS是什么?一文让你看懂UI-TARS的技术原理、主要功能、应用场景UI-TARS概述简介 UI-TARS是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,通过自然语言实现对桌面、移动设备和网页界面的自动化交... -
TokenVerse是什么?一文让你看懂TokenVerse的技术原理、主要功能、应用场景TokenVerse概述简介 TokenVerse 是基于预训练文本到图像扩散模型的多概念个性化图像生成方法。能从单张图像中解耦复杂的视觉元素和属性... -
Tarsier2是什么?一文让你看懂Tarsier2的技术原理、主要功能、应用场景Tarsier2概述简介 Tarsier2是字节跳动推出的先进的大规模视觉语言大模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现... -
TeleAI-t1-preview是什么?一文让你看懂TeleAI-t1-preview的技术原理、主要功能、应用场景TeleAI-t1-preview概述简介 TeleAI-t1-preview是中国电信人工智能研究院发布的“复杂推理大模型”,具备强大的逻辑推理与... -
VARGPT是什么?一文让你看懂VARGPT的技术原理、主要功能、应用场景VARGPT概述简介 VARGPT是创新的多模态大语言大模型,专注于视觉理解和生成任务。基于自回归框架,将视觉生成与理解统一在一个模型中,避免任务切... -
SpeechGPT 2.0-preview是什么?一文让你看懂SpeechGPT 2.0-preview的技术原理、主要功能、应用场景SpeechGPT 2.0-preview概述简介 SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队推出的拟人化实时交... -
RAG-FiT是什么?一文让你看懂RAG-FiT的技术原理、主要功能、应用场景RAG-FiT概述简介 RAG-FiT(曾用名RAG Foundry)是英特尔实验室推出的开源框架,用在微调(fine-tuning)增强大型语言大... -
MAETok是什么?一文让你看懂MAETok的技术原理、主要功能、应用场景MAETok概述简介 MAETok(Masked Autoencoders Tokenizer)是卡内基梅隆大学、香港大学、北京大学等机构推出的扩散... -
MVoT是什么?一文让你看懂MVoT的技术原理、主要功能、应用场景MVoT概述简介 MVoT(Multimodal Visualization-of-Thought)是微软研究院、剑桥大学语言技术实验室、中国科学院... -
TPO是什么?一文让你看懂TPO的技术原理、主要功能、应用场景TPO概述简介 TPO(Test-Time Preference Optimization)是新型的AI优化框架,在推理阶段对语言大模型输出进行动态... -
HumanDiT是什么?一文让你看懂HumanDiT的技术原理、主要功能、应用场景HumanDiT概述简介 HumanDiT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器(Diffusion Tr... -
OpenThinker-32B是什么?一文让你看懂OpenThinker-32B的技术原理、主要功能、应用场景OpenThinker-32B概述简介 OpenThinker-32B 是斯坦福、UC 伯克利、华盛顿大学等机构联合开发的开源推理模型,拥有 328... -
TIGER是什么?一文让你看懂TIGER的技术原理、主要功能、应用场景TIGER概述简介 TIGER(Time-frequency Interleaved Gain Extraction and Reconstruct... -
Long-VITA是什么?一文让你看懂Long-VITA的技术原理、主要功能、应用场景Long-VITA概述简介 Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型,能处理超过100万tokens的长文本输入,在... -
KTransformers是什么?一文让你看懂KTransformers的技术原理、主要功能、应用场景KTransformers概述简介 KTransformers是清华大学KVCache.AI团队联合趋境科技推出的开源项目,能优化大语言大模型的推理...