收集全球10,000⁺个好用的AI软件
-
RF-DETR是什么?一文让你看懂RF-DETR的技术原理、主要功能、应用场景RF-DETR概述简介 RF-DETR是Roboflow推出的实时目标检测模型。RF-DETR是首个在COCO数据集上达到60+平均精度均值(mAP... -
Piece it Together是什么?一文让你看懂Piece it Together的技术原理、主要功能、应用场景Piece it Together概述简介 Piece it Together (PiT)是Bria AI等机构推出的创新图像生成框架,专门用在从部... -
TripoSR是什么?一文让你看懂TripoSR的技术原理、主要功能、应用场景TripoSR概述简介 TripoSR是Stability AI和VAST联合推出的开源3D生成模型,能在不到0.5秒内从单张2D图像快速生成高质量... -
TxGemma是什么?一文让你看懂TxGemma的技术原理、主要功能、应用场景TxGemma概述简介 TxGemma 是谷歌推出的用于药物发现的通用人工智能模型,通过 AI 技术加速药物研发进程。基于 Google 的 Gem... -
TripoSG是什么?一文让你看懂TripoSG的技术原理、主要功能、应用场景TripoSG概述简介 TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流(Rectified Flow, RF)模型... -
TripoSF是什么?一文让你看懂TripoSF的技术原理、主要功能、应用场景TripoSF概述简介 TripoSF是VAST推出的新一代3D基础模型,突破传统3D建模在细节、复杂结构和扩展性上的瓶颈。采用SparseFlex... -
AnyText是什么?一文让你看懂AnyText的技术原理、主要功能、应用场景AnyText概述简介 AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的... -
DiffusionGPT是什么?一文让你看懂DiffusionGPT的技术原理、主要功能、应用场景DiffusionGPT是什么? DiffusionGPT是由来自字节跳动与中山大学的开发人员推出的一个开源的大模型(LLM)驱动的文本到图像生成系... -
MetaGPT是什么?一文让你看懂MetaGPT的技术原理、主要功能、应用场景MetaGPT是什么? MetaGPT是一个创新的元编程框架,结合了大语言大模型和多智能体协作系统,旨在通过模拟人类工作流程来解决复杂问题。该框架的... -
DiT是什么?一文让你看懂DiT的技术原理、主要功能、应用场景DiT概述简介 DiT(Diffusion Transformers)是一种新型的扩散模型,由William Peebles(Sora的研发负责人之... -
GPT-SoVITS是什么?一文让你看懂GPT-SoVITS的技术原理、主要功能、应用场景GPT-SoVITS概述简介 GPT-SoVITS是一个开源的声音克隆项目,由B站UP主、RVC变声器创始人花儿不哭推出,该语音合成工具结合了GPT... -
MeloTTS是什么?一文让你看懂MeloTTS的技术原理、主要功能、应用场景MeloTTS概述简介 MeloTTS 是一个由 MyShell AI 开发的开源的高质量多语言文本转语音(TTS)库,能够将文本转换成自然流畅的语... -
TextDiffuser-2是什么?一文让你看懂TextDiffuser-2的技术原理、主要功能、应用场景TextDiffuser-2概述简介 Text-Diffuser 2是由来自微软研究院、香港科技大学和中山大学的开发人员最新推出的一个基于扩散模型的... -
Transformer Debugger是什么?一文让你看懂Transformer Debugger的技术原理、主要功能、应用场景Transformer Debugger概述简介 Transformer Debugger (TDB) 是由 OpenAI 的对齐团队(Supera... -
LATTE3D是什么?一文让你看懂LATTE3D的技术原理、主要功能、应用场景LATTE3D概述简介 LATTE3D是由英伟达的多伦多AI实验室的开发人员推出的一个文本生成3D对象的模型,能够从文本提示描述快速生成高质量的3D... -
StreamingT2V是什么?一文让你看懂StreamingT2V的技术原理、主要功能、应用场景StreamingT2V概述简介 StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型,旨在解决现有模型仅能生成1... -
Parler-TTS是什么?一文让你看懂Parler-TTS的技术原理、主要功能、应用场景Parler-TTS概述简介 Parler-TTS是由Hugging Face推出的一款开源的文本到语音(TTS)模型,能够通过输入提示描述模仿特定... -
IDM-VTON是什么?一文让你看懂IDM-VTON的技术原理、主要功能、应用场景IDM-VTON概述简介 IDM-VTON(Improved Diffusion Models for Virtual Try-ON)是由韩国科学技... -
AniTalker是什么?一文让你看懂AniTalker的技术原理、主要功能、应用场景AniTalker概述简介 AniTalker是由来自上海交大X-LANCE实验室和思必驰AISpeech的开发人员推出的AI对口型说话视频生成框架... -
混元DiT是什么?一文让你看懂混元DiT的技术原理、主要功能、应用场景混元DiT概述简介 混元DiT(Hunyuan-DiT)是由腾讯混元团队开源的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中...