收集全球10,000⁺个好用的AI软件
-
Micro LLAMA是什么?一文让你看懂Micro LLAMA的技术原理、主要功能、应用场景Micro LLAMA概述简介 Micro LLAMA是精简的教学版LLAMA 3模型实现,能帮助学习者理解大型语言大模型架构。整个项目仅约180行...
-
Aurora是什么?一文让你看懂Aurora的技术原理、主要功能、应用场景Aurora概述简介 Aurora是xAI为AI助手Grok新增的图像生成模型。Aurora擅长创建逼真的图像,擅长人物肖像。Aurora能生成包括...
-
NVILA是什么?一文让你看懂NVILA的技术原理、主要功能、应用场景NVILA概述简介 NVILA是NVIDIA推出的系列视觉语言大模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。...
-
SOLAMI是什么?一文让你看懂SOLAMI的技术原理、主要功能、应用场景SOLAMI概述简介 SOLAMI是创新的VR端3D角色扮演AI系统,是南洋理工大学研究团队推出的。支持用户用语音和肢体语言与虚拟角色进行沉浸式互动...
-
GenMAC是什么?一文让你看懂GenMAC的技术原理、主要功能、应用场景GenMAC概述简介 GenMAC是香港大学、清华大学和微软研究院推出的多代理协作的迭代框架,用在解决文本到视频生成中的复杂场景生成问题。基于将任务...
-
Amurex是什么?一文让你看懂Amurex的技术原理、主要功能、应用场景Amurex概述简介 Amurex是AI会议助手,基于实时建议、智能摘要、关键要点提取、迟到加入回顾和完整会议记录等功能,帮助用户提升会议效率。作为...
-
EXAONE 3.5是什么?一文让你看懂EXAONE 3.5的技术原理、主要功能、应用场景EXAONE 3.5概述简介 EXAONE 3.5是LG AI研究院推出的开源AI大模型,包含24亿、78亿和320亿参数的三个版本。EXAONE ...
-
MMAudio是什么?一文让你看懂MMAudio的技术原理、主要功能、应用场景MMAudio概述简介 MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步...
-
TEN Agent是什么?一文让你看懂TEN Agent的技术原理、主要功能、应用场景TEN Agent概述简介 TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agen...
-
FLOAT是什么?一文让你看懂FLOAT的技术原理、主要功能、应用场景FLOAT概述简介 FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型,基于流匹配生成模型,学习运动潜在空间...
-
Multimodal Live API是什么?一文让你看懂Multimodal Live API的技术原理、主要功能、应用场景Multimodal Live API概述简介 Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口,支持文本、音频和视频...
-
CodeArena是什么?一文让你看懂CodeArena的技术原理、主要功能、应用场景CodeArena概述简介 CodeArena是在线平台,基于让多个大型语言大模型(LLM)同时构建相同的应用程序,实时显示排名结果,比较LLM生成...
-
Step-1o Audio是什么?一文让你看懂Step-1o Audio的技术原理、主要功能、应用场景Step-1o Audio概述简介 Step-1o Audio是阶跃星辰推出的国内首个千亿参数端到端语音大模型。具备强大的情绪感知能力,能精准识别用...
-
Apollo是什么?一文让你看懂Apollo的技术原理、主要功能、应用场景Apollo概述简介 Apollo是Meta和斯坦福大学合作推出的大型多模态模型(LMMs),专注于视频理解。Apollo基于系统研究,揭示视频理解...
-
Large Action Models是什么?一文让你看懂Large Action Models的技术原理、主要功能、应用场景Large Action Models概述简介 Large Action Models(LAMs)是微软推出大型行动模型的开发框架,能执行真实世界行...
-
MV-Adapter是什么?一文让你看懂MV-Adapter的技术原理、主要功能、应用场景MV-Adapter概述简介 MV-Adapter是多视图一致图像生成模型,是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Ada...
-
FACTS Grounding是什么?一文让你看懂FACTS Grounding的技术原理、主要功能、应用场景FACTS Grounding概述简介 FACTS Grounding是谷歌DeepMind推出的评估大型语言大模型(LLMs)能力的基准测试,衡量...
-
EMMA-X是什么?一文让你看懂EMMA-X的技术原理、主要功能、应用场景EMMA-X概述简介 EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型,在有根据的链式思维(CoT)推理数据上微调OpenV...
-
X-AnyLabeling是什么?一文让你看懂X-AnyLabeling的技术原理、主要功能、应用场景X-AnyLabeling概述简介 X-AnyLabeling是集成多种深度学习算法的图像标注软件,专注于提升标注效率和精度。X-AnyLabeli...
-
AniDoc是什么?一文让你看懂AniDoc的技术原理、主要功能、应用场景AniDoc概述简介 AniDoc是香港科技大学、蚂蚁集团、南京大学、浙江大学和香港大学一起推出的简化2D动画上色AI大模型,基于视频扩散模型自动将...