收集全球10,000⁺个好用的AI软件
-
TEN AgentTEN Agent 是基于 TEN 框架构建的实时对话 AI引擎,为开发者提供快速、高效的工具来构建实时对话式 AI Agent,如AI虚拟客服、AI...
-
Spirit LMSpirit LM是一个基础多模态语言模型,能够自由混合文本和语音。该模型基于一个7B预训练的文本语言模型,通过持续在文本和语音单元上训练来扩展到语音...
-
GPTS4O.SOGPT-4o是OpenAI推出的先进多模态AI平台,它在GPT-4的基础上进一步扩展,实现了真正的多模态方法,涵盖文本、图像和音频。GPT-4o设计上...
-
ultravox-v0_4_1-llama-3_1-8bfixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-...
-
ultravox-v0_4_1-llama-3_1-70bfixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whispe...
-
ultravox-v0_4_1-mistral-nemoultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-lar...
-
OmniAudio-2.6BOmniAudio-2.6B是一个2.6B参数的多模态模型,能够无缝处理文本和音频输入。该模型结合了Gemma-2B、Whisper turbo和一个...
-
CartesiaCartesia提供实时多模态智能技术,旨在为各种设备提供服务。产品包括Sonic和On-Device两大核心功能。Sonic是快速、超逼真的生成性语...
-
MiniCPM-o-2_6MiniCPM-o 2.6是MiniCPM-o系列中最新且功能最强大的模型。该模型基于SigLip-400M、Whisper-medium-300M、...
-
Phi-4-multimodal-instructPhi-4-multimodal-instruct 是微软开发的多模态基础模型,支持文本、图像和音频输入,生成文本输出。该模型基于Phi-3.5和Ph...
-
Gemini 2.0 Flash-LiteGemini 2.0 Flash-Lite 是 Google 推出的高效语言模型,专为长文本处理和复杂任务优化。它在推理、多模态、数学和事实性基准测试...
-
Qwen2.5-OmniQwen2.5-Omni 是阿里云通义千问团队推出的新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多...
-
MAVISMAVIS是一个针对多模态大型语言模型(MLLMs)的数学视觉指令调优模型,主要通过改进视觉编码数学图表、图表-语言对齐和数学推理技能来增强MLLMs...
-
WordwareWordware是一个集成了自然语言编程(NLP)的在线开发环境,它允许用户通过自然语言指令来开发、迭代和部署AI代理。Wordware结合了软件的最...
-
Conva.AIConva.AI是一个创新的AI助手即服务平台,它结合了最新的GenAI技术与6年以上的行业经验,提供快速构建、部署和管理AI助手及其功能的能力。该平...
-
智谱AI大模型开放平台智谱AI大模型开放平台是一个提供多种AI模型服务的平台,支持开发者和企业快速接入大模型API,构建变革性AI体验。平台提供GLM-4系列大模型,包括免...
-
Gemini 2.0 FlashGemini 2.0 Flash是Google推出的下一代AI模型,旨在赋予开发者构建未来AI应用的能力。自去年12月发布Gemini 1.0以来,数...
-
Activeloop Deep LakeActiveloop Deep Lake是一个专为人工智能设计的数据库,支持多模态数据(如文本、图像、视频等)的高效存储和检索。它通过优化数据处理流程...
-
Gemini 2.5Gemini 2.5 是谷歌推出的最先进的 AI 模型,具备高效的推理能力和编码性能,能够处理复杂问题,并在多项基准测试中表现出色。该模型引入了新的思...
-
Cradle框架Cradle框架旨在使基础模型能够通过与人类相同的通用接口(屏幕作为输入,键盘和鼠标操作作为输出)执行复杂的计算机任务。该框架在Red Dead Re...