多模态

收集全球10,000⁺个好用的AI软件

首页 > 多模态

4M

4M是一个用于训练多模态和多任务模型的框架，能够处理多种视觉任务，并且能够进行多模态条件生成。该模型通过实验分析展示了其在视觉任务上的通用性和可扩展性...
Semantic Chunkers

Semantic Chunkers 是一个多模态分块库，用于智能地对文本、视频和音频进行分块，提高AI和数据处理的效率和准确性。...
Windows Agent Arena

Windows Agent Arena (WAA) 是一个专注于Windows操作系统的可扩展、开源框架，用于测试和开发能够使用语言模型在PC上进行推...
LFMs

Liquid Foundation Models (LFMs) 是一系列新型的生成式AI模型，它们在各种规模上都达到了最先进的性能，同时保持了更小的内...
NVLM 1.0

NVLM 1.0是NVIDIA ADLR推出的前沿级多模态大型语言模型系列，它在视觉-语言任务上达到了业界领先水平，与顶级专有模型和开放访问模型相媲美...
2233.ai

2233.ai是一个提供即买即用人工智能对话服务的网站。用户无需注册账号即可购买并使用服务，享受原生的ChatGPT Plus或Claude Pro体...
Agent S

Agent S是一个开放的代理框架，旨在通过图形用户界面(GUI)实现与计算机的自主交互，通过自动化复杂多步骤任务来转变人机交互。它引入了经验增强的分...
Le Chat

Mistral AI 提供的 le Chat 是一个免费的生成性AI工作助手，旨在通过前沿的AI技术提升人类的工作效率和创造力。le Chat 结合了...
OmAgent.com

OmAgent是一个多模态原生代理框架，用于智能设备等。它采用分治算法高效解决复杂任务，能预处理长视频并以类似人类的精度进行问答，还能基于用户请求和可...
Gemini 2.0 Flash Thinking Experimental

Gemini Flash Thinking 是 Google DeepMind 推出的最新 AI 模型，专为复杂任务设计。它能够展示推理过程，帮助用户...
UI-TARS-7B-SFT

UI-TARS 是由字节跳动研究团队开发的下一代原生GUI代理模型，旨在通过人类般的感知、推理和行动能力与图形用户界面进行无缝交互。该模型集成了感知、...
Mobile-Agent-E

Mobile-Agent-E 是一款基于大型多模态模型（LMM）的移动助手，旨在帮助用户高效完成复杂的多步骤任务。它通过分层多智能体框架实现自我进化，...
CUA

Computer-Using Agent (CUA) 是 OpenAI 开发的一种先进的人工智能模型，结合了 GPT-4o 的视觉能力和通过强化学习的...
Gemini 2.0 Pro

Gemini Pro 是 Google DeepMind 推出的最先进 AI 模型之一，专为复杂任务和编程场景设计。它在代码生成、复杂指令理解和多模态...
Grok 3

Grok 3是由Elon Musk的AI公司xAI开发的最新旗舰AI模型。它在计算能力和数据集规模上显著提升，能够处理复杂的数学、科学问题，并支持多模...
OpenAI Agents SDK

OpenAI Agents SDK 是一个用于构建自主智能体的开发工具包。它基于 OpenAI 的先进模型能力，如高级推理、多模态交互和新的安全技术，...
AI得贤招聘官

得贤L5级别AIGC面试官是一款基于自研的AI多模态大模型--近屿超脑开发的智能AI视频面试系统。该系统能够根据候选人的回答进行有针对性的追问，实现千...
GPTS4O.SO

GPT-4o是OpenAI推出的先进多模态AI平台，它在GPT-4的基础上进一步扩展，实现了真正的多模态方法，涵盖文本、图像和音频。GPT-4o设计上...
RecurseChat

RecurseChat是一款离线、私密的个人AI聊天应用程序，它代表了使用本地AI进行聊天的功能和技术。其主要优点包括：离线聊天、保护隐私、无需配置、...
TableGPT2

TableGPT2是一个大型多模态模型，专门针对表格数据进行预训练和微调，以解决实际应用中表格数据整合不足的问题。该模型在超过593.8K的表格和2....

«
1
2
3
4
5
6
7
»

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们