GTA是什么?一文让你看懂GTA的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

GTA概述简介

GTA(a benchmark for General Tool Agents)是上海交通大学和上海AI实验室一起推出的基准测试,评估大型语言大模型(LLMs)在真实世界场景中调用工具的能力。GTA基于提供真实的用户问题、真实部署的工具和多模态输入输出,建立一个全面、细粒度的评估框架,有效衡量LLMs在复杂场景下的工具使用能力。GTA包含229个人类设计的问题,覆盖感知、操作、逻辑和创造力等多个类别,要求模型推理合适的工具,规划操作步骤,解决现实世界中的复杂任务。

GTA的功能特色

真实用户查询:包含229个人类编写的问题,问题具有简单的现实世界目标,但解决步骤和所需工具是隐含的,要求LLM基于推理选择合适的工具、规划操作步骤。

真实部署的工具:GTA提供一个评估平台,部署涵盖感知、操作、逻辑和创造力四大类别的14种工具,评估代理的实际任务执行性能。

多模态输入输出:GTA引入空间场景、网页截图、表格、代码片段、手写/打印材料等多模态输入,要求模型处理丰富的上下文信息,给出文本或图像输出。

细粒度评估:GTA设计细粒度的评估指标,包括指令遵循准确率(InstAcc)、工具选择准确率(ToolAcc)、参数预测准确率(ArgAcc)和答案总结准确率(SummAcc),及最终答案准确率(AnsAcc)。

模型评测:GTA在逐步模式(step-by-step mode)和端到端模式(end-to-end mode)下评估语言大模型,提供对模型工具使用能力的全面评估。

GTA的技术原理

数据集构建:GTA的数据集构建包括问题构建和工具链构建两个步骤。问题由专家设计样例和标注文档,由标注人员基于样例设计更多的问题。工具链由标注人员手动调用部署好的工具构建,确保每个问题都能用提供的工具解决。

工具调用:GTA用ReAct风格的提示模板,让LLM用特定的格式调用工具,处理工具返回的结果。模板支持LLM进行推理和规划,决定何时及如何调用工具。

多模态处理:GTA要求LLM处理和理解多模态输入,包括图像、文本等,要求模型具备跨模态的理解和推理能力。

细粒度评估指标:GTA设计的评估指标覆盖工具调用的整个过程,从LLM的工具调用过程到执行结果,提供对模型性能的全面评估。

模型比较:基于比较不同模型在GTA上的表现,揭示现有模型在处理真实世界问题时面临的工具使用瓶颈,为未来的通用工具智能体提供改进方向。

GTA项目介绍

项目官网:open-compass.github.io/GTA

GitHub仓库:https://github.com/open-compass/GTA

HuggingFace模型库:https://huggingface.co/datasets/Jize1/GTA

arXiv技术论文:https://arxiv.org/pdf/2407.08713

GTA能做什么?

智能助理开发:GTA评估和训练智能助理,让其更好地理解和执行复杂的用户请求,涉及多步骤和多种工具的调用。

多模态交互:在需要处理图像、文本和其他多媒体内容的场景中,GTA帮助模型学习如何结合多种输入类型解决问题。

自动化客户服务:GTA用在开发自动解决客户问题的系统,系统需要调用不同的工具和资源提供准确的答案和解决方案。

教育和培训:GTA作为教育工具,帮助学生理解如何设计和实现复杂的任务,任务需要多步骤推理和工具使用。

研究和开发:开发人员用GTA测试和比较不同的LLMs,探索工具使用能力的新方法,推动AI技术的发展。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • f ms startup game
    f ms startup game 首次将您从想法到第一客户及以后的企业家。从AI联合创始人那里获得帮助,并在没有任何风险的情况下建立创业公司。...
  • Dealight
    Dealight Dealight是一个利用人工智能驱动的实时洞察力来完善您的演示文稿,并将您与真正对您的业务感兴趣的投资者联系起来的平台。通过使用我们先进的人工智能技...
  • AI Diary
    AI Diary AI Diary是一款由人工智能驱动的日记应用,提供日常写作的乐趣和洞察力。通过AI功能,增强你的写作能力,提升心情。AI Diary帮助你进行个人成...
  • acdsee
    acdsee Acdsee是数字资产管理和照片编辑超过30年的行业领导者,现在提供了AI驱动的文件管理和照片编辑。 ACDSEE利用AI关键字,AI天空替换和AI选...
  • a1 art
    a1 art 使用A1.Art -Ultimate AI艺术站来提升您的艺术。 A1.ART平台允许轻松地创建AI艺术应用程序,将AI的力量掌握在每个人的手中。探索...
  • HOMIEtele
    HOMIEtele HOMIE 是一种创新的人形机器人遥操作解决方案,旨在通过强化学习和低成本的外骨骼硬件系统,实现精准的行走与操作任务。该技术的重要性在于它解决了传统遥...
  • DIKTATORIAL Suite
    DIKTATORIAL Suite DIKTATORIAL Suite是一款在线AI音频母带处理工具,通过聊天交互方式与虚拟声音工程师对话。它可以提供清晰的音频效果,支持wav和mp3等...
  • uList
    uList uList是一个旨在提升个人效率的待办事项和清单管理应用,它允许用户创建和管理各种类型的清单,包括待办事项、购物清单和笔记等。该应用以其直观的用户界面...