Aria-UI是什么?一文让你看懂Aria-UI的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

Aria-UI概述简介

Aria-UI是香港大学和Rhymes AI一起推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多样化的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和指令样本,适应不同环境下的多样化指令。Aria-UI创新性地整合动态动作历史信息,用文本或文本-图像交错格式增强模型在多步任务场景中的定位能力。在包括离线和在线代理任务的广泛基准测试中,Aria-UI均取得优异的性能,展现出强大的零样本泛化能力和跨平台适用性,成为通用GUI定位任务的有力解决方案。

Aria-UI的功能特色

GUI元素定位:将语言指令准确地映射到GUI中的目标元素,实现元素的精确定位,为后续的交互操作提供基础。

多模态输入处理:处理包括GUI图像、文本指令、动作历史等多种模态的输入信息,充分理解和利用多模态数据中的丰富信息。

多样化指令适应:基于大规模、多样化的数据合成流程生成的多样化指令样本,有效适应不同环境下的各种指令表达方式。

动态上下文理解:整合动态动作历史信息,用文本或文本-图像交错格式,在多步任务场景中理解当前的动态上下文,为准确的元素定位提供重要参考。

高分辨率图像处理:支持高达3920×2940的图像分辨率,将图像分割成小块处理,显著扩展可处理的图像尺寸范围。

Aria-UI的技术原理

纯视觉方法:采用纯视觉方法,直接从GUI图像中提取视觉特征,用视觉信息理解和定位目标元素。

多模态MoE模型:基于Aria多模态MoE(Mixture of Experts)模型构建,具有3.9B激活参数,擅长处理多模态数据。

数据合成与训练:基于两阶段的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和多样化指令样本,覆盖Web、桌面和移动三大GUI环境,为模型训练提供大量、多样化的训练数据,增强模型对不同指令和元素的识别能力。

上下文感知数据扩展:用公开的代理轨迹数据模拟具有上下文的定位任务,构建文本动作历史和文本-图像交错历史两种上下文设置,基于数据合成流程为轨迹数据中的所有定位步骤生成详细的逐步指令,让模型在动态环境中更好地理解和执行任务。

超分辨率支持:将图像分割成小块并进行处理,支持高达3920×2940的图像分辨率,保持图像的细节和准确性。

Aria-UI项目介绍

项目官网:https://ariaui.github.io/

GitHub仓库:https://github.com/AriaUI/Aria-UI

HuggingFace模型库:https://huggingface.co/Aria-UI

arXiv技术论文:https://arxiv.org/pdf/2412.16256

Aria-UI能做什么?

自动化测试:Web应用测试自动点击网页按钮、输入信息,验证功能是否正常。

用户交互辅助:语音指令控制家居设备,如“开灯”自动点击开关按钮。

智能客服:电商平台客服快速定位产品详情,回答用户咨询问题。

教育行业:自动操作代码编辑器,演示编程过程和结果。

自动化办公:自动操作财务软件,生成报表,提高工作效率。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • WeLoveGPTs
    WeLoveGPTs WeLoveGPTs是一个定制的ChatGPT集合,为您提供超能力。它包含多个定制的GPT模型,每个模型都具有不同的功能和用途。它可以用于生产力工具、...
  • Candlestick
    Candlestick Candlestick利用人工智能的力量,让股票市场为普通人服务。我们的先进模型不断更新,为您提供每周AI选股推荐,超越市场表现。模型每只股票采用数十...
  • Canvas
    Canvas Canvas是OpenAI推出的一个新界面,旨在通过与ChatGPT的协作来改进写作和编码项目。它允许用户在一个单独的窗口中与ChatGPT一起工作,...
  • SharpAPI
    SharpAPI SharpAPI是一款AI驱动的开发者多功能工具API,旨在为程序员提供一系列工具和功能。它提供了一套全面的功能,以简化开发流程并提高生产力。...
  • sanebox
    sanebox Sanebox有助于通过AI驱动的工具来保持收件箱的组织。无需努力即可获得干净的收件箱,并迅速清除了多年的旧电子邮件。使用Sanebox Advanc...
  • Truecaller
    Truecaller Truecaller是一个全球领先的平台,致力于验证联系人和阻止不受欢迎的通信。它使人们之间的安全和相关对话成为可能,并使企业与消费者之间的联系更加高...
  • room reinvented
    room reinvented 使用房间重新发明的房间升级房间的风格 - AI室内设计工具,可提供30多种令人惊叹的选择。只需上传照片并观看您的空间毫不费力地转换。今天可以轻松地提...
  • awario
    awario Awario是最终的品牌监控工具,使您能够跟踪从社交媒体到新闻媒体的多个来源的业务对话。分析行业趋势,保持竞争的标签,并与有影响力的人互动以发现潜在客...