Aria-UI是什么?一文让你看懂Aria-UI的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

Aria-UI概述简介

Aria-UI是香港大学和Rhymes AI一起推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多样化的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和指令样本,适应不同环境下的多样化指令。Aria-UI创新性地整合动态动作历史信息,用文本或文本-图像交错格式增强模型在多步任务场景中的定位能力。在包括离线和在线代理任务的广泛基准测试中,Aria-UI均取得优异的性能,展现出强大的零样本泛化能力和跨平台适用性,成为通用GUI定位任务的有力解决方案。

Aria-UI的功能特色

GUI元素定位:将语言指令准确地映射到GUI中的目标元素,实现元素的精确定位,为后续的交互操作提供基础。

多模态输入处理:处理包括GUI图像、文本指令、动作历史等多种模态的输入信息,充分理解和利用多模态数据中的丰富信息。

多样化指令适应:基于大规模、多样化的数据合成流程生成的多样化指令样本,有效适应不同环境下的各种指令表达方式。

动态上下文理解:整合动态动作历史信息,用文本或文本-图像交错格式,在多步任务场景中理解当前的动态上下文,为准确的元素定位提供重要参考。

高分辨率图像处理:支持高达3920×2940的图像分辨率,将图像分割成小块处理,显著扩展可处理的图像尺寸范围。

Aria-UI的技术原理

纯视觉方法:采用纯视觉方法,直接从GUI图像中提取视觉特征,用视觉信息理解和定位目标元素。

多模态MoE模型:基于Aria多模态MoE(Mixture of Experts)模型构建,具有3.9B激活参数,擅长处理多模态数据。

数据合成与训练:基于两阶段的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和多样化指令样本,覆盖Web、桌面和移动三大GUI环境,为模型训练提供大量、多样化的训练数据,增强模型对不同指令和元素的识别能力。

上下文感知数据扩展:用公开的代理轨迹数据模拟具有上下文的定位任务,构建文本动作历史和文本-图像交错历史两种上下文设置,基于数据合成流程为轨迹数据中的所有定位步骤生成详细的逐步指令,让模型在动态环境中更好地理解和执行任务。

超分辨率支持:将图像分割成小块并进行处理,支持高达3920×2940的图像分辨率,保持图像的细节和准确性。

Aria-UI项目介绍

项目官网:https://ariaui.github.io/

GitHub仓库:https://github.com/AriaUI/Aria-UI

HuggingFace模型库:https://huggingface.co/Aria-UI

arXiv技术论文:https://arxiv.org/pdf/2412.16256

Aria-UI能做什么?

自动化测试:Web应用测试自动点击网页按钮、输入信息,验证功能是否正常。

用户交互辅助:语音指令控制家居设备,如“开灯”自动点击开关按钮。

智能客服:电商平台客服快速定位产品详情,回答用户咨询问题。

教育行业:自动操作代码编辑器,演示编程过程和结果。

自动化办公:自动操作财务软件,生成报表,提高工作效率。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • multilings
    multilings MultiLings是一种基于AI的内容解决方案,将神经网络的力量与快速,准确且强大的语言翻译,内容写作,pla窃检查器和引用生成器相结合。凭借高准确...
  • GenColor AI
    GenColor AI GenColor AI 采用先进的人工智能技术,能够将用户上传的照片或输入的文字描述快速转换为精美的线稿。其技术的重要性在于为绘画爱好者、艺术创作者以...
  • 库宝AI工作助手
    库宝AI工作助手 库宝AI工作助手是一个集成了多种AI功能的在线服务平台,旨在通过智能技术提升用户的工作效率。它包括AI对话、AI绘画、AI智能抠图等模块,能够帮助用户...
  • JayDee AI
    JayDee AI JayDee AI是一款AI写作助手,能够帮助招聘人员快速高效地撰写招聘广告。它可以根据用户提供的招聘职位信息,快速生成引人注目、简明扼要的招聘广告,...
  • X Studio
    X Studio X Studio是一款基于最前沿的深度神经网络算法的音乐软件。用户只需输入曲谱,即可让AI歌手在几秒内进行演唱。软件提供多维度参数的调节,让用户精确控...
  • AFlow
    AFlow AFlow是一个框架,用于自动生成和优化代理工作流。它利用蒙特卡洛树搜索在代码表示的工作流空间中寻找有效的工作流,替代手工开发,展现出在多种任务上超越...
  • No Prompt GPT
    No Prompt GPT 智能翻译助手是一款功能强大的多语言翻译工具。它可以帮助用户轻松实现各种语言之间的翻译,包括文字、语音和图片翻译。该助手支持多种语言,具有高精度和快速的...
  • HiDiffusion
    HiDiffusion HiDiffusion是一个预训练扩散模型,通过仅添加一行代码即可提高扩散模型的分辨率和速度。该模型通过Resolution-Aware U-Net ...