Aria-UI是什么?一文让你看懂Aria-UI的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

Aria-UI概述简介

Aria-UI是香港大学和Rhymes AI一起推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多样化的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和指令样本,适应不同环境下的多样化指令。Aria-UI创新性地整合动态动作历史信息,用文本或文本-图像交错格式增强模型在多步任务场景中的定位能力。在包括离线和在线代理任务的广泛基准测试中,Aria-UI均取得优异的性能,展现出强大的零样本泛化能力和跨平台适用性,成为通用GUI定位任务的有力解决方案。

Aria-UI的功能特色

GUI元素定位:将语言指令准确地映射到GUI中的目标元素,实现元素的精确定位,为后续的交互操作提供基础。

多模态输入处理:处理包括GUI图像、文本指令、动作历史等多种模态的输入信息,充分理解和利用多模态数据中的丰富信息。

多样化指令适应:基于大规模、多样化的数据合成流程生成的多样化指令样本,有效适应不同环境下的各种指令表达方式。

动态上下文理解:整合动态动作历史信息,用文本或文本-图像交错格式,在多步任务场景中理解当前的动态上下文,为准确的元素定位提供重要参考。

高分辨率图像处理:支持高达3920×2940的图像分辨率,将图像分割成小块处理,显著扩展可处理的图像尺寸范围。

Aria-UI的技术原理

纯视觉方法:采用纯视觉方法,直接从GUI图像中提取视觉特征,用视觉信息理解和定位目标元素。

多模态MoE模型:基于Aria多模态MoE(Mixture of Experts)模型构建,具有3.9B激活参数,擅长处理多模态数据。

数据合成与训练:基于两阶段的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和多样化指令样本,覆盖Web、桌面和移动三大GUI环境,为模型训练提供大量、多样化的训练数据,增强模型对不同指令和元素的识别能力。

上下文感知数据扩展:用公开的代理轨迹数据模拟具有上下文的定位任务,构建文本动作历史和文本-图像交错历史两种上下文设置,基于数据合成流程为轨迹数据中的所有定位步骤生成详细的逐步指令,让模型在动态环境中更好地理解和执行任务。

超分辨率支持:将图像分割成小块并进行处理,支持高达3920×2940的图像分辨率,保持图像的细节和准确性。

Aria-UI项目介绍

项目官网:https://ariaui.github.io/

GitHub仓库:https://github.com/AriaUI/Aria-UI

HuggingFace模型库:https://huggingface.co/Aria-UI

arXiv技术论文:https://arxiv.org/pdf/2412.16256

Aria-UI能做什么?

自动化测试:Web应用测试自动点击网页按钮、输入信息,验证功能是否正常。

用户交互辅助:语音指令控制家居设备,如“开灯”自动点击开关按钮。

智能客服:电商平台客服快速定位产品详情,回答用户咨询问题。

教育行业:自动操作代码编辑器,演示编程过程和结果。

自动化办公:自动操作财务软件,生成报表,提高工作效率。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • review.legal
    review.legal review.legal是一个AI法律助手,旨在简化和缩短复杂的法律文件,帮助用户更快地理解并审查合同。它通过缩短合同条款、简化语言、翻译成用户母语等...
  • knibble.ai
    knibble.ai knibble.ai是一个构建基于ChatGPT的知识库和聊天机器人的在线SaaS平台。用户可以上传PDF文档、网页链接或直接粘贴文本,knibble...
  • diffusion art
    diffusion art 轻松体验现代艺术。扩散艺术提供100%免费的AI艺术生成器,无需注册或信用。下载无限的艺术品,并使用免费的Midjourney替代品创建独特的项目。...
  • GitPodcast
    GitPodcast GitPodcast是一个创新的在线工具,它允许用户将GitHub上的任何代码仓库转换成播客形式,从而快速理解项目。这种形式特别适合开发者和对项目感兴...
  • 中文互联网语料资源平台
    中文互联网语料资源平台 中文互联网语料资源平台是由中国网络空间安全协会主办的专业网站,旨在为人工智能大模型的预训练提供高质量、安全合规的中文语料资源。该平台汇聚了来自企业、高...
  • Florence-2-base-ft
    Florence-2-base-ft Florence-2是由微软开发的高级视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示,执行诸如图像描述、...
  • imyfone voxbox
    imyfone voxbox Imyfone voxbox具有46多种语言的3200多个逼真的文本对语音,具有99%的精度,具有AI语音克隆能力。为内容创建者创建自定义的Lifel...
  • Coda
    Coda Coda是一个集成了多种工具的协作平台,它将文档、电子表格和应用程序整合在一起,使用户能够在一个统一的环境中工作。Coda以其灵活性和强大的功能而闻名...