ShowUI是什么?一文让你看懂ShowUI的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

ShowUI概述简介

ShowUI是新加坡国立大学Show Lab和微软一起推出的视觉-语言-行动模型,能提升图形用户界面(GUI)助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本,用交错视觉-语言-行动流统一GUI任务中的多样化需求,并管理视觉-行动历史增强训练效率。ShowUI用小规模但高质量的指令跟随数据集,用256K数据实现75.1%的零样本截图定位准确率,训练速度提升1.4倍,展现出在GUI视觉代理领域的潜力。

ShowUI的功能特色

UI引导的视觉令牌选择:将屏幕截图构建为UI连接图,自适应地识别冗余关系,在自注意力模块中作为选择令牌的标准,减少计算成本。

交错视觉-语言-行动流:灵活地统一GUI任务中的多样化需求,有效管理视觉-行动历史,提高训练效率。

小规模高质量GUI指令跟随数据集:基于精心策划数据和采用重采样策略解决数据类型不平衡的问题,提高模型的准确性和效率。

零样本截图定位:在没有额外训练的情况下,直接对屏幕截图进行理解和操作的能力。

GUI自动化:自动化执行GUI任务,如点击、输入等,提高人机交互效率。

ShowUI的技术原理

UI引导的视觉令牌选择:

将屏幕截图分割成规则的补丁(patches),每个补丁作为一个节点。

识别具有相同RGB值的相邻补丁,构建UI连接图,将视觉冗余区域组合起来。

在自注意力模块中,基于UI连接图选择性地处理视觉令牌,减少计算量。

交错视觉-语言-行动流:

结构化GUI动作,以JSON格式表示,统一不同设备上的动作。

基于交替处理视觉、语言和行动数据,管理复杂的交互历史。

在训练中,用多轮对话方式,提高数据利用效率。

数据策划和重采样策略:

精心策划和选择高质量的训练数据,而不是简单地聚合所有可用数据源。

基于重采样策略,解决不同设备和任务类型之间的数据不平衡问题。

高效处理高分辨率UI截图:针对高分辨率UI截图,优化模型以有效处理长令牌序列,减少计算成本。

模型架构:

基于Qwen2-VL-2B模型,整合视觉编码器和语言大模型,处理视觉和文本数据。

基于特定的数据食谱和训练策略,提高模型在GUI任务中的性能。

ShowUI项目介绍

GitHub仓库:https://github.com/showlab/ShowUI

HuggingFace模型库:https://huggingface.co/datasets/showlab/ShowUI-desktop-8K

arXiv技术论文:https://arxiv.org/pdf/2411.17465

在线体验Demo:https://huggingface.co/spaces/showlab/ShowUI

ShowUI能做什么?

网页自动化:自动执行网页上的点击、输入、滚动等操作,用在自动化测试、数据抓取或模拟用户行为。

移动应用测试:在移动应用中自动化执行各种用户交互,如滑动、点击、填写表单等,进行应用功能测试。

桌面软件自动化:自动化桌面软件中的重复性任务,如文件管理、数据输入、设置调整等。

虚拟助手:作为虚拟助手的一部分,根据用户的自然语言指令执行特定的GUI操作。

游戏自动化:在支持自动化脚本的游戏中,自动执行角色移动、物品拾取、战斗等操作。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • storymania ai story generator
    storymania ai story generator 与AI -Power的平台与Storymania进行工艺吸引人的故事,旨在协助各个级别的作家。在干净,无广告的环境中享受无缝的编辑和类型定制。在创纪录...
  • aibooktools
    aibooktools 使用Aibooktools,您可以将书籍快速转化为可行的见解 - 所有这些都没有长时间的阅读或手动数据输入。凭借AI的力量,您可以充分利用自己喜欢的书...
  • Exponent
    Exponent Exponent 是一款协作式 AI 编程代理,旨在提升软件开发的效率与体验。它能够在多种环境中工作,从代码的探索到部署,能够帮助开发者自动化复杂的编...
  • Vapi
    Vapi Vapi 是一个为开发者设计的语音 AI 代理平台,支持企业从初创公司到财富 500 强的各种需求。其灵活的 API 设计和多种语言支持使得它在电话运...
  • Crtrdg
    Crtrdg Crtrdg是一款专为独立游戏开发者设计的网站创建工具。它允许用户无需编写代码,就能快速创建一个针对自己游戏的网站。该产品的主要优点是操作简便、支持从...
  • AI Cover Letter Creator
    AI Cover Letter Creator AI求职助手是一款使用人工智能技术生成个性化求职信的工具。用户只需提供自己的简历和职位描述,AI求职助手将自动生成定制的求职信。该工具提供方便快捷的方...
  • 可灵 AI
    可灵 AI 可灵 AI 是一款集成了 AI 图像和视频创作功能的创意生产力平台。其主要优点在于快速生成多样风格的图片和高清视频,助力用户提升创作效率。产品定位于为...
  • Exa Websets
    Exa Websets Exa Websets 是一款致力于提供完美网络搜索体验的产品。它使用Exa的网络规模向量搜索技术,通过语义查找结果,确保每个搜索结果都经过AI代理的...