Ferret-UI Lite:构建小型设备上 GUI 代理的经验教训
探索使用 Ferret-UI Lite 构建小型设备上 GUI 代理的经验教训,以及 AI 驱动的 UI 自动化如何重塑业务工具和工作流程。
Mewayz Team
Editorial Team
设备上 GUI 代理的兴起:人机交互的新领域
几十年来,软件交互的主导范式一直顽固地保持静态:人类阅读屏幕,移动光标,单击按钮,然后等待响应。自 20 世纪 70 年代第一个图形桌面出现以来,这个循环——感知、决定、行动——就定义了计算。但一场悄然的革命正在进行中。研究人员和工程师正在构建小型、高效的人工智能模型,能够完全在设备上的图形用户界面中进行感知、推理和操作,而不会产生基于云的推理的延迟、成本或隐私问题。这些项目的经验教训正在重塑我们对智能软件、自动化和商业工具未来的看法。
紧凑型 GUI 代理(例如 Apple 的 Ferret-UI 及其较轻的同类模型)的开发揭示了一些深刻的东西:您不需要庞大的语言模型来理解屏幕。您需要正确的架构、正确的训练数据以及对特定任务效率的坚定承诺。随着这些系统的成熟,它们开始改变企业与其自己的软件堆栈交互的方式,开启了曾经只属于科幻小说的可能性。
为什么轻量级模型是真正的突破
人工智能话语中有一种倾向将能力与规模等同起来。人们认为,更大的模型就是更智能的模型。但对于 GUI 代理(必须理解像素级布局、解析交互元素并跨复杂应用程序执行多步骤任务的系统)来说,原始参数计数不如空间精度和接地精度重要。能够可靠地点击移动界面中正确按钮的 70 亿参数模型,其性能优于能够幻觉元素位置的 700 亿参数多面手。
对小型设备上 GUI 模型的研究一致表明,对特定于 UI 的数据进行有针对性的微调比简单地提示大型基础模型能产生显着的改进。在带注释的屏幕截图、元素层次结构和交互轨迹上训练的模型学习的视觉语法与在互联网文本和自然图像上训练的模型完全不同。他们对可供性(什么可以点击、滑动、滚动或打字)有了了解,而这是通才模型所缺乏的。
实际意义重大。在智能手机的神经处理单元上运行的模型可以实时帮助用户,从本地交互模式中学习,并在没有互联网连接的环境中运行。对于敏感财务数据、人力资源记录或客户信息存在于软件界面内的企业环境来说,设备上推理并不是可有可无的,而是合规性的必需品。
真正传递的建筑经验
小规模构建功能强大的 GUI 代理需要与标准视觉语言模型设计截然不同的架构决策。研究这个问题的研究团队不断得出一些教训。
首先,坐标表示非常重要。早期的 GUI 智能体举步维艰,因为它们继承了训练来描述场景而不是与场景交互的模型的空间推理。一个显示“屏幕右下区域有一个蓝色按钮”的模型对于自动化来说是无用的。一个能够以亚像素精度返回标准化坐标的模型,并且在不同的屏幕分辨率、DPI 设置和操作系统主题上可靠地执行此操作,确实非常有用。从描述性空间输出到可操作空间输出的转变需要重新思考如何训练和评估接地头。
其次,层次结构感知编码极大地提高了性能。现代应用程序界面不是平面图像——它们是容器、列表、模式和交互元素的嵌套结构。可以访问辅助功能树或查看层次结构的模型
Related Posts
获取更多类似的文章
每周商业提示和产品更新。永远免费。
您已订阅!