AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

量子位
2024-10-31 14:31

AI 解放碳基生物双手，甚至能让你的手机自己玩自己！

你没听错 —— 这其实就是移动任务自动化。

在 AI 飞速发展下，这逐渐成为一个新兴的热门研究领域。

移动任务自动化利用 AI 精准捕捉并解析人类意图，进而在移动设备（手机、平板电脑、车机终端）上高效执行多样化任务，为那些因认知局限、身体条件限制或身处特殊情境下的用户提供前所未有的便捷与支持。

帮助视障人群用户完成导航、阅读或网上购物
辅助老年人使用手机，跨越数字鸿沟
帮助车主在驾驶过程中完成发送短信或调节车内环境
替用户完成日常生活中普遍存在的重复性任务
……

妈妈再也不嫌重复设置多个日历事项会心烦了。

最近，来自西安交通大学智能网络与网络安全教育部重点实验室 (MOE KLINNS Lab）的蔡忠闽教授、宋云鹏副教授团队（团队主要研究方向为智能人机交互、混合增强智能、电力系统智能化等），基于团队最新 AI 研究成果，创新性提出了基于视觉的移动设备任务自动化方案 VisionTasker。

这项研究不仅为普通用户提供了更智能的移动设备使用体验，也展现出了对特殊需求群体的关怀与赋能。

基于视觉的移动设备任务自动化方案

团队提出了 VisionTasker，一个结合基于视觉的 UI 理解和 LLM 任务规划的两阶段框架，用于逐步实现移动任务自动化。

该方案有效消除了表示 UI 对视图层次结构的依赖，提高了对不同应用界面的适应性。

值得注意的是，利用 VisionTasker 无需大量数据训练大模型。

VisionTasker 从用户以自然语言提出任务需求开始工作，Agent 开始理解并执行指令。

具体实现如下：

1、用户界面理解

VisionTasker 通过视觉的方法做 UI 理解来解析和解释用户界面。

首先 Agent 识别并分析用户界面上的元素及布局，如按钮、文本框、文字标签等。

然后，将这些识别到的视觉信息转换成自然语言描述，用于解释界面内容。

2、任务规划与执行

接下来，Agent 利用大语言模型导航，根据用户的指令和界面描述信息做任务规划。

将用户任务拆解为可执行的步骤，如点击或滑动操作，以自动推进任务的完成。

3、持续迭代以上过程

每一步完成后，Agent 都会根据最新界面和历史动作更新其对话和任务规划，确保每一步的决策都是基于当前上下文的。

这是个迭代的过程，将持续进行直到判断任务完成或达到预设的限制。

用户不仅能从交互中解放双手，还可以通过可见提示监控任务进度，并随时中断任务，保持对整个流程的控制。

首先是识别界面中的小部件和文本，检测按钮、文本框等元素及其位置。

对于没有文本标签的按钮，利用 CLIP 模型基于视觉设计来推断其可能功能。

随后，系统根据 UI 布局的视觉信息进行区块划分，将界面分割成多个具有不同功能的区块，并对每个区块生成自然语言描述。

这个过程还包括文本与小部件的匹配，确保正确理解每个元素的功能。

最终，所有这些信息被转化为自然语言描述，为大语言模型提供清晰、语义丰富的界面信息，使其能够有效地进行任务规划和自动化操作。

实验评估

实验评估部分，该项目提供了对三种 UI 理解的比较分析，分别是：

GPT-4V
VH（视图层级）
VisionTasker 方法

△ 三种 UI 理解方法的比较分析

对比显示，VisionTasker 在多个维度上比其他方法有显著优势。

此外，在处理跨语言应用时也表现出了良好的泛化能力。

△ 实验 1 中使用到的常见 UI 布局

表明 VisionTasker 的以视觉为基础的 UI 理解方法在理解和解释 UI 方面具有明显优势，尤其是在面对多样化和复杂的用户界面时尤为明显。

△ 跨四个数据集的单步预测准确性

文章还进行了单步预测实验，根据当前的任务状态和用户界面，预测接下来应该执行的动作或操作。

结果显示，VisionTasker 在所有数据集上的平均准确率达到了 67%，比基线方法提高了 15% 以上。

真实世界任务：VisionTasker vs 人类

实验过程中，研究人员设计了 147 个真实的多步骤任务来测试 VisionTasker 的表现，这些任务涵盖了国内常用的 42 个应用程序。

与此同时，团队还设置了人类对比测试，由 12 名人类评估者手动执行这些任务，然后 VisionTasker 的结果进行比较。

结果显示，VisionTasker 在大多数任务中能达到与人类相当的完成率，并且在某些不熟悉的任务中表现优于人类。

△ 实际任务自动化实验的结果“Ours-qwen”是指使用开源 Qwen 实现 VisionTasker 框架，”Ours”表示使用文心一言作为 LLM

团队还评估了 VisionTasker 在不同条件下的表现，包括使用不同的大语言模型（LLM）和编程演示（PBD）机制。

VisionTasker 在大多数直观任务中达到了与人类相当的完成率，在熟悉任务中略低于人类但在不熟悉任务中优于人类。

△VisionTasker 逐步完成任务的展示

结论

作为一个基于视觉和大模型的移动任务自动化框架，VisionTasker 克服了现阶段移动任务自动化对视图层级结构的依赖。

通过一系列对比实验，证明其在用户界面表现上超越了传统的编程演示和视图层级结构方法。

它在 4 个不同的数据集上都展示了高效的 UI 表示能力，表现出更广泛的应用性；并在 Android 手机上的 147 个真实世界任务中，特别是在复杂任务的处理上，表现了出超越人类的任务完成能力。

此外，通过集成编程演示（PBD）机制，VisionTasker 在任务自动化方面有显著的性能提升。

目前，该工作已以正式论文的形式发表于 2024 年 10 月 13-16 日在美国匹兹堡举行的人机交互顶级会议 UIST（The ACM Symposium on User Interface Software and Technology）。

UIST 是人机交互领域专注于人机界面软件和技术创新的 CCF A 类顶级学术会议。

原文链接：https://dl.acm.org/ doi / 10.1145/3654777.3676386
项目链接：https://github.com/ AkimotoAyako / VisionTasker

本文来自微信公众号：量子位（ID：QbitAI），作者：关注前沿科技

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。