ResponsibleTA提升LLM可靠性，任务完成更安全、更高效

机器之心 | 2023-06-23 15:16:49 阅读：195

AI 智能助手照进现实。

近几个月，ChatGPT、GPT-4 等大语言模型（LLM）展现出突破性的理解、推理、生成、泛化和对齐能力，对各行各业的研究方式和生产效率均带来广泛而深远的变革及影响。此外，LLM 还展现出在真实世界的开放场景中解决复杂问题的能力，使科幻电影中无所不能的 AI 智能助手照进了现实。
在实现自然场景中的任务自动化时，一个复杂的任务往往由多个子任务构成，这需要多个模型或 APIs 的协作。如何确保 LLM 和执行器之间高效、安全、稳定地协同工作，是构建 Responsible AI ，以及让 LLM 可靠地为人类提供服务的关键问题。
为了解决这个问题，来自微软亚洲研究院的研究团队提出 Responsible Task Automation (ResponsibleTA) 框架，提升 LLM 和执行器之间协同工作的安全性和有效性。

论文链接：https://arxiv.org/pdf/2306.01242.pdf项目主页：https://task-automation-research.github.io/responsible_task_automation/
方法
本文通过提出一个新的任务自动化框架，通过可行性检测，完成度检验，用户隐私保护等三个模块，提高了大语言模型作为任务助手的可靠性，为未来的人机交互提供了一种可行的方式。
该系统框架包含基于 LLM 的中央处理单元、指令执行器、指令可行性预测器、指令完成度检验器和安全性保护器。

Responsible Task Automation (ResponsibleTA) 框架示意图
当 ResponsibleTA 接收到复杂任务对应的高层级指令时，安全性检测自动将包含用户隐私的命令实体替换成对应的占位符，然后将去隐私化的指令发送给部署在云端的 LLM，LLM 据此规划实现该负责任务目标的单步指令，然后发送给的部署在本地的执行器实际执行相关操作。从 Responsible AI 的角度出发，该框架赋予 LLM 三个新的能力：
1）可行性预测：ResponsibleTA 框架针对 LLM 和执行器的协同，开发设计了可行性预测模块。该模块用于对 LLM 的输出进行可行性判断，及时****不可行的执行指令，从而规避在执行这些指令的过程中产生的不可控风险。当 LLM 输出的指令判断为「不可行」时，可行性预测期会将其分析结果返回给 LLM，并要求其重新进行任务规划，力求将合理可行性的指令交付给执行器，提升任务自动化的成功率。
2）完成度检验：ResponsibleTA 框架设计了一个完成度检验器，用于在执行器每次执行结束后自动检查其执行结果是否符合预期。该模块根据执行器执行后的即时状态，判断 LLM 当前规划是否完成，并提供及时补救的可能。当执行状态判定为「未完成」时，完成度检验器会要求 LLM 启动 replanning，使其能够及时调整任务规划。
完成度检验器和上述可行性预测器，分别在 LLM 输出指令的执行前后，对指令的合理性和执行的完成性进行校验，为任务自动化的可靠性提供了双重保险。
3）用户隐私保护：ResponsibleTA 框架还设置了用户隐私保护机制，该机制通过一个本地记忆单元实现。当用户将高层级命令发送给部署在云端的大语言模型时，ResponsibleTA 中的隐私保护模块自动将命令中的隐私信息（如：用户名、密码、地址等）替换成对应的占位符，而当大语言模型将规划的低层级指令发送给部署在本地的执行器是，占位符会被自动替换成对应的真实信息。于此方式，用户的隐私信息仅在本地被存储和被使用，无需发送至云端，从而避免在传输和使用中的不可控风险。
针对 ResponsibleTA 中的可行性预测和完成度检查功能，其研究团队在 UI 任务自动化场景下提出并对比了两种不同的技术路线，并在实验部分详细分析了这两种技术路线的特点。以可行性预测为例，第一种技术方案通过 Prompting 的方式利用大语言模型内部知识进行判断。具体地，研究者训练了一个屏幕解析模型将 UI 页面解析成所含 UI 元素的语言描述，并将和指令一起输入给 GPT-4 模型，让 GPT-4 判断当前指令的可行性。具体方案如下图所示。

基于 prompt engineering 的（指令）可行性预测器实现方案

另一种技术方案在于训练一个专用的多模态模型，该模型接收 UI 页面的视觉信号和对应的语言指令为输入，输出该指令的可行性判定结果，具体结构如下图。

基于专用模型的（指令）可行性预测器实现方案
完成度检验器的实现方案于可行性预测器类似，在此不详细赘述。
实验
该工作的作者首先对 ResponsibleTA 中的关键模块进行定性实验，验证其有效性，并对比不同实现方式的特点。据下表所示实验结果，作者认为专用模型能够提供更优的实验结果但需要收集特定任务对应的数据和标注用于模型训练，而基于 LLM 的技术方案也能达到不错的效果，并在实际部署的成本和灵活性方面具有优势。

可行性预测器和完成度检验器的定性实验结果
作者还在真实世界的实际使用场景中进行 online testing, 并汇报了基线模型，具有可行性预测器的 ResponsibleTA 框架和完整版的 ResponsibleTA 框架在 12 个实际 UI 任务执行过程中的具体表现。作者观察到所提出的可行性预测器和完成度检验器能够避免执行不可理 / 不可行的指令，并能通过让 LLM 进行 replanning 的方式进行及时补救，从而提升任务自动化的成功率。

真实世界中实例研究定量结果。表格中的数字表示「有效执行步数 / 总共执行步数（人类专家执行步数）」。
此外，作者还通过具体的案例分析直观地展现了 ResponsibleTA 框架中的关键模型如何对一个失败案例进行补救，使其成为一个成功案例。

案例分析：进入亚马逊网站并将最便宜的充电器添加至购物车。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。