"); //-->
研究者引入了 HomeGrid 来评估一个环境中的智能体。在这个环境中,智能体除了任务指令外还会收到语言提示。
HomeGrid 是一个具有指令和多样化提示的具有挑战性的视觉网格世界。HomeGrid 中的提示模拟了智能体可能从人类那里学到或从文本中获取的知识,提供了对解决任务有帮助但不是必需的信息:
未来观察:描述了智能体未来可能观察到的情况,比如「盘子在厨房里」。
Correction:提供了基于智能体当前行为的交互式反馈,比如「转身」。
Dynamics:描述了环境的动态变化,比如「踩踏板打开垃圾桶」。
HomeGrid 环境将与代码一起发布,以鼓励大家进一步在这个方向上进行研究。
尽管智能体没有明确地接受有关文本对应于什么观察结果的明确监督,但 Dynalang 通过未来预测目标学会了将各种类型的语言与环境相联系。Dynalang 的性能优于基于语言的 IMPALA 和 R2D2,这两种方法在使用不同类型的语言上遇到困难,通常在超出指令范围的语言任务上表现更差。
Messenger 中的游戏手册
研究者在 Messenger 游戏环境中进行评估,以测试智能体如何从更长、更复杂的文本中学习,这需要对文本和视觉观察进行多次推理。智能体必须对描述每个任务动态的文本手册进行推理,并将其与环境中实体的观察结果结合起来,以确定哪些实体应该接收消息,哪些应该避免。Dynalang 的表现优于 IMPALA、R2D2 以及使用专门架构对文本和观察进行推理的任务特定 EMMA 基线,特别是在最困难的第三阶段。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。