Nature封面：人类还在看提词器，AI的辩论能力却出现了重大进展

机器之心 | 2021-03-20 14:46:49 阅读：113

人类斗嘴还要看提词器，AI 引经据典的能力却已经比你高出不止一个段位了。

在人工智能打败专业国际象棋选手、围棋选手，并在多个电子游戏中大展身手之后，现在它冲着职业辩论选手来了！

辩论是指对某个议题或主张，以言语为主要方式，为分辨不同立场之优劣而进行的一种争论方式。辩论需要精湛的口才或强大的逻辑思辩能力，且讲求反应。

辩论比赛不是人人都能上，很多人甚至连吵完架都后悔没发挥好，那么 AI 呢？它能在辩论中发挥出怎样的成绩呢？

2012 年，IBM 海法研究院开始研发能够与人类辩论的 AI 系统——Project Debater。2018 年 6 月，Project Debater 打败人类专业辩手，并在 2019 年 2 月第二次亮相时，对阵 2016 年世界辩论决赛选手、欧洲辩论赛冠军 Harish Natarajan。虽然在这次人机 battle 中，Project Debater 未能获得胜利，但它展示出了优秀的构建论据以及决策能力。

刚刚，IBM 关于 Project Debater 的一项研究登上了 Nature 封面，介绍了 Project Debater 的架构并进行了性能评估。

论文链接：https://eorder.sheridan.com/3_0/app/orders/11030/files/assets/common/downloads/Slonim.pdf

Project Debater 与人类的对战

辩论赛的一大难点是论据挖掘，在很长时间里这一能力都被认为超出 AI 能力范畴。但 AI 技术进展、日益成熟的工程技术和广泛的商业需求促使该领域快速发展。IBM 海法研究院 Noam Slonim 博士等人决定开启一项挑战：开发一个能够与人类进行现场辩论的完全自主系统。

这就是 Project Debater。

Project Debater 是一项巨大的工程成就，融合了多种基于文本收集和解释辩论相关材料的新方法。

研究人员为了评估 Project Debater 系统的总体性能，将其与各种基线进行比较，并跟踪其随时间的进展情况，由结果可得，Project Debate 的评估结果明显优于其他系统，并且非常接近人类专家的得分。

Project Debater 系统对比评估。

和几乎所有目标高远的 AI 研究一样，Project Debater 面临一个关键的瓶颈，即如何获取足够的数据，以便计算出一个有效的解决方案。Project Debater 用双管齐下的方法解决了这一问题：它将关注范围缩小到约 100 个辩题；从庞大的数据集中获取原材料。

在 2018 年和 2019 年的一系列活动中，「Project Debater」与多名才华横溢、备受瞩目的人类辩手进行了较量，观众对其辩论进行了非正式评估。

「Project Debater」与人类辩手的较量。

在 1v1 辩论中，该系统进行一个 4 分钟的演讲，人类对手对此作出回应。然后，「Project Debater」对对手的观点做出回应，发表第二个 4 分钟辩论，对手用 4 分钟的时间进行反驳。最后，双方都做了 2 分钟的最终陈述。

人机比赛的辩论流程

该系统最薄弱之处或许是它难以模仿人类辩手的连贯性和流畅度，这与论据选择、抽象和编排的最高层次有关。然而，这种限制并非「Project Debater」所独有。尽管对辩论已经进行了两千年的研究，但人们对论证结构仍然知之甚少。

构成优秀论证的模型是多样化的，而构成优秀辩论的模型仅仅相当于形式化的直觉。因此，当时 Project Debater 的性能评估仅仅是通过询问人类观众是否认为它「表现不错」来完成的。在几乎三分之二的辩题中，人类认为是这样的。

所有辩论技术系统面临的最终挑战是：将论据视为受一系列孤立考虑因素影响的局部话语片段，还是将其编入更大范围的社会规模辩论中。在很大程度上，这关乎于如何设计待解决的问题，而不是如何制定解决方案。通过在论据上设置先验界限，得到理论上的简化，从而提供计算优势。

此外，在现实世界中，论据并不存在明确的界限：发生在辩论室之外的话语不是离散的，而是与一个交叉引用、类比、举例和泛化的网络连接起来。关于 AI 如何处理这种论据网络的想法已经在理论上被提出，并用软件实现——DebateGraph。

但这些实现面临了棘手的理论挑战和社会技术问题。

「Project Debater」是辩论技术发展的关键一步，也是将论据作为局部现象来处理的关键一步。它的成功让我们看到了 AI 系统是如何轻松处理论据网络的。

Project Debater 输出的辩论内容类型分析。

Project Debater 解决了一项重大挑战，它也代表了 AI 在促进人类推理方面的进步，正如 Slonim 等人所说，「这远远超出了当前 AI 技术的舒适区。」

如何造就强大的 AI 辩手

Project Debater 包含四个主要组件：论据挖掘、论据知识库（AKB）、论点反驳和辩论构建。其中前两个模块是辩论语音的内容源。

论据挖掘组件负责找出与辩题相关的论据和反驳论据，它包含两个阶段。在离线阶段中，该组件处理包含 4 亿新闻文章的大型语料库，将这些文章拆分为句子并进行索引。在在线阶段中，该模块基于给出的辩题依靠索引在语料库中执行句子级的论据挖掘、相关论断和论据检索。

正所谓「知己知彼，百战不殆」，该模块还会搜索支持对方观点的论据，这些论据将在论点反驳模块中得到使用。

AKB 模块则包含论据、反驳论据和与一般辩论类别相关的其他文本。给出一道辩题，它就可以找出最相关的材料。

论点反驳模块基于前两个模块预测对手的反对主张，并生成潜在的回应。最后的辩论构建模块则选择其他模块提议的文本，并将其组合成流畅的表述。

此外，IBM 还提供了 Project Debater 12 种底层技术的云 API，以供学术使用。

地址：https://early-access-program.debater.res.ibm.com/academic_use.html

这些 API 包括处理 wikification、维基百科概念间的语义关联、短文本聚类和文本主题提取的自然语言理解能力。API 的核心部分服务于论据挖掘与分析，包括检测包含主张和论据的句子、检测句子中的主张界限、评估论据质量和立场分类（支持 / 反对）。

此外，Narrative Generation 和 Key Point Analysis API 还提供两项高级服务——创建不同类型的总结。Narrative Generation 为支持或反驳给定主题构建结构完备的语音。Key Point Analysis 是一种新型有前景的摘要方法，它可以基于给定主题将评论总结为一小组关键点，每个关键点的重要程度由评论中匹配句子的数量决定。

感兴趣的开发者可以申请试用。

参考链接：

https://www.nature.com/articles/d41586-021-00539-5

https://www.ibm.com/blogs/research/2021/03/project-debater-api/

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。