小小的大脑，大大的智慧——仿昆虫智能为通用AI带来的新思路（2）

机器之心 | 2021-04-18 11:46:15 阅读：253

在实际测试中，作者使用不同大小——直径 65mm 或 100mm——和不同颜色——黑色、深灰、浅灰、白色等——的泡沫球来代表目标。泡沫球被用类似于鱼线的透明细线悬挂于离地面 50-150cm 的高度，并按照固定的轨迹以 0.06m/s 或 0.12 m/s 的速度前进，以代表慢速和快速的目标。在实验过程中，如果机器人在泡沫球完成其运动轨迹之前能够前进至泡沫球一米之内，就认为追踪成功了。

由于相机硬件的限制，机器人只能以 20 Hz 的频率对所处环境进行采样并跟踪目标。整个实验可以在户外进行，也可以通过将周围环境投影到墙壁上在室内进行。由于室外环境的挑战更强，笔者将着重关注该机器人在室外的表现。

图：机器人的视频输出样例，用以显示室外实验的环境条件。

图源：Bagheri, Zahra & Cazzolato, Ben & Grainger, Steven & O'Carroll, David & Wiederman, Steven. (2017). An autonomous robot inspired by insect neurophysiology pursues moving features in natural environments. Journal of Neural Engineering. 14. 046030. 10.1088/1741-2552/aa776c.

内部模型对目标检测的影响

如前文提到的，在飞行过程中，昆虫会绕头移动以使目标保持在视野内的特定角度位置。然而，这些扫视运动会导致视网膜图像的频繁且大量的移位。因此，在扫视过程中昆虫需要利用眼睛或身体的运动来调节视觉输入，以将视觉注意力转移到正确的位置。一些研究认为飞行昆虫体内有一种内部模型（internal model）来对这种扫视运动进行预测和计划。为了衡量这种内部模型对于追踪成功率的影响，作者比较了开环（open-loop）和闭环（closed-loop）控制下的追踪成功率。在闭环控制中，机器人系统可以根据运动传感器的信息，将融合了 ESTMD 的输出后的位置信息重新定位到完成扫视运动后的相应位置，而在开环控制实验中机器人则没有这类运动传感器数据。

结果——如下图（a）显示，闭环系统的目标检测成功率的中位数为 59%，而在开环系统中，检测成功的中位数则直接下降到 48％，因而显示了内部模型在跟踪目标检测中的重要作用。

信息融合对目标检测的影响

在机器人系统的第三部分内，作者实现了一个信息协助机制（facilitation mechanism），从而提高目标相对于其周围坏境的对比度。为了量化该协助机制的作用，作者选取了机器人在实验一开始难以尽快检测到目标，但在追踪过程中后来又将其锁定的视频图像。在这些图像中，作者人为的选取目标在第一帧中的位置，并将其作为融合机制中目标的未来位置，从而提供一个对目标位置的初识估计。整个过程可以持续 200 毫秒或 500 毫秒。

接下来，作者比较了在系统成功将目标锁定之前的帧内，系统有（200 ms 或 500 ms）或无目标初始位置估计的目标检测成功率。200 ms 和 500 ms 的目标初始位置的估计和信息融合将成功目标检测的中位数提高到 29％和 34％，相比之下，无目标初始位置的估计情况下的成功率是 3％，如下图（b）所示。这些结果表明，信息融合机制的存在可以有效的将注意力引导到目标位置，从而提高检测成功率。

图：a）内部模型对目标检测的影响， b）信息融合机制可增强目标相对于其周围坏境的对比度

目标对比度的重要性

作者在闭环追踪中量化了目标相对于环境的对比度的影响。下图（a）中的框线图总结了追踪过程中的平均目标对比度，框内的红线是平均对比度的中位数，两端则是 25％和 75％分位数，剩余的红色小点是 outlier。尽管在实验过程中光照条件会发生变化，因此目标对比度也会发生变化，但不同实验的平均对比度中位数实际上是相似的。如果将目标对比度平均分为 5 个水平，并计算其相应的追踪成功率——其中不同的曲线对应机器人在融合位置信息时使用的不同的时间常数 τf ——如图（b）所示，我们可以得出一些有趣的结论。

首先——不出意料的——可以看出高目标对比度对实现高追踪成功率是相当有效的。当目标对比度较低时，由于检测到目标的成功率已经很低，使用不同的时间常数 τf 基本没有任何影响，时间常数的最大影响是当目标对比度大于 0.3 时。作者认为，由于目标对比度在追踪过程中会发生变化，在实际使用时如果能够在目标对比度较高时使用合适的时间常数建立高效的融合机制，并在随后追踪中仅试图 “锁定” 在对比度降低的目标上，将会大大提高追踪的成功率。

图：目标对比度对于追踪成功率的影响

毫无疑问的，本文中受昆虫的生物结构启发而实现的各类模块使得机器人在低目标对比度、存在噪声的环境等的环境中表现的稳健型有了提高，并且系统的成功率与模拟（simulation）计算出的成功率相似。但是，该系统也有一些美中不足的地方 —— 在信息融合机制中，由于需要对目标的未来位置进行估计，对当前目标速度的估计是很重要的。而作者仅简单的使用了目标的当前速度并将分为 “慢”，“中” 或“快”三等。这不可避免的导致了位置估计的误差，从而影响了系统的表现。另外，当机器人运动时，其一定会受到震动产生的力和振动的影响。振动会削弱信息的获取、运动信息的命令输出或将输入信息与输出运动命令相关联的过程。昆虫通过减少振动传递到头部 / 复眼的方式——即头和身体独立转动——来减少其对视觉的影响。这种 “主动视觉” 在本文的机器人系统上并没有被实现。

本文其他的局限性主要来自于硬件系统——在当前的研究中，摄像机的帧数较低（20 fps），因而限制了机器人和目标的速度。而像蜻蜓等昆虫的飞行速度可以达到 6.8 m/s，也就是说，目前在地面上缓慢移动的机器人平台无法像蜻蜓那样处理同等水平的动态能量和运动控制难题。要实现高处理速度和低计算复杂度，就必须转向高速摄像头，并处理随之的数据处理和能耗要求。不难想象，如果以上问题都能够解决的话，该模型最理想的实现平台应该是无人机等空中平台。

三、导航：The Central Complex as a Potential Substrate for Vector Based Navigation

接下来，我们的目标转向在地面上活动的昆虫 —— 蚂蚁等昆虫具有强大的导航能力。一般认为，这类昆虫利用其大脑内的中心复合体（central complex）来实现与导航，方向和空间学习紧密相关的功能，上面的神经回路会通过称为路径整合（path integration ，PI）的过程来跟踪它们在巢外的移动情况。目前，建立在神经生理学和神经解剖学数据基础上的最新模型已经可以解释 PI 系统是如何控制昆虫在巢外环境探索并准确返回巢穴的——通过结合体内的指南针和速度信息，该系统可以不断更新原点矢量（home vector），用以记录目前其相对于巢穴的位置和方向——其中振幅用于记录距离，相位用于记录方向——从而允许昆虫在外行进任意路线之后直接返回巢穴。但是，昆虫不会仅将 PI 系统用于归巢。例如，他们还可以利用该系统存储向量信息（PI vector-memories）以返回到已知的食物位置，并在多个食物位置之间寻找捷径。对昆虫这种行为的实现可以提供基于矢量的丰富导航功能。

本文实现的中心复合体神经模型一共有五层，如下图所示。第一层分为两部分，分别由用于获取智能体（Agent）当前的速度（speed）的 TN_2 神经元和和用于获取前进方向（directional）的 TL 神经元组成。后者包含 16 个输入神经元，每个输入神经元都优先响应一个特定方向 α∈{0，π/ 4，π/ 2，3π/ 4，π，5π/ 4，3π/ 2，7π/ 4} 。通过判断哪个神经元被激活了，就可以得出智能体的前进方向。在实验中，智能体每走一步都会收到其目前的前进方向 α 和应该前进方向 θ ∈ [0, 2π) 之差的余弦值作为输入。

第二层由 16 个神经元组成，主要作为方向单元（direction cells）用以模拟昆虫体内的 CL1 神经元，这些神经元接收与前一层方向层的输出成比例的抑制输入。这些方向单元划分了方位角空间（azimuthal space ），并互相抑制，从而形成一个环形吸引电路（ring attractor circuit)，然后以正弦曲线形式产生稳定的分布图案。

第三层主要实现指南针（compass）功能，由 8 个神经元组成，它们从前一层中具有相同方向偏好的每对 CL 神经元中获取输入。这些神经元与中心复合体的前脑桥中的 TB1 神经元相同，它们也以类似于环形吸引电路的特定模式相互抑制连接。

第四层负责速度累加（Speed Accumulation），由 16 个神经元组成，主要模拟中心复合体上的 CPU_4 细胞，每个从 8 个 TB1 神经元和上一层的 CL_1 神经元获取输入。这些神经元实际上是一组积分单元（integrator cells ），负责结合方向和速度信息。值得注意的是，其速度输入是受到其相应方向单元的抑制的，因此神经元累积会与航向相反的行进距离，从而创建了原点矢量的分布式表示形式。

到这一步，作者额外添加了“向量记忆”（vector memory）神经元，该神经元可以存储第 4 层的输出状态，进而在该输出到达第 5 层之前对其进行调制（modulation）。具体来说，系统需要将利用记忆神经元的突触权重（synaptic weights）——两个节点之间联系的强度或幅度——实现向量记忆。当智能体发现食物后——当然这在此后的研究中可以被替换为更广泛的事件类型——智能体将会将当前的原点矢量存储到记忆神经元中。这样，智能体可以在之后回到它存储原点矢量的位置。当智能体回到巢穴后，第四层的输出在理想状态下应该为 0 ——因为它距离原点，也就是巢穴的距离为 0——因此，第四层中任何非零的输出都就代表了整个路径中的错误。利用这一“错误向量”，智能体可以对其存储的最后一个向量进行重新校准。

第五层模拟的是中央复合体的 CPU1 神经元，负责输出智能体的转向（steering）。它们接收来自第三层的指南针输入，以及第四层中经过向量内存调制（modulated）的原点向量。根据智能体的行动目的——比如归巢或觅食——神经元可以有选择性的接受输入信息。

图：中央复合体模型中的大概结构和主要连接

图源：Le Moël, F., Stone, T., Lihoreau, M., Wystrach, A., & Webb, B. (2019). The Central Complex as a Potential Substrate for Vector Based Navigation. Frontiers in psychology, 10, 690.

作者在 Python 2.7 中搭建了模拟环境，主要包括一个巢穴（nest），几个食物点（feeders）和一些障碍物。巢穴和食物点都用圆形表示，并且其直径相对于模拟环境是较小的，但其会散发出一些特定的嗅觉信息，使得智能体在到达巢穴和食物附近后能够被吸引过来。而障碍物则可以是任意形状的，它会在很小的半径范围内发出排斥信号来迫使智能体转向。在测试中，智能体可以从外部参考系中获取有关其前进方向和速度的信息，如果智能体能够成功进入到巢穴或食物的半径范围内，就视为该测试成功。

作者首先测试了向量记忆是否可用于计算两个已知位置之间的捷径（shortcutting）。该测试目的，从几何上来说，如果智能体存储了两个从不同位置指向巢穴的原点矢量 F_1 和 F_2（下图中的绿色箭头和紫色箭头），那么当智能体处于 F_1 时，对 F_1 和 F_2 之间做减法，可以形成一个平行四边形，也就是可以得到从 F_1 直接前往 F_2 的捷径（下图中的深橘色箭头）。

图：昆虫如果利用其存储的向量可以计算多个目的地之间的捷径

图源：Le Moël, F., Stone, T., Lihoreau, M., Wystrach, A., & Webb, B. (2019). The Central Complex as a Potential Substrate for Vector Based Navigation. Frontiers in psychology, 10, 690.

在实验过程中，智能体需要通过随机游走（random walk）——从而模拟昆虫探索周围环境的行为——独立的发现两处食物点并将其对应的原点矢量存储在向量记忆中。然后，智能体首先需要根据其记忆返回其中一个食物点，其记忆中的另一个原点向量将在到达后被激活，用以计算从当前食物点直接前往下一食物点的捷径。作者衡量了到达第二个食物点的成功率，前往第二个食物点的路径的平直性，以及离开第一个食物点的角度误差。在 212 次实验中，有 193 次智能体成功到达了第一个食物点，这其中到达第二个食物点的成功率高达 89.6%。

图：利用向量记忆寻找捷径。（A）智能体现在有两个不同的向量记忆神经元可用，但一次只能调用一个。（B）当智能体调用第一个向量到达 F1 后，有关 F2 的向量记忆会被激活，并通过向量之间的加减法计算从当前位置前往 F2 的捷径。半透明的线分别代表 100 次重复实验，其中一次实验用实线更清晰的标记出来用作示例。

图源：Le Moël, F., Stone, T., Lihoreau, M., Wystrach, A., & Webb, B. (2019). The Central Complex as a Potential Substrate for Vector Based Navigation. Frontiers in psychology, 10, 690.

接下来，作者测试了智能体在需要依次访问多个食物点的时候能不能找到全局最短路径（multi-location routes）。这个测试一共有三种情况，第一种情况是正阵列（positive array），智能体一共需要访问五个食物点，每次仅简单的访问最近的下一个食物点就可以形成全局最短路径；第二种情况时负阵列（negative array），智能体需要访问六个食物点，但简单的访问最近邻与全局最短路径是不等价的；第三种情况也是负阵列，智能体需要访问十个食物点。已知在自然界中蜜蜂可以很好的处理前两种情况，但无法在第三种情况中找到最优解。每一种情况的食物点分布和最优路径如下图所示。

图：全局最短路径测试（A）智能体现在有多个不同的向量记忆神经元可用，但一次仍然只能调用一个；（B）正阵列（5 个食物点）测；（C）负阵列（6 个食物点）测试；（D）负阵列（10 个食物点）测试。左：中黑色的箭头的宽度与该线路出现的频率成正比；右上角：智能体最常选择的路线；右下角：单个路径示例

图源：Le Moël, F., Stone, T., Lihoreau, M., Wystrach, A., & Webb, B. (2019). The Central Complex as a Potential Substrate for Vector Based Navigation. Frontiers in psychology, 10, 690.

在实验开始之前，作者首先保证每个食物点都在 100 次以上随机游走过程被智能体发现，然后对其存储的向量记忆求均值，从而获得关于每个食物点的精确的向量记忆，以排除位置误差在本次实验中的影响。然后在测试中，一次向外旅行（outward trip）对应于一个智能体离开巢穴，根据其向量记忆计算新路线或简单的追踪其记忆，并在找到所有食物点或达到时间限制后返回巢穴。在旅行过程中，智能体可以随时根据当前的 CPU4 激活值减去其向量记忆，产生的最小值所对应的向量记忆将被选择为当前调用的向量记忆，从而驱动智能体的活动路径。由于这类计算没有时间限制，如果最小值正好变化了，它可能在任何时刻调用不同的向量记忆并改变路径。当没有任何向量记忆可以调动后，智能体会直接返回巢穴。

每一种情况都被重复测试了 500 次以上，作者选取了测试中智能体成功在时间限制之内到达每个食物点然后返回巢穴的路径，计算了智能体造访食物点的顺序，完整路线的形状和频率以及食物点间的个别移动。

在第一种情况中（正阵列），智能体一种有 5 ！= 120 条可能的路线来访问此阵列中的 5 个食物点。在 500 次重复实验中，94.20％的智能体都成功完成了测试，其中有 77.71％（r = 366）和 15.07％（r = 71）的智能体使用了两种最佳路线（逆时针和顺时针；5、4、3、2、1 和 1、2， 3、4、5），有 1.49％和 0.64％的智能体选择了次佳路线，仅有不到 3% 的智能体使用另外的 8 中路线，剩余的 108 条可能路线则从来没有被选择过，这与学者们在蜜蜂中观察到的情况非常相似。

在第一个负阵列中，智能体一共有 6 ！= 750 条可能的路线来访问 6 个食物点，有 94% 的智能体都成功的通过了测试。虽然在其中，至于 2.77％的智能体选择了最佳路线（1、2、3、4、5、6），但作者发现有 47.23％的智能体选择了次优路线。剩下的智能体则选择了其他路径，同样的，有大量的路径（711 条）从来没有被选择过。

可能的路径总数随着食物点的增加是呈指数级增长的，在第二个负阵列中，智能体一共有 10！= 3628800 条可能的路线来访问 10 个食物点。所有实验中仍然有 95.40％的智能体成功的完成了测试，但相比于前两种情况，智能体的路径选择更多样化，500 次实验中一共有 371 条不同的路径被选择了。因而，作者也无法像此前的实验一样从中计算出一条具有代表性的典型路径来。相对来说，最经常被选择的四条路径在长度上不是最优的，同时也不是仅仅选择最近邻而形成的路线。接下来的三条最常被选择的路径是最优路径之一，但仅有 1.05％的智能体选择了它们。这次实验的结果显示了强烈的随机性，作者认为主要是由两个原因导致的：1）食物点间较短的相对距离会导致较大的方向误差，2）不同食物点之间的距离相似，导致当前向量记忆的选择更加随机。

整体来说，这篇文章证明了对矢量的操纵是对观察到的昆虫导航系统的高度简约的解释。它既符合解剖学模型，同时在实现上足够简单，产生的结果也与对实际昆虫的观测结果相符。本文中使用的向量记忆是新颖的，它可以校正 PI 机制中积累产生的误差，并且可以有效的在不同目的地之间计算捷径。但本文没有考虑到 PI 机制如何可以与其他导航线索结合起来——众所周知蚂蚁等昆虫会从腹部末端的肛门和腿上的腺体里分泌带有特殊气味的化学物质，以提供气味路标。这在原点矢量的位置不准确的时候将会提供极大的帮助。

结语

很显然，目前以模拟昆虫的功能实现智能系统的研究还处在一个比较早期的阶段，我们要在终端产品上见到这些系统还需要一段时间。但仿昆虫大脑的智能，乃至仿生智能，仍然为更一般的神经启发式 AI 提供了曙光。目前流行的深度学习，能够从大型数据集提取模式并获得超出人类水平的表现。但在半监督和无监督学习领域，开发出能够自我标记新类示例的算法仍然是一个挑战。尽管这些任务对于人类来说似乎微不足道，缺乏推理能力的深度学习算法仍难以与人类的性能相匹配。神经启发的 AI——或仿生智能——则提供了新的机会，因为它可能可以直接跳过我们目前常用的解题思路来解决这些难题。一旦研究者们能取得突破，人类对自然界智能的认知又将再上一个台阶。

参考文献

[1] Chancan, M., Hernandez-Nunez, L., Narendra, A., Barron, A. B., & Milford, M. (2020). A hybrid compact neural architecture for visual place recognition. IEEE Robotics and Automation Letters, 5(2), 993-1000. https://doi.org/10.1109/LRA.2020.2967324

[2] Chance, F. S., Aimone, J. B., Musuvathy, S. S., Smith, M. R., Vineyard, C. M., & Wang, F. (2020). Crossing the Cleft: Communication Challenges Between Neuroscience and Artificial Intelligence. Frontiers in computational neuroscience, 14, 39. https://doi.org/10.3389/fncom.2020.00039

[3] Webb, Barbara. (2020). Robots with insect brains. Science. 368. 244-245. 10.1126/science.aaz6869.

[4] Bagheri, Zahra & Cazzolato, Ben & Grainger, Steven & O'Carroll, David & Wiederman, Steven. (2017). An autonomous robot inspired by insect neurophysiology pursues moving features in natural environments. Journal of Neural Engineering. 14. 046030. 10.1088/1741-2552/aa776c.

[5] Le Moël, F., Stone, T., Lihoreau, M., Wystrach, A., & Webb, B. (2019). The Central Complex as a Potential Substrate for Vector Based Navigation. Frontiers in psychology, 10, 690. https://doi.org/10.3389/fpsyg.2019.00690

[6] Le, D. C., Youn C. H. (2020). City-Scale Visual Place Recognition with Deep Local Features Based on Multi-Scale Ordered VLAD Pooling. arXiv:2009.09255 **

[7] https://en.wikipedia.org/wiki/Mushroom_bodies

[8] Wu, S., Wong, K. Y., Fung, C. C., Mi, Y., & Zhang, W. (2016). Continuous Attractor Neural Networks: Candidate of a Canonical Model for Neural Information Representation. F1000Research, 5, F1000 Faculty Rev-156. https://doi.org/10.12688/f1000research.7387.1

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。