要认识AGI，强化学习就够了？Sutton：奖励机制足够实现各种目标

发布时间：2021-06-19 11:29:57 所属栏目：动态来源：互联网

导读：几十年来，在人工智能领域，计算机科学家设计并开发了各种复杂的机制和技术，以复现视觉、语言、推理、运动技能等智能能力。尽管这些努力使人工智能系统在有限的环境中能够有效地解决特定的问题，但却尚未开发出与人类和动物一般的智能系统。人们把具备与

几十年来，在人工智能领域，计算机科学家设计并开发了各种复杂的机制和技术，以复现视觉、语言、推理、运动技能等智能能力。尽管这些努力使人工智能系统在有限的环境中能够有效地解决特定的问题，但却尚未开发出与人类和动物一般的智能系统。

人们把具备与人类同等智慧、或超越人类的人工智能称为通用人工智能（AGI）。这种系统被认为可以执行人类能够执行的任何智能任务，它是人工智能领域主要研究目标之一。关于通用人工智能的探索正在不断发展。近日强化学习大佬 David Silver、Richard Sutton 等人在一篇名为《Reward is enough》的论文中提出将智能及其相关能力理解为促进奖励最大化。

实现AGI，强化学习就够了？Sutton：奖励机制足够实现各种目标

该研究认为奖励足以驱动自然和人工智能领域所研究的智能行为，包括知识、学习、感知、社交智能、语言、泛化能力和模仿能力，并且研究者认为借助奖励最大化和试错经验就足以开发出具备智能能力的行为。因此，他们得出结论：强化学习将促进通用人工智能的发展。

实现AGI，强化学习就够了？Sutton：奖励机制足够实现各种目标

AI 的两条路径

创建 AI 的一种常见方法是尝试在计算机中复制智能行为的元素。例如，我们对哺乳动物视觉系统的理解催生出各种人工智能系统，这些系统可以对图像进行分类、定位照片中的物体、定义物体的边界等。同样，我们对语言的理解也帮助开发了各种自然语言处理系统，比如问答、文本生成和机器翻译。

但这些都是狭义人工智能的实例，只是被设计用来执行特定任务的系统，而不具有解决一般问题的能力。一些研究者认为，组装多个狭义人工智能模块将产生更强大的智能系统，以解决需要多种技能的复杂问题。

而在该研究中，研究者认为创建通用人工智能的方法是重新创建一种简单但有效的规则。该研究首先提出假设：奖励最大化这一通用目标，足以驱动自然智能和人工智能中至少大部分的智能行为。」

这基本上就是大自然自身的运作方式。数十亿年的自然选择和随机变异让生物不断进化。能够应对环境挑战的生物才能得以生存和繁殖，其余的则被淘汰。这种简单而有效的机制促使生物进化出各种技能和能力来感知、生存、改变环境，以及相互交流。

研究者说：「人工智能体未来所面临的环境和动物与人类面临的自然世界一样，本质上是如此复杂，以至于它们需要具备复杂的能力才能在这些环境中成功生存。」因此，以奖励最大化来衡量的成功，需要智能体表现出相关的智能能力。从这个意义上说，奖励最大化的一般目标包含了许多甚至可能是所有的智能目标。并且，研究者认为最大化奖励最普遍和可扩展的方式是借助与环境交互学习的智能体。

奖励就足够了

与人工智能的许多交互式方法一样，强化学习遵循一种协议，将问题分解为两个随时间顺序交互的系统：做出决策的智能体（解决方案）和受这些决策影响的环境（问题）。这与其他专用协议形成对比，其他专用协议可能考虑多个智能体、多个环境或其他交互模式。

基于强化学习的思想，该研究认为奖励足以表达各种各样的目标。智能的多种形式可以被理解为有利于对应的奖励最大化，而与每种智能形式相关的能力能够在追求奖励的过程中隐式产生。因此该研究假设所有智能及相关能力可以理解为一种假设：「奖励就足够了」。智能及其相关的能力，可以理解为智能体在其环境中的行为奖励最大化。

这一假设很重要，因为如果它是正确的，那么一个奖励最大化智能体在服务于其实现目标的过程中，就可以隐式地产生与智能相关的能力，具备出色智能能力的智能体将能够「适者生存」。研究者从以下几个方面论述了「奖励就足够了」这一假设。

实现AGI，强化学习就够了？Sutton：奖励机制足够实现各种目标

知识和学习

该研究将知识定义为智能体内部信息，例如，知识可以包含于用于选择动作、预测累积奖励或预测未来观测特征的函数参数中。有些知识是先验知识，有些知识是通过学习获得的。奖励最大化的智能体将根据环境情况包含前者，例如借助自然智能体的进化和人工智能体的设计，并通过学习获取后者。随着环境的不断丰富，需求的平衡将越来越倾向于学习知识。

感知

人类需要各种感知能力来积累奖励，例如分辨朋友和敌人，开车时进行场景解析等。这可能需要多种感知模式，包括视觉、听觉、嗅觉、躯体感觉和本体感觉。

相比于监督学习，从奖励最大化的角度考虑感知，最终可能会支持更广泛的感知行为，包括如下具有挑战性和现实形式的感知能力：

动作和观察通常交织在多种感知形式中，例如触觉感知、视觉扫视、物理实验、回声定位等；

感知的效用通常取决于智能体的行为；

获取信息可能具有显式和隐式成本；

数据的分布通常依赖于上下文，在丰富的环境中，潜在数据多样性可能远远超过智能体的容量或已存在数据的数量——这需要从经验中获取感知；

感知的许多应用程序无法获得有标记的数据。

（编辑：PHP编程网 - 黄冈站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

从历史到技术突破一文	四川诺恒信通科技有限
最新报告供应链问题依	国家工业互联网大数据