科学家直指DeepMind,“强化学习无法实现通用人工

发布时间:  2021年07月22日 18:13:01 作者:  黑科技

今年 6 月,DeepMind 首席研究科学家、伦敦大学学院教授 David Silver 及其合作者在一篇题为 《Reward is enough》的论文中指出,人工智能及其相关能力不是通过制定和解决复杂问题而产生的,而是通过坚持一个简单而强大的原则:奖励最大化。Silver 等人认为,简单的奖励是丰富环境中的代理人开发多属性智能的全部需要,而这种多属性智能正是实现通用人工智能所需的全部。


但很显然,并不是所有人都同意这一观点。


近日,数据科学家 Herbert Roitblat 就针对 DeepMind 团队提出的这一观点提出了反驳意见。在他看来,虽然 Silver 等人的说法听起来像是一个大胆的主张,但事实上却很模糊,甚至几乎毫无意义。


值得一提的是,Roitblat 也是 《Algorithms Are Not Enough: How to Create Artificial General Intelligence》 一书的作者。


产生智能的前提存在误导


据了解,第一个试图证明单一学习机制就足够的重要项目是 B.F. Skinner 的行为主义版本,以他的 Verbal Behavior 一书为代表。这本书受到了美国哲学家 Noam Chomsky(1959 年)的严厉批评,Chomsky 称 Skinner 试图解释人类的语言产生是 “戏剧表演科学” 的例子;


第二个主要建议是由 Rumelhart 和 McClelland(1986 年)提出的侧重于英语动词过去式学习的建议,但遭到了 Lachter 和 Bever(1988 年)的严厉批评,认为他们通过选择的特定方式来表示他们的联结主义系统正在学习转换的单词的音位特性,其中包含使系统成功的特定信息。


之所以前面的这两次尝试都失败了,是因为他们屈服于确认偏见。正如 Silver 等人所做的那样,他们报告了与假设相一致的数据,而没有考虑可能的替代性解释,他们将模棱两可的数据解释为支持性的。这三个项目都没有考虑到他们模型中的隐性假设,如果没有这些隐含的 TRICS(Lachter 和 Bever 对 "其关键假设的表征" 的称呼),这些系统中就不会存在“智能”。


Silver 等人更进一步,还提出它足以达到智能,特别是足以解释通用人工智能。Silver 等人的论点可以归纳为以下三个命题:


奖励最大化足以产生智能。“奖励最大化的通用目标足以驱动表现出自然和人工智能中所研究的大多数(如果不是全部)能力的行为。”


智力是实现目标的能力。“智力可以被理解为实现目标的灵活能力。”


成功是通过最大化奖励来衡量的。“因此,成功是通过最大化奖励来衡量的。”


简而言之,他们提出智能的定义是使奖励最大化的能力,同时他们用奖励的最大化来解释智力的出现。继 17 世纪作家莫里哀(Molière)之后,一些哲学家将这种论证称为 virtus dormativa(一种诱导睡眠的美德)。当被要求解释为什么鸦片会导致睡眠时,莫里哀在 Imaginary Invalid 中的单身汉(bachelor)回答说,它有安眠的属性(一种诱导睡眠的美德)


当然,这只是对正在寻求解释的属性的命名。奖励最大化在 Silver 的假设中起着类似的作用。实现目标既是智能的过程,也解释了智能的过程。


科学家直指DeepMind,“强化学习无法实现通用人工

“Reward is enough”的假设,假定智力及其相关能力可以被理解为在其环境中行动的主体促进奖励的最大化(来源:ScienceDirect)


之所以 Chomsky 批评 Skinner 的方法,是因为该方法假设任何表现出来的行为都必须有一些奖励。如果有人看着一幅画说“荷兰语”,Skinner 的分析假设是,这幅画的某些特征一定会因为“荷兰语”的表达而受到奖励。但是,Chomsky 认为,这个人可以说任何其他的东西,包括 "弯曲的"、"可怕的"或 "让我们吃点午餐"。Skinner 无法指出导致这些言论的具体特征,也不能提供任何证据来证明该言论在该特征存在的情况下曾被奖励过。


引用一位 18 世纪法国作家 Voltaire 的话说,他的博士 Pangloss 在 Candide 中曾这样说:“请注意,鼻子的形成是为了承受眼镜,因此我们有了眼镜。”一定有一个问题可以通过任何特征来解决,在这种情况下,他声称鼻子的形成只是为了让眼镜可以被托起。Pangloss 还表示:“可以证明……事物不可能不是本来的样子;因为一切都是为了一个目的而创造的,一切都必然是为了最好的目的。”


智能的诱发存在多种影响因素