当前位置: 在线阅读网 > 小说 > 人之彼岸 > 人工智能面临的瓶颈

人工智能面临的瓶颈

如果机器学习这么厉害,人工智能什么都能学会,是不是很快就要取代人类了?

可以肯定的是,目前的人工智能还不是什么都能做,我们离万能超级人工智能还有很远的距离。

那是运算速度的问题吗?如果芯片算力按照摩尔定律、指数增长一直持续,我们会不会很快达到智能的奇点?

我个人的观点是,不完全是运算速度的问题,即便运算速度持续翻番,也还有一些阶梯的困难需要一个一个地跨越。这些困难也许并不是永远不可能跨越,但至少不是目前的算法能简单跨越的,而必须有新的算法或者理论突破(其实现在也有很多别的算法,我后面讨论)。

说到这里,闲聊两句。很多事物的发展是阶梯状的。我们往往容易从一件事的成功,推测未来所有事的成功,然而遇到了下一个挑战,仍然需要新的等待和突破。

关于人工智能这件事,人们的议论往往太过于“now or never”,要么认为目前已经条件成熟,只要算力增加,就能奇点来临;要么认为这都是痴人说梦,机器永远学不会人类的心智。但实际上更有可能的是,很远的未来有可能做到,但需要翻越一个又一个理论台阶。

举一个例子。

从牛顿力学和工业革命时期来看,因为牛顿定律的强大,人们就认为自己解决了世界上所有问题,未来只需要算,就能把一切预测出来。那个时候就有哲学观认为人就是机械机器。但事情的实际发展是:牛顿定律解决不了所有事。20世纪初,人们把牛顿定律和电磁理论结合起来,相信人类物理学大厦已经完备,只剩下头顶上的“三朵小乌云”,然而正是这“三朵小乌云”,牵扯出了后面的量子力学和相对论,直到现在人们也没有算出全世界。未来呢?人类有可能完全揭晓宇宙的奥秘吗?有可能。但仍然有一个一个新的鸿沟。

与之类比,超级人工智能有可能成真吗?有可能,但不是立刻。技术上还有一个个困难台阶需要跨越。“深度学习”不是万能的,算力也不是唯一重要的因素。

我把人工智能目前还解决不了的问题,也称为“三朵小乌云”。


什么是人工智能目前解决不了的问题呢?我们仍然从“阿尔法狗”说起。

“阿尔法狗”的强大是所有人工智能的强大,它面临的困难,也是人工智能问题的缩影。

“阿尔法狗”对一些人类认为很困难的问题却觉得很简单,对人类认为简单的问题却觉得困难。举一个很小的例子。这样一个问题:如果一个人从超市的货架上拿了一瓶酒就跑出门,店员会做什么?为什么?它就会觉得困难,难以回答。

如果是一个人,会如何回答这个问题呢?人会觉得这个问题太简单了啊,店员有可能会直接去追,因为要把店里的商品追回来;也有可能会打电话报警,因为自己不想冒险;或者告诉老板;或者喊路人帮忙。诸如此类。

但是目前的人工智能会觉得这个问题很难,无法回答。原因主要在于以下几个方面:

第一,是综合认知的能力。

第二,是理解他人的能力。

第三,是自我表征的能力。

为什么人工智能会觉得这些问题难?我们一个一个看。

第一个难点,综合认知的能力。

这个问题对于我们每个人而言都是非常简单的,头脑中甚至一下子就能想到那种画面感。但对人工智能来说就是很难理解的。为什么?

最主要的差别在于常识。

当我们理解这段话,我们头脑中实际上是反映出很多背景信息,包括:(1)他想喝酒;(2)他没有付钱;(3)酒摆在超市是一种商品;(4)从超市拿东西需要付钱;(5)他没有付钱就出门是违规的;(6)他是想逃跑;(7)超市店员有义务保护超市商品,不能允许这种事情发生。在所有这些背景信息支持下,我们可以一眼辨认出这个动作画面的情境。除了我们自然脑补的这些背景信息,也还是有一些小概率背景信息,有可能影响对情境的解读。也许这个人是店主,有急事出门,如果是店主,自然不用付钱,店员也不会见怪,但这种可能性不大。任何一个情境的解读都需要大量常识作为背景信息。

常识包含我们习以为常的知识总和,包含我们对整个环境和经济系统的理解。这些理解都太平常,我们就称之为常识。人工智能目前还没有这些常识,它并不知道一瓶酒摆在超市里和公园里有什么差别,也不知道超市买东西的惯例流程。从语法上说,从超市拿酒和从公园拿酒都是符合语法的表达,但我们知道,其中一个合理,另一个不合理。

你也许会说,这是因为机器缺少生活经验,输入经验就可以了。我们这一次当然可以给机器输入酒的含义、超市的含义、超市的购买规则、小偷的含义、店员的职责,但好不容易输入了所有这些信息,会发现下一句话涉及大量有关街头和交通的常识,依然要手动输入。到了最后,整个世界的无数知识碎片我们都需要输入,如何调用又成了问题。


“常识”经常被认为是区别AI和人的重要分野。“常识”是把各个门类信息汇集到一起、形成广泛知识背景网的能力。这种能力我们人人都有,因而并不觉得稀奇,然而机器没有,我们才知道其可贵。

为什么机器难以具有常识?有多重原因,目前人们仍在尝试去理解。首先的直接原因是,机器缺少物理世界的生活经验,所处理的是人类的二手信息,对于周围的物理世界没有真实接触,不知道什么是可能的,什么是不可能的。例如,“石头放在鸡蛋上”还是“鸡蛋放在石头上”只是词语游戏,对于AI没有真实意义。AI也不知道人绕房子一周会回到原点。

对于这个原因,我们可以想出技术上的解决方案,一个是制造更精细的真实的机器人,让机器人在物理世界里不断探索,最终把物理世界的常识都记录到心里,这种可能性的问题在于机器人本身制造的困难(具体有哪些困难后面再说);另一个可能的方案是让人工智能的虚拟人物在虚拟世界里生活,只要虚拟世界本身的物理特性完美仿照真实世界,虚拟人是有可能学会知识的。只是,这个方案首先需要一个能够完美感知和识别虚拟世界物体的虚拟大脑,目前的人工智能“仿脑”技术还做不到这一步。


除了缺乏直接的物理世界的经历,还有可能是更核心的原因,那就是人工智能目前还缺少建立“世界模型”的综合能力。

人类拥有“完形”认知的心理能力,能让我们把碎片信息编制完整。这是一种高度统合的能力,我们能把躯体五感统合起来,共同构成对世界的感觉。同样,人从各个方面得到的碎片知识也有一种统合的能力,大脑会把碎片粘贴起来,把碎片之间的部分补齐,以期构成一个完整的知识世界。

事实上,人的“完形”并不仅是“拼凑”碎片信息,而是建立一个模型,然后用模型来理解碎片信息。“完形”是把信息连接成可以理解的图景。中间有大片空白我们要“脑补”。我们能从验证码的碎点图片中看出连贯的字母,而计算机程序做不到。我们能把没有关系的人连接在同一个故事里,只需要想象一两重关系,就能组成复杂的阴谋论。


所有研究人类视觉和认知的心理学家都清楚,人类的视觉包含大脑的建构。人类视网膜得到的是二维图像,就像相机的照片一样。但人类的视觉体验绝不仅仅停留在一堆“视网膜照片”上。我们眼前看到的世界直接是三维立体视觉,我们感觉自己清清楚楚“看到”一个三维立体的杯子,“看到”具有纵深的房间,“看到”他人离自己的距离。但实际上,我们是不可能直接“看到”三维物体的,我们眼睛接收的只是平面图,是大脑后台计算还原出的三维立体效果。

我们的眼睛在我们注意不到的情况下不断快速转动,拍摄四面八方的图像,而随着我们身\_体移动,视网膜上的投影照片也在不断变化。可是我们的感觉接收到的并不是一张张分离的照片,而是一个恒常稳定的周围世界。这是如何做到的?答案并不难,正如“人工智能之父”马文·明斯基所说的:“我们不需要不断‘看见’所有事物,因为我们在大脑中建构了视觉的虚拟世界。”神经学家威廉·卡尔文也曾说过:“你通常观察到的看似稳定的场景实际上是你所建构的一个精神模型。”事实上,我们居住在大脑制造的虚拟现实中。

这个虚拟的模型,就是我们每个人头脑中的“世界模型”。


而很少有人讨论的是,我们心中对这个世界的知识,也像视觉一样,有整体的模型进行综合。

我们对物理环境的理解、对世界运行规律的理解、对社会的理解、对正义的理解,全都交织在一起,构成我们思维的背景。大脑把所有社会感知信号也构造成完整的“世界模型”。我们人与人有很多共享的常识和语境,例如谁是美国总统、被石头砸到会怎样;我们每个人也有独特的“个人世界模型”,例如“男人都是不可靠的”“命运会善待有恒心的人”。这些是我们大脑把各个领域所有知识汇集之后得到的结果,它是思维的语境,就像视觉背景,也是人与世界打交道、沟通的前提。我们的决策是在这样的模型中形成的。

这种综合能力让我们能跨领域认知。我们可以把喝酒、下围棋、钻井和看病的信息放在头脑中的同一个世界,但是对于AI来说,这些专业知识就是四个不相关的领域,要四个AI来分别处理。人的综合认知能力,使知识连成一体,但人工智能目前只能是专业化人工智能,一旦下围棋的人工智能学习了金融知识,就把围棋知识完全忘记了,等它再学习钻井知识,又把金融知识忘记了,这被称为“遗忘灾难”。专业人工智能的知识至少在目前,还无法相互连接构成“世界模型”。于是人类仍然有它们不具备的视野和大局观。

我们的人脑如何具有这样的综合能力和对世界的建构,仍然是一个谜。


第二个难点,理解他人的能力。

即便人工智能未来能够把各个学科的相关知识都学习到,建构起“世界知识体系”,但在理解情境相关的问题时,仍面临如何调用正确信息的问题。当一个人对另一个人生气,应该从他们环境和背景的海量信息中调用哪些知识,来理解他生气的理由?

对人而言,这不成问题,我们能非常容易猜测到,对生气的两个人而言,什么是重要的因素,什么是有可能导致他们愤怒的导火索。这主要是源于我们对人的理解,对我们自己和周围人的理解,我们知道什么样的信息会引人兴奋,什么样的信息会让人沮丧。读心的能力让我们轻易做出推断。

至少目前人工智能还不具备这样的能力。且不说理解复杂的场景,仅仅就“树上蹲着五只鸟,开枪打下来一只,还剩几只”这样的问题,它们也还回答不上来。它们无法推断,鸟儿因为害怕,就会逃走。

正如著名心理学家、语言学家史蒂芬·平克所说:“如果不是建立在一个庞大的关于外部世界以及他人意图的内隐知识结构的基础之上,语言本身并不起作用。”缺乏对于他人心理的常识系统,使得人工智能仍然难以“理解”人类日常的语言。


未来人工智能有可能学会读懂人类的情感和意图吗?

很多人都提到,目前人工智能已经可以精细识别人类的表情,能够读懂人的情绪。是的,人类的情绪属于一种外显图像,是比较容易识别的,这和识别东北虎、识别癌细胞类似,是图像识别的一个范畴。但这和理解人的情感完全是两回事。即便它们未来能从图像上识别出一个人此时的情绪,想要“解释”此人的情绪,也需要远为复杂的对人心的理解。

也有很多人提到,人工智能可以通过与人对话理解人的情感。但这实际上也离得很远。目前它们能做的只是智能对应,当听到人类说出句子A,在语料库中寻求识别匹配最合适的行为或回应。当你说“我不开心”,它们可以匹配说“多喝点热水”,但不理解什么是开心。如果想让它们分析不开心的理由,推测不开心之后的做法,就远远不够了。其中的差别可以形容为:人工智能使用语言,是匹配句子和句子。而人类使用语言,是匹配句子和真实内心的感觉。


那如何让人工智能学会读懂人类的情感和意图呢?

一种可能的路径是让它学习足够大的数据库,记录下人的足够多情感和行为的数据库。“深度学习”的一个特点在于必须要足够大的数据库,拥有一亿数据的“深度学习”比只有一百万数据的学习效果好得多。任何一个领域想要有所突破,首先都需要足够大的数据库。因此有人认为,21世纪最宝贵的资源不是石油,而是数据。

那我们有可能建立如此大的人类情感和行为数据库吗?理论上当然是有可能的,靠各种摄像头视频和人类自己拍摄上传的视频。但这里面最大的问题,或者说我个人的疑问在于,人工智能对于人类的情感和行为,能否进行“非监督学习”。

所谓监督学习,就是每一个数据由程序员做一个标注:“这个数据是好的。”“这个数据是猫。”“这个数据是男人因为嫉妒而殴打老婆。”不管数据本身是数字、棋谱、语言、图像还是视频,都需要程序员先给数据做标注,才能让人工智能学会这些标注。但是对于人类的情感与行为的超级数据库一一识别和标注,实在是太过于烦琐困难的工作。而非监督学习就是完全没有人进行标注,只把原始数据丢给人工智能,看看它能学到什么规律。我相信非监督数据在很多工程领域可以自动进行,因为步骤和成败的结果是自然可观测的。但是在人类情感与行为领域,如果不以人的解释做标注,如果没有人来诠释情境中发生了什么故事,机器能够学习和领会吗?我觉得很难。

另一种可能性,就是每个人和自己的人工智能助理之间的数据学习。由一个人不断告知人工智能所有情感和行为的前因后果:他碰到我,所以我不高兴;他没有记得给我买东西,所以我不高兴;餐厅的灯光太昏暗,所以我不高兴。若所有人都将前因后果事无巨细地解释给人工智能听,就像父母将这个世界的机理解释给孩子,那么它肯定可以全都记住。如果足够详细,那它至少能学会这一个人的情感行为特征和心理因果特征。这相当于是每个人自己给行为数据做标记。这种路径在未来有可能成功,但取决于每个人是否愿意详细教它。


人工智能识别人类情感和意图,还有可能有更本质的困难,那就是人工智能无法以自己映照他人。

人类识别他人的情感和意图,并不是因为大数据学习。实际上人一生能遇见的人、交谈和交往的经历都是很有限的。人能够从少数经历中学到有关他人的很多情感和行为知识,能直觉感知他人的心境,不是因为人类头脑处理能力更快,而是因为人类能够以自己映照他人,将心比心。

最直接的映照,是镜面反射。人脑中有一些细胞,能够直接反射他人的行为意图,叫作镜像神经元。这种神经元不仅人类拥有,在较高级的灵长类动物头脑中也有。当一个人看见另一个人拿起锤子,自己即使手里没有锤子,与“动手砸”相关的神经元也会“亮”起来。

这种“读懂他人”属于生理性质的,大脑对他人的意图直接有反映,反映出来的意图,可以被观看者直接感受到,因此叫“镜像神经元”。人工智能可能生成这种直接的反映吗?缺乏生理共同点,应该不太可能。

另一方面,人们可以用自我观察映照出他人的情感和意图。面对一个情境的分析,人们可以把自己代入同样的情境,假想自己会有什么样的感情。能够让人悲欢离合的影视文学,就是因为人有代入感,才会让人喜爱。这一方面来源于人类的情感相似性,都有人之常情,另一方面人可以通过读取自己的心思过程,以己度人。

也就是说,人类对他人的理解,除了可以“外部观察”和“语言交流”,还能有“内部观察”。事实上,“内部观察”是如此强大,我们对于很多从来没见过的事情,只要代入自己想想,就能对其中的前因后果猜出个大概。现在的问题是,如果机器完全没有类人的情感,仅靠“外部观察”和“语言交流”,能达到同样的理解他人的效果吗?我不知道。

以上讨论全都是建立在人工智能没有类人情感的前提下,只考虑技术上如何学习理解人类情感。那么人工智能是否有可能产生类人情感呢?这是另一个问题了,本文结尾的时候会有一些讨论。


仅靠“外部观察”能否理解他人的情感和意图,还涉及另一个更客观的问题:大数据统计能否预知个体行为。

统计学永远只告诉我们系统信息,即便每个人都是完全不一样的随机数,在大数定理的保证下,也能呈现一些稳定的集体特征。然而这种稳定的集体特征并不能预测每一个个体,对“人类行为”的学习不等于对“个人行为”的学习。举个例子,如果一个人被人骂会怎样,这几乎是一个没法靠大数据统计学习得出答案的问题。有的人会忍,有的人会打人,有的人会报告执法机构,有的人会暗中寻求报复,有的人会嬉笑,有的人会哭,每类几乎都有很多。在大数据统计研究中,相关性会非常弱,最终你仍然不知道某个具体个人会如何做出回应。每个人的不同反应取决于个性、场景、社会地位、个人经历、文化群体、习惯等,而如果控制了所有这些变量,每个群体-内的个体又会变得极少。外在条件相似的两个人面临同样的情境可能反应天差地别。所有这些个体差异,都给通过大数据统计预测个体行为带来很大的不确定性。人对他人最可靠的预测仍然来自对他人内心世界的理解。

当然,这多少算是题外话。我们还是回到主题。

第三个难点,自我表征的能力。

在上面,我们已经提到了自我观察问题,但还仅限于理解情感方面。那如果不涉及情感方面呢?机器学习纯理性知识总是无比强大的吧?

我们会看到,即便是在纯理性知识方面,目前的机器学习也不是完美无缺的,其中之一就是“元认知”问题。

目前,即便是“阿尔法狗”下棋天下无敌,也有明显的局限:

第一,它说不出自己在做什么。“阿尔法狗”没有对自我的观察。它不知道自己正在“下围棋”,而只是根据输入数据计算胜利的路径,至于是什么游戏的胜利,它并不清楚也不关心,胜利了也不会高兴。

第二,它说不出自己为什么这么做。“阿尔法狗”的“深度学习”,目前是一种“黑箱”学习。人们给它数据输入,看到输出,可是它不知道中间发生了什么。人们觉得它奇着百出,不知道为什么,非常神秘。而它自己也说不出自己是如何思考的。

从某种程度上说,人工智能目前就像电影《雨人》中的那类自闭的孩子:一眼就数得清地上的牙签、能心算极大数字的乘法、背得下来全世界的地图,却答不出有关自己的问题。它只懂研究每秒300盘的棋路,却不知道“我正在下棋”这件事。

缺少元认知,首先是因为缺少“我”的概念。不知道有“我”存在,因此不能以“我”为主体表达事情。也因为没有“我”的意识,因此从来不会违抗程序员的命令,只会服从。同样也不能以“我”为中心思考高一层次的决策。

未来人工智能有可能形成“我”的概念吗?自我意识问题目前几乎接近于哲学探讨,还没有好的科学研究结论。我们到最后再做这方面的讨论。

姑且不论自我意识问题,现在只讨论,缺少元认知,对于变成超级智能有什么阻碍吗?为什么一定要元认知呢?“阿尔法狗”不用知道自己为什么赢,赢了不就行了?

最大的问题在于,缺乏元认知,有可能是抽象理解程度不够的缘故。

“自我表征能力”既涉及自我,也涉及表征,表征就是抽象表达信息的能力。

举个简单的例子,对于同一件事的说法,最具象的表达是“10101010101010……”,稍微抽象一层的表达是“用某色棋子争夺地盘”,再抽象一层的表达是“下围棋”。最后一个层次不仅是对步骤的表达,更是对整个行为——我正在从事这个游戏——的表达,需要跳出游戏。每一层次抽象都需要一种更高层次的审视。

人类的认知特征中,有不少仍是谜题,其中一种就是强大的特征提取和模式识别机制。它如何产生,仍然有很多不解的地方。我们可以知道的是,大脑有多层调节机制,其最高层次调节具有很强的抽象能力。可能正是这种抽象能力让儿童可以非常快速地识别物体。小孩子可以快速学习,进行小数据学习,而且可以得到“类”的概念。小孩子轻易分得清“鸭子”这个概念,和每一只具体不同的鸭子,有什么不同。前者是抽象的“类”,后者是具体的东西。小孩子不需要看多少张鸭子的照片,就能得到“鸭子”这个抽象“类”的概念。人类非常善于制造各种层次的概念,有一些概念几乎所有人都懂,但实际上很难找到明确的定义、边界或现实对应物,例如“蔬菜”“健康”“魅力”“爱”,甚至是“智能”。坏处是易形成偏见,但好处是经常能够敏锐地把握大类的特征差异,用极为简化的概念把握信息。

可以说,人工智能和人类智能最大的差异或许是:真实世界与抽象符号之间的关联性。人工智能处理的是符号与符号之间的关系,而人类头脑处理的是真实世界到符号的投影。


抽象能力有什么重要的吗?“阿尔法狗”说不出自己是怎样战胜人类的,但是能战胜人类,不就够了吗?

抽象表征有两方面的好处。第一方面,可以为脑计算节省空间,每个抽象表征的引入,都让需要处理的问题大大简化,再次调用记忆也变得非常容易(例如,可以用“消费升级”来表征一段时期各种相关的市场变化信息),如果世界上的信息碎片是用碎片的方式记载,需要几乎无穷的记忆空间,抽象可以大大节省空间。

前面说过,以目前的“深度学习”方法调制的人工智能网络,学习新的本领会致使其遗忘过去的本领。这可能是因为人工智能神经网络学习一件事情,最终是让整个网络的千百万个参数共同调至最优,整个网络记住这件事情。而动物大脑学会一件事情之后,长期记忆转移并不记载在原来的网络,而是转移到海马体,再次回忆是一种激活,回忆的位置发生在脑的各个部位。对人类回忆的研究也存在许多谜,但可以肯定的是,人是用一些高度抽象的模式记忆事情,而非全网络参数记忆。


另一方面,抽象表征的好处在于:尝试把握世界的真理,它的终极目标是用寥寥无几的抽象概念陈述万千复杂的现象,抓住其中相似的核心。

这里面有一个很本质的问题,那就是新知的产生。从大数据寻找历史数据的规律和预测的概率,确实能够让人做出行为优化。但是历史上让人类有深刻洞察、推动科技时代进步的发现,往往不是以统计预测,而是建立起抽象模型。

二者的差别是什么呢?统计预测是找各种变量的相关性,探寻经验概率预测方法。抽象模型是建立起一些不存在的理想模型,再来拟合数据。我们可以看一个故事案例。中国古代历来有司天监,年年月月日日观测天象,自汉唐以来,积累了海量数据。从地球的角度看,金木水火土五颗行星在天球上的运动非常不规律,于是天象观察员积累了非常多跟踪数据,建立了经验公式和预测方法,有很复杂的数学算法,还发展了许多额外因素提高模型的准确度,包括试图建立火星和地上战争之间的联系等(不要笑,当前一些科学研究找的相关因素并不更靠谱)。兢兢业业、战战兢兢,中国的天象观察员不可谓不勤奋,他们积累的数据不可谓不多,经验预测方法也不能说差,但是他们从来没有跳出来,从更高维度审视,建立模型,来解释这些数据。于是,中国古代天象员没有一个人能建立开普勒三定律,也没有牛顿建立引力模型。“李约瑟难题”是一个方法论的问题。做大数据统计研究和预测的司天监,从来没有尝试用抽象模型去表征。

人类历史上有许多统计经验,但只有抽象模型才带来知识上的跃进。


上面就是目前人工智能认知发展上仍然存在的一些困难,我称之为人工智能认知发展的“三朵小乌云”。希望这“三朵小乌云”能在算法和技术上的提升之后得到解决,也更希望对这“三朵小乌云”的研究能够带来对人类大脑的更高水平认知。

上面说的很多局限主要集中在“深度学习”算法,这是目前最强大的机器学习算法,也是很多突破性发展的来源。但它并不是唯一的算法。还有很多其他算法,例如决策树算法、朴素贝叶斯算法、符号算法等。此外,还有以往获得很多成功的“专家系统”类算法,就是把人类专家知识灌输给机器。本文没有分析这么多算法的优劣,主要是因为在“深度学习”快速发展之前,这些算法都面临过更多的困难和局限。但这并不意味着这些算法没有用了。事实上,未来人工智能想要发展,必定是多种算法要混合使用,找综合路径。在下一篇有关人类学习的文章中,我会再谈到贝叶斯算法。

在线读书:http://www.yueDu88.coM/