anarrowinggulf
移居美国的决定让我们陷入贫困,全家都在艰难地跨越新环境带来的巨大鸿沟,但好在,我们都看到它正在缩小。
我们乘坐的波音747飞机舱门关闭,引擎轰鸣,在跑道上缓缓滑行。我和母亲还不知道,千里之外的终点是一个新生领域的发源地。虽然这个领域尚未建立起传统学科所享有的合法性,但注定要在几十年后掀起一场革命。不过,革命时刻的到来已是几十年后的事,对当时的我来说,更是远在千里之外。我的人生始于东方,与我日后走进科学殿堂的地方相距半个地球之遥。这是世界上最大的鸿沟,至少从地理距离上来说是如此。此时此刻,随着我们脚下的第一阵升力涌动,鸿沟开始缩小了。
20世纪最伟大的两次变革都发生在此行的目的地。当中国经历痛苦而漫长的文化和经济转型时,美国出现了一场不同的革命:数字革命。在外祖父母陷入战时颠沛流离的动荡之中时,在父母承受着"文化大革命"的冲击时,一群来自美国和英国的科学家和工程师----从剑桥到波士顿再到北加州----已经进行了一场长达几十年的科学探索。有朝一日,这场探索将跻身人类历史上最深远的变革之列。
正如牛顿敏锐地看到了物质和能量世界背后的运转原理,爱因斯坦更进一步重新构想了时间和空间的关系,20世纪中叶,在计算机科学领域也出现了一批具有远见卓识的人。他们是真正的梦想家,与前人一样,在科学探索领域放任不羁,勇往直前。他们洞察到隐匿于众人眼前的新前沿,迈出了揭示新发展的第一步。
曾几何时,使用先进技术进行算术运算所需的硬件可以占满整个房间。早在那个年代,阿兰·图灵(alanturing,英国密码破译专家,因帮助结束了第二次世界大战而闻名于世)等先驱科学家就已经发现了机器和人脑的相似之处,其所展现的突破性想象力与引领前人科学革命的物理学家相比毫不逊色。与爱因斯坦、玻尔和薛定谔一样,图灵和他同时代的人提出的问题直到今天仍能引发激烈的争论。智能到底是什么?可以用定量的机械方式解构智能吗?最大胆的问题也许是,我们有能力制造可以体现智能的机器吗?
图灵的设想得到了美国计算机科学家同行的呼应。1956年,他们将好奇心编撰成文,提出了现在广为人知的《达特茅斯人工智能夏季研究项目提案》,"人工智能"一词就是在这份提案中诞生的。提案呼吁举办一次非正式研讨会,探讨如何通过计算机编程来完成类似人类的推理、感知和知识概括等活动。项目主要由约翰·麦卡锡(johnmccarthy)和马文·明斯基(marvinminsky)主导,他们二位都是长期对大脑保持好奇心的数学家;此外还有ibm701计算机的设计者纳撒尼尔·罗切斯特(nathanielrochester),以及被誉为"信息论之父"的克劳德·香农(claudeshannon)。
就像爱因斯坦在结束了专利局一天漫长的工作后打磨自己的想法,这些早期的思想家也是在繁忙职业生涯的间隙迈出了通往新世界的第一步,以名副其实的冒险精神进行早期的人工智能探索。事实上,人工智能与物理学不仅仅是主题上存在联系,还有更深层次的连接:人工智能的许多奠基人都兼容并蓄,涉足包括心理学和认知科学在内的各种领域,但他们的背景主要集中在数学、电子工程和物理学领域。这种背景是一把双刃剑。虽然他们能力出众,思维严谨,深刻理解第一性原理,但他们的探索往往局限在近乎纯理论的层面。在他们看来,人类的推理能力可以完美类比计算机程序:不过是逻辑规则的产物而已。他们设想,一旦对相关规则的理解趋于完善,任何一台遵循这些规则的机器都能够自然识别照片内容、理解人类语言、探索抽象概念,甚至创造性地解决新问题。这是非常勇敢的尝试,在当时的时代背景下尤其如此。他们的自信令人钦佩,但其想法还是过于简单化了。
达特茅斯研究小组很快发现,尽管我们行为的方方面面确实可以用简单的术语来描述,但人类思想的深度和多变却无法简单归纳为一套规则或标准,至少在实际操作中是不可行的。然而,令人难以置信的是,提案却认真地将这项工作描述为几个研究生花上几个月时间就能搞定的"暑期项目"。原文是这样写的:
我们提议在1956年夏天,在新罕布什尔州汉诺威的达特茅斯学院开展为期两个月、10人参加的人工智能研究项目。项目将基于以下设想:从理论上看,学习的任何一个方面或智能的任何其他特征,都可以被精确描述,可以通过建造相应的机器进行模拟。团队将努力探索如何让机器使用语言、形成抽象表述和概念,解决目前只有人类才能解决的各类问题,并不断自我完善。我们认为,通过精心挑选的科学家在一个夏天的共同努力,可以在一个或多个问题上取得重大进展。
然而,团队最终意识到,要在复制人类认知禀赋的深度和广度方面取得"重大进展",八周时间可能不够。之前稳操胜券的心态逐渐消失。研究人员怀抱着更大的耐心,迈出了从最初异想天开的学术研究走向实践探索的第一步。经过半个多世纪的时间,探索仍远未完成,但在此过程中却涌现出一些具有变革性的成果。
尽管事实很快证明,开发人工智能的挑战远远超出了创始团队最初的预期,但相关思考仍然让人沉迷,也吸引了越来越多学者参与其中。1959年,麦卡锡和明斯基在麻省理工学院推出非正式的人工智能研究计划,后来发展成为麻省理工学院人工智能实验室。1963年,麦卡锡迁居斯坦福大学,将人工智能探索带到美国西海岸。他在这里成立了斯坦福大学人工智能实验室(stanfordailab,简称sail)。到20世纪60年代末,这两个实验室已经成为全球公认的人工智能领域的活动中心,覆盖硬件、软件和机器人技术等多个领域,持续推动相关理论研究、实验探索、激烈辩论和创造性开发。
研究人员也从人工智能领域早期的好高骛远中吸取了教训,尤其是在斯坦福大学人工智能实验室。到20世纪60年代,研究人员开始对小型抽象虚拟世界的数字化表示(digitalrepresentation)产生兴趣。虚拟世界通常由方块等简单物体构成,这样研究人员就可以专注于智能的基本要素,而不会被日常现实的细节所淹没。最著名的例子是麻省理工学院博士生特里·威诺格拉德(terrywinograd)开发的一个程序,用户可以用简单的英语命令来操控一组虚拟的彩色方块。有段对话格外令人难忘,以下是部分摘录:
用户:找一块比你手中的方块更高的方块,把它放进盒子里。
计算机:我想,你说的"它"是指比我手中的方块更高的方块。
计算机:好的。
用户:盒子里装了什么?
计算机:蓝色三角锥和蓝色方块。
用户:三角锥是由什么支撑的?
计算机:盒子。
用户:有多少个方块不在盒子里?
计算机:四个。
即便在人工智能对话模型已经与真人极其接近的今天,上述对话也会让人觉得用户是在跟一个思维健全的对象聊天。毫无意外,威诺格拉德的项目被誉为一项突破性成就。许多观察家相信,人工智能革命近在眼前。然而,事情并没有这么简单。具有讽刺意味的是,程序的流畅性和灵活性恰恰是自身限制条件的产物。虽然程序可以就方块话题高谈阔论,但也仅此而已,它能回答的问题数量有限,提问稍有偏离,程序就可能失效,输出荒谬的答案。不过,将程序局限在狭窄的领域确实有成效;程序能完成的任务不多,但表现非常出色。
20世纪70年代,另一位斯坦福大学教授爱德华·费根鲍姆(edwardfeigenbaum)对相关理念进行了更深入的探索。他是斯坦福大学人工智能实验室研究员,经常与约翰·麦卡锡合作。早期人工智能试图从零开始打造通用智能;为了避免重蹈覆辙,费根鲍姆并没有选择拓宽威诺格拉德的程序或类似程序的应用范围,而是直接将其转移到另一个领域。毕竟,谁说计算机强大的语言识别和推理能力不能应用到现实世界呢?谁说计算机不能用来协助体检或金融分析呢?如果不让计算机回答关于几何形状的问题,而是给它一些疾病症状、患者特征数据库、交易记录和季度报告,让它据此回答问题,会产生什么结果?
费根鲍姆的创新开启了后来被称为"知识工程"(knowledgeengineering)的全新子领域。在这个子领域中,有关特定领域(医学、制药、金融或几乎其他任何领域)的事实被整理成数据库。机器可以读取相关数据,像威诺格拉德的几何形状一样进行分析,并以自然流畅的书面问答形式提供答案,实现了媲美咨询人类专家的自动化体验。
这些程序被称为"专家系统"(expertsystems)。多年来,它们一直是人工智能在现实世界中执行实用任务的最有力证据,也表明人工智能可以成为企业甚至整个行业的基础。由于人工智能展现出显而易见的商业应用场景,加上计算成本出现历史性下降,在整个20世纪70年代和80年代,涌现出了一批致力于把知识工程的力量进行商业化的公司。
在早期的专家系统中,有个叫"内科医生-i"(internist-i)的程序非常有名,其数据库中包含500种疾病描述和3000种疾病表现。早期的实验结果令人鼓舞,程序能够根据用户(一名真人内科医生)提供的症状观察记录,正确诊断出患者病情,即使在面对复杂的病例时,也能提供有用的信息。其他早期的程序还包括molgen,可以帮助分子遗传学家设计dna相关实验;还有vm呼吸机管理程序,可以为依赖呼吸机的患者提供临床医生建议;还有secs化学合成模拟与评估程序,让我们在早期就窥见了人工智能在药物研发方面的应用潜力。
尽管专家系统曾经令人兴奋,但由于起始阶段海量信息的组织难度太大,后续开发经常陷入困境。在整合医学教科书、研究论文、医药文献甚至从业者访谈内容时,开发人员遇到的困难越来越多。更糟糕的是,即使这些系统看起来已经拥有足够多的数据,其表现也往往无法与真实的人类专家相媲美。尽管系统掌握了大量信息,检索和处理速度也超人一等,但它们的推理依然呆板而肤浅,过于拘泥于明确定义的规则,缺乏常识,经常被意料之外的盲点所迷惑。
随着商业兴趣的减弱和资金的蒸发,许多人得出结论:智能机器的想法固然有趣,但再一次难以成真。无论人工智能未来如何(会是什么形态?未来何时到来?我们如何抵达?),有一点越来越明确:这条道路不会一帆风顺。
仿佛是为了把我从白日梦中摇醒,飞机在肯尼迪机场降落,轮子在跑道上一阵颠簸起伏。漫长而拥挤的飞行结束了,我松了口气。在之前的14个小时里,我大部分时间都在读书,在那些长久以来安慰我的故事里寻找最后的港湾。现在,崭新的世界就在眼前,无论我多么抗拒,它都要夺去我的注意力。机舱里传来悦耳又陌生的声音,提醒着我,我已身处陌生之地。这不是什么度假,也不是一场冒险;突然间,我唯一能理解的生活莫名其妙地结束了,我无法想象的新生活即将开始。下飞机的时候,我没有感到一丝兴奋。
取行李的时候,我的心情更加紧张了,唯一开心的事,就是终于可以在出口处跟父亲团聚了。但几个小时过去了,他还没有出现。夕阳西下,一群群陌生人从我们身旁侧身而过,我们的不解逐渐变成了恐惧。当深爱之人消失太久,人难免会胡思乱想,而我们的处境让我们更加心急如焚:母亲口袋里只有20美元,我们没有返程机票,而且我很快就发现,我在学校学了几年的基础英语在实际生活中一点儿用都没有。
后来我们才知道,父亲的车坏了,而且坏在了隧道里(对我们这个依靠破旧二手车出行的移民家庭来说,车子抛锚很快就会成为家常便饭)。如果放在以前,我们可能会对这种倒霉事一笑置之,但那天情况不同。当父亲气喘吁吁地夺门而入时,我和母亲已经精疲力竭,一点儿欢聚的心情也没有了。
我们行驶在陌生的高速公路上,经过一个又一个很难读懂的路标。我开始意识到,我将要在这里住下去了。不管这感觉多么荒谬,不管我对新环境有多少疑惑和不解,这一点已经成为不可改变的事实。我只能勉强接受:就这样吧,我到美国了。
我们的目的地是新泽西州一个叫帕西帕尼的小镇。父亲之所以选择帕西帕尼,是因为这里移民众多,而且靠近高速公路。在地球另一端长大的我第一次接触美国郊区的概念,立刻就感受到了差异。中国的城市市区人口密度很大,每一寸空间都被利用到极致:道路上挤满了汽车和自行车,人行道上人流如织,建筑物直插云霄,连高楼之间的空间也被无限压缩。中国是热闹匆忙的,是喧嚣繁华的,没有一刻停歇,城市由此被赋予了独特的个性。
相比之下,帕西帕尼空旷而寂静:空荡荡的人行道,悠闲驾车的司机,一切都显得那么宽敞。草坪环绕着只有一两层楼高的独栋住宅。小企业也拥有巨大的停车场,空车位比比皆是。这里树木葳蕤,花园随处可见。就连空气都仿佛更加清新,没有我记忆中的工业气息。
然而,留给我沉思的时间并不长,在车开进新家的那一刻,我的思绪就被强行拉了回来。为了顺利开启在美国的生活,我们还有很多事要做。第一件事就是适应大幅缩减的居住空间。我们的新家在一栋红砖公寓楼内,与一路上经过的美丽街区相去甚远;一家三口就要挤在二楼一套狭小的一居室里。空间极其逼仄,我们只能凑合:我的床被放在了厨房和用餐区之间,我就睡在这个窄道里,直到后来搬家。为了布置小家,我们会格外留心别人丢弃在车道和路边的家具。落地还不到48小时,我又迎来了下一个任务:入学。
对一个在成都长大的中国学生来说,在帕西帕尼高中的最初几天对我的感官造成了巨大冲击。整个学校的气氛躁动不安,周围的一切都比我之前生活的世界更鲜艳、更快速、更沉重、更喧闹。无论我朝哪个方向看,都没有哪一样在我的大脑里有过印记,仿佛光线和声音的本质在这里都发生了改变。
光是颜色就让人应接不暇。学生和老师们穿的衣服比我以往见过的任何衣服都要醒目,色调从大地色系到原色系,再到荧光色系,有纯色的,也有带条纹和图案的,衣服上装饰着字母、插图、抽象图案和品牌标识。除了衣服,还有帽子、太阳镜、耳环、皮包和名牌背包,更不用说女孩们的妆容了----我从来没见过十几岁的孩子化妆。
当我拿到新课本时,才明白了背包的必要性----这些课本比中国的平装课本要大得多。虽然大多数课本的边缘都参差不齐,但质量却出奇地好;每门课都配有一本装订精美的教科书,封面设计生动鲜艳,成百上千页内容都是全彩印刷,拿在手里极有分量。
更具冲击力的是学生的行动方式。在中国,学生都有自己固定的座位,在课间也比较安静。而在美国,下课铃声一响,学生便从一个教室蜂拥而出,大呼小叫着奔向下一个教室,青春期的活力如山洪般暴发,其中的紧迫感让我不知所措。
最后就是这里的人本身。美国孩子似乎普遍比较吵闹粗暴,对老师似乎也缺乏尊重。虽然听不懂美国学生跟老师在说什么,但我从来没见过谁会跟老师那样说话。最让我惊讶的是,不拘礼节似乎是双向的。师生之间的互动常常是对抗性的,但也充满了俏皮和温暖。在这原本令我生畏的第一天,我立刻确定了一件事:我会喜欢美国的老师。
家里的节奏相对熟悉,但同样让人身心疲惫。我突然进入了英语世界,即便是最简单的家庭作业也要花上几个小时,因为几乎每一步都需要求助于两本大词典,一本是中英词典,一本是英中词典。这让我感到非常沮丧。看来,我不得不把在中国上学时的游刃有余搁置一边(更不用说我日渐萌发的对物理学的热爱了),谦卑地回到起点。在可预见的未来,重新获得自我表达能力将是我智力生活的中心任务。
幸好,我们的生活很有规律,因为父母跟我一样忙碌。刚到美国不久,父亲就遇到了一位台湾商人,他利用自己的工程技能在这位商人的店里找了份修理相机的工作。虽然工资微薄,工作也很辛苦,但挣的钱刚好够我们维持生计。母亲也找到了工作,她在台湾人妻子经营的纽瓦克礼品店里当收银员。有了额外的收入固然可喜,但看到母亲这样有抱负的知识分子从事完全无法让她施展才能的工作,我感到非常难过。父母下班都很晚,我们也没钱点外卖,所以每天回到家后,不管有多么累,父亲都要赶紧准备晚饭。
过去三年,父亲经常给家里写信,我现在也一样。一有空暇时间,我就会给国内的家人和朋友写信。每封信都是一个恳求。我希望他们能告诉我,虽然我已经离开了,但我爱的人和事,尤其是外祖母的厨艺,依然还在。他们总会回信告诉我我想听的话,每次收到回信,我都既兴奋又伤感。有生以来第一次,我梦中那个遥远的世界不是神秘的异域,也不是未被发现的科学前沿,而是我最熟悉的地方。
现在回头看,我还忍不住想,如果我当时意识到自己比以往任何时候都更接近现代科学革命(即使只是在地理位置层面),我的思乡之情会不会得到纾解?来到美国,我的出身和未来之间的鸿沟缩小了,而在帕西帕尼安家,我和未来的距离被大大拉近了。我会在这里度过青春期的剩余时光,我还不知道,在距离新家不到一小时车程(沿着花园州公园大道仅有几千米远)的地方,历史正在被翻篇。
在未来的某一天,杨立昆(yannlecun)会成为脸书的人工智能首席科学家,但在我们到达美国时,他在新泽西州霍姆德尔的贝尔实验室的研究生涯才刚刚起步。他为人谦逊但雄心勃勃,近些年引发了不小的轰动,因为他展示了"神经网络"(neuralnetwork)算法在准确识别人类笔迹方面的能力。尽管这项技术仍然相对较新,远未达到日后的普及程度,但与之前数十年的人工智能传统已经截然不同。神经网络算法的目标不是用离散的规则来描述笔迹(1是直的,2是弯的,3是对称的,诸如此类),而是从数据中推断出模式。
杨立昆从美国邮政署拿到了7200多个手写邮编的扫描件,涵盖各种风格、质地,甚至包括常见的错误。他向神经网络算法展示这几千个真实的人类笔迹,让机器也能像人类一样学习相关模式,形成内化的直觉。这套直觉很难用传统计算机程序的形式表达,但它使得算法能够以前所未有的方式理解真实世界的复杂混乱。
杨立昆的研究取得了巨大的成功。算法的识别非常精准,在短短几年内,它就被广泛应用于全美的自动提款机上,用来读取支票上的数字。在距离达特茅斯研究提案中首次提出人工智能概念几十年后,人工智能领域终于取得了极具实用性的成就。
此前的几代人试图用规则详尽描述智能,算法相对僵化,这种人工智能通常被称为"符号人工智能"(symbolicai);20世纪80年代末到90年代初,潮流开始转向更自然的方法。杨立昆的成果就预示着一个大胆的未来。随着时间的推移,行业研究重点从"通过明确编程来解决问题"转变为"从示例中发现模式"。换言之,算法不是被告知该做什么,而是去学习该做什么。研究人员给它起了一个贴切的名字:"机器学习"(machinelearning)。
在科学的发展进程中,思想孕育的过程相对富有诗意。没有任何一条自然法则规定洞察只有在能够付诸实践的前提下才会出现。很多灵感的火花都领先自己所处的时代几年、几十年,甚至几个世纪,历史上的例子比比皆是。而真正鼓舞人心的是,这些早期的思想家对于自己的发现抱有坚定的信念:无论前进的道路看起来多么不切实际,无论实验成功的前景多么渺茫,伟大的科学家都被与生俱来的探索欲所驱使,再艰难的环境也浇不灭他们孜孜以求的热情。机器学习几十年的发展历程即是如此。
机器学习的历史可以说是人工智能发展历史中不太为人所知的章节。尽管图灵本人很早就认可过机器学习,但这一概念相对来说仍然比较小众。1950年,图灵发表了一篇题为《计算机器与智能》的论文,简要对比了"基于规则的人工智能"(rule-basedai)和机器学习。基于规则的人工智能是指从零开始构建具有智能行为能力的完整体,而机器学习指的是允许智能体自主发展。图灵问道:"与其努力打造程序来模拟成人的思维,为何不尝试用程序模拟儿童的思维呢?"事实上,机器学习自诞生之初就从人类认知中汲取了一定的灵感,这在很大程度上得益于神经科学等领域的同步发展。
早在19世纪,人们就对大脑的运作模式有了一些模糊的了解,但直到20世纪,我们今天所熟知的神经科学才开始逐渐形成。即便在那时,我们对大脑的认知也非常初级。就像第一批天文学家努力理解天空中天体的运行轨迹一样,当时的科学家对大脑的了解也仅限于他们能观察到的现象:电脉冲和化学信号的洪流,在一层层潮湿又神秘的褶皱组织里穿梭。
在科学处于混沌期、世界对科学探索闭关自守之际,如果还能看到一线希望,那就是那些充满好奇心的人正处在自己创造力的巅峰。他们从近乎虚无的状态中提出各种假设。即使是微不足道的进步,也能带来巨大的变革。随之而来的滚雪球效应可能会让人眼花缭乱。随着20世纪中叶的临近,神经科学即将确定该领域的基本概念,从而逐层建立真正的理论。这个时代与现代物理学的黎明期并无二致:当人类首次觉察到物理世界基本性质的蛛丝马迹,即粒子和力是我们所看到的一切事物的基石时,我们对自然的理解就彻底改变了。
1943年,研究人员沃伦·麦卡洛克(warrens.mcculloch)和沃尔特·皮茨(walterpitts)共同发表文章,介绍了一项关于大脑基本单位"神经元"的新探索,把其中的生物学原理简化为数学的本质概念,从而推动了神经科学的重要进展。他们的方法的关键在于抽象化:通过剔除真实大脑中变幻莫测的电化学过程,将神经元简化为相对简单的信号交换。这种纯粹的交换性分析----输入什么、输出什么,以及两者之间如何相互关联----产生了深远的影响。不同于身体的其他部位,也不同于任何已知的自然结构,大脑似乎是唯一适合处理信息的器官。
从某种意义上说,这个发现相当于神经科学领域的原子裂变,它揭示了在整个大脑中重复出现的根本模式,展现出惊人的一致性和稳定性:大脑可以被看作由简单元素组成的大型网络,元素之间的联系可以随着时间的推移而改变;通过将复杂的行为分布于网络中,我们几乎可以完成无限的任务,并且可以不断学习新的任务,即使到了晚年也可以。
人类大脑的复杂性远远超越已知宇宙中的任何其他事物,但其构造又极其优雅,几乎把复杂性全部掩藏。汽车或手机都是由清晰区分的零件组装而成,这是人类设计师认为直观的形式。但大脑的构造与此不同,它是由近1000亿个神经元构成的巨大网络,其中的神经元就是一个个互相连接的微小单元,可以在电化学传输中精细聚焦。尽管整个大脑中的神经元行为受到类似概念的支配(至少在麦卡洛克和皮茨的模型层面上是如此),但神经元可以形成不同的网络,其排列和位置各不相同,可以应对各类挑战,如视觉、听觉、运动,甚至进行抽象思考。此外,大脑在最初在子宫内形成后的很长时间里,才通过学习形成了(或者至少是逐渐完善了)这些网络结构。这就是为什么尽管我们的灰质在解剖学上看起来并无二致,但每个人的个性、技能和记忆都是独一无二的。
有了这样清晰的模型,技术进步迟早会赶上研究界的好奇心。1958年就迎来了这样一个时刻。康奈尔航空实验室的心理学研究员弗兰克·罗森布拉特(frankrosenblatt)发明了一种机械神经元,他称之为"感知机"(perceptron)。虽然罗森布拉特的创意在概念上非常简单,但当时的技术还没有数字化,因此操作难度很大。他将自己的心理学背景与对电气和机械工程的理解相结合,经过数月的辛勤努力,终于将数学模型转化为一个实用的实际设备。
更大胆的是,罗森布拉特的研究工作不仅实现了麦卡洛克和皮茨的想法,还结合了哈佛大学心理学家斯金纳(b.f.skinner)提出的补充假设,对神经元的基本模型进行了扩展。斯金纳认为,有些输入对神经元行为的影响更大,这就好比不同的读者可能会对阅读的内容产生不同程度的信任和怀疑。如果允许这些影响随着时间的推移而变化,随着任务的成功或失败而增强或减弱,那么从本质上看,神经元网络本质上就可以进行学习了。
罗森布拉特运用相关原理,设计了一个由400个光传感器组成的像素为20的摄像头。他把每个传感器的输出连接到感知机上,让感知机学会识别视觉模式,比如识别面前的索引卡上绘制的形状。由于每个传感器的初始影响权重是随机设置的,因此系统对所见图像的分类也是随机的。而罗森布拉特就是感知机的老师,他会用开关来告诉感知机哪些行为是正确的,哪些是错误的。通过这种方式,系统就能确定每个传感器的输入对答案的影响,并相应地增强或减弱这一影响。随着这个过程的重复进行,感知机就逐渐获得了形状识别的可靠能力。
在通过机器重现认知基础方面,罗森布拉特的感知机被誉为重大进步,研究界对他的工作成果进行了热切探索。然而,随着感知机的局限性逐渐凸显,人们的兴奋之情逐渐消退。研究人员开始质疑感知机能够解决的问题的范围,甚至包括理论层面能解决的问题,而当时技术条件有限,只能进行最简单的实施,无法进行更复杂的实验。
有意思的是,1969年,达特茅斯暑期项目发起人之一马文·明斯基与计算机科学先驱西摩·佩珀特(seymourpapert)合著的《感知机》(perceptrons)一书出版,明斯基成为感知机最知名的批评者之一。这本书在肯定感知机优雅之处的同时,也对其进行了猛烈的抨击,指出感知机的设计缺乏严谨的理论基础,并列举了许多导致感知机应用范围极窄的弱点。尽管明斯基的观点没有被普遍视为这个问题的最终结论,许多同时代的人也提出了反驳意见,但是感知机的声誉已经受到了损害。在接下来的十几年里,整个机器学习领域(特别是感知机)都将被置于人工智能的一隅。
在厨房里几乎无法交流。这里的噪声很大,有时候即使大声喊叫,也听不清对方在说什么。虽然聘用我的经理会说普通话,但厨师大多只说广东话----我既不会说,也听不懂。新来的我笨手笨脚,又容易碍事,所以尽量缩在角落里,不去理会那些近乎戏剧化的混乱场景:风扇的轰鸣声、炒锅发出的吱吱声,还有各种金属边缘碰撞和刮擦的声音。明火从炒锅里蹿出来,照亮了整个厨房,水柱从锅碗瓢盆上溅射而过。一个厨师发出低沉的"嘿"声,并向我示意,然后急匆匆地把一份做好的菜放在我面前。开始工作吧,我想。我以最快的速度把盒子装进外带袋,又放入餐巾纸、餐具,还有一些签语饼和酱油包,然后系紧提袋的提手。我双臂抱着袋子,深吸一口气,溜出厨房,进入用餐区。随着焦虑的情绪在体内蔓延,我匆忙的脚步开始加快,不禁小跑起来。
"飞飞!"我听到经理低声呵斥。
我意识到自己的错误,立刻停了下来,叹了口气。
"我跟你说过多少次了?不要在用餐区跑来跑去。你的任务是把订单送到前台,而不是让顾客觉得烦心。别逼我再说一遍。"可恶。我点了点头,结结巴巴地道了歉,然后小心翼翼地提着外卖包走完了剩下的路。
最能宽慰我思乡之情的就是每个月给外祖父母打电话。他们两个是我最挂念的人,听到他们的声音,我就会立刻把所有烦恼抛到九霄云外。但长途电话费贵得吓人,每次通话都匆忙到残忍。连跟最爱的人说说话都要争分夺秒,这种感觉实在荒谬。每当快到挂电话的时候,母亲的语速就会越来越快,让我闻之心碎。几个月后,我受够了。有些屈辱是我拒绝接受的。如果钱是唯一能摆脱束缚的方法,我决定自己去赚钱。
我通过报纸上的分类广告找到了第一份工作,在商业街上一家狭小昏暗的中餐馆里当服务生。这并不是正式的工作,所以不受劳动法和新泽西州最低工资标准的约束,雇用条款也反映了这一点:在学校没课的时候,我要从上午11点工作到晚上11点,每天12个小时,每小时2美元的工资。当地人警告我说周围的街区不太安全,到了晚上我会害怕的。他们强烈建议我每晚都要搭车回家,我照办了,从没有过例外。
因为兼职工作不稳定,所以我也同时在寻找其他工作。分类广告不断为我提供新的工作机会。在整个高中阶段,除了在中餐厅打工,我还每周去给人做家务,这份工作薪水更高但时数少;我还遛过狗,这可能是我赚得最少但最享受的工作,也是父亲格外感兴趣的一份工作。
只要我按时上下班,就能搭车来往于城里危险的区域。虽然工资一直很低,但我之前没有工作经历,所以也无从比较。不过,即便是如此微薄的收入,也能大大改善我们的生活,这让我感觉很棒。我也可以忍受工作时长----毕竟工作时间越长,为家里赚的钱就越多。
这些工作让人感到疲倦的地方在于移民经历笼罩的不确定性。我周围都是勤奋自律的人,有着跟我相似的故事,但我们似乎注定要陷入贫乏和卑微劳动的循环中,没人可以摆脱。我们来到这个国家,希望寻求其他地方没有的机会,但我却看不到任何通往这些机会的路径。
我们的处境已经够令人沮丧了,然而移民群体内缺乏鼓励更加让人情绪低落。这一点在工作中体现得尤为明显----为了勉强维持生计,我们都承受了巨大的压力,因此对任何偏离常规的行为都持粗暴的怀疑态度。我在餐厅亲身体会到了这一点。每天下午,我都会利用唯一的休息时间重温母亲与我分享的西方经典著作的中文译本。即便在那个时候,或者说,尤其是在那个时候,我仍然会被那些充满内涵的散文深深吸引,因为我正在英语方面苦苦挣扎,极其渴望重拾自信、表达自己。每翻一页都会把我带回过去----那个能确定自己在世界上的位置、不像现在这样飘摇的年代。
直到有一天,经理直截了当地告诉我看书是在浪费时间,还不如利用这个时间去打扫卫生间。回想起来,我觉得同为移民的他绝不是在居高临下地对我指手画脚,只是这件事再次提醒我,对我们这样的人来说,想象力在新生活里是多余的。这实在令人沮丧。
不管怎么说,努力还是得到了回报。我们开了一个银行账户,开始了每周一次的例行仪式,就是把我的收入(当然都是现金)存进银行。钱虽然不多,但我们家终于有一笔可以自由支配的资金了,大家都很开心。从那时开始,我们终于可以每个月都存下一些钱,去商店买东西也不用那么在意价格了。最重要的是,母亲给家里打电话时也恢复了一些松弛。她的语气就是对我的奖励----她和外祖父母的交谈虽然仍然简短,但口吻却跟我记忆中在成都餐桌上的一样不紧不慢。
科学史往往是曲折、讽刺而又残酷的。新的思想被发现,然后被丢弃,接着又有新的思想被发现。被几代人视为基石的范式有时会在一夜之间被推翻,而推翻这一切的常常是显而易见的观察结果。恰恰因为这些观察太过简单,反而更容易被领域内最杰出的人物所忽视,从而为局外人发起革命创造了条件。正是这种既和谐又冲突的摇摆节奏,才使得科学追求如此戏剧化。
正如前文所述,就在罗森布拉特研发感知机的时候,出现了一项研究成果,可以解释感知机为何从未达到预期效果,以及以后类似机器如何才能成功。然而,这项研究成果来自另外一个领域。1959年,神经生理学家戴维·休伯尔(davidhubel)和托斯登·威塞尔(torstenwiesel)在哈佛大学进行了一项开创性的研究,研究了哺乳动物的大脑,特别是猫的视觉皮质。实验在暗室里进行,研究人员将基本形状的图画投射到墙壁上,精确控制猫所看到的东西,包括线条、缝隙和其他简单的细节,并仔细观察其神经元的反应方式。
休伯尔和威塞尔的研究发现,感知不是发生在单个神经元层次上,而是通过由多层神经元组成的层次结构进行的。这个层次结构从对表面细节的识别开始,最终到达复杂的高级意识。例如,第一层神经元可能会注意到一些细微的视觉特征,如特定角度的边缘、独特的纹理,或一抹绚丽的色彩。每一层神经元都聚焦在整体场景中的一个狭窄区域,称为"感受野"(receptivefield)。这些视觉细节单独来看并没有太大意义,但当它们传递到下一层时,就会整合成为更复杂的形状和特征,覆盖更广阔的感受野,就像是拼图拼接在一起,展现出更大的图像片段。
最终,当这些逐步整合的细节被传递到最后一层时,我们就能感知到面孔、物体、地点等有意义的事物。由于大脑的网络结构允许无数步骤同时进行,我们的感知体验是连续不断、充满活力的。休伯尔和威塞尔的研究成果改变了我们对感官知觉的理解,二人因此获得了1981年的诺贝尔生理学或医学奖。
早期对人工智能满怀希望的研究人员一直在寻找可以遵循的模式。尽管休伯尔和威塞尔的发现似乎是为他们量身定做的,但这一研究成果几年以后才为世界所熟知。在此期间,罗森布拉特因一次划船事故不幸去世,年仅43岁。但在1980年,这一研究成果的运用带来了变革。福岛邦彦是一位日本研究员,在东京nhk广播科学研究实验室工作。他开发了一种由多个感知机组成的算法(现在已经通过软件实现),将感知机堆叠成一个连接的层次结构。由于每一层对复杂模式的敏感度都超过下一层,因此整个算法可以识别出多层次的细节以及它们之间的关系。
福岛邦彦将这一成果称为"新认知机"(neocognitron)。新认知机对输入数据的异常具有很高的复原力和容忍度,因此在准确辨认笔迹方面取得了突破性的进展。由于笔迹极不规则且风格多样,笔迹辨认一直是个棘手的问题。
然而,新认知机的成功只是揭示了一个新的障碍----这是科学界常见的现象。虽然这一算法功能强大、用途广泛,但由于它的架构过于复杂,在实际训练中,针对更为简单的前代算法所开发的方法并不适用,因为它们没有新认知机密集的连接内层。进展再次陷入停滞。直到几年后,机器学习的下一块拼图才终于浮出水面。
1986年,由加州大学圣迭戈分校教授大卫·鲁梅尔哈特(davide.rumelhart)领导的一个研究人员小组在科学杂志《自然》(nature)上发表短篇研究报告,介绍了一种能让新认知机等算法有效学习的技术。他们将其称为"反向传播"(backpropagation),名字来源于这一技术最显著的特征:在这种级联效应中,每个训练实例(具体来说,是网络对给定刺激的反应与正确答案之间的差异)通过网络的一端传递到另一端,并逐层进行误差的递减调整。
然而,真正使反向传播大放异彩的,是网络结构随着时间的推移出现的变化。随着网络接触到越来越多的实例(如照片或音频波形集),神经元之间的连接就会因所见所闻而被重塑,留下越来越详细的印记。就像流淌几百年的河水雕刻出的峡谷壁一样,在经过一定的训练后,神经网络会逐渐呈现出特定的特征。经过多年的努力,神经网络突然开始以前所未有的规模进行学习,并达到了前所未有的精确度,这预示着真正的转折点即将到来。
虽然鲁梅尔哈特是首席研究员,但他的两位合著者之一杰弗里·辛顿(geoffreyhinton)才是与反向传播联系最紧密的人物。辛顿当时是卡内基梅隆大学的教授,从小就被智能之谜所吸引,其职业生涯致力于探索重现智能的新方法。他孜孜不倦地探索各种新颖的机器学习方法,为这一领域的早期复兴做出了巨大贡献。那是一个神经网络稳步发展的时代,网络层数越来越多,神经元连接越来越复杂,训练技术也越来越完善。杨立昆是辛顿的第一批学生,他把这些研究成果应用到了识别手写邮编这一极具实用性的场景,引起广泛关注。在不到十年的时间里,机器学习这样一个曾经遥不可及的梦想终于在现实世界中开花结果。