我看见的世界：李飞飞自传 06 北极星

thenorthstar

2004年，我们创建的caltech101完工，成为有史以来为机器学习配置的最大规模的图像集合，里面有超过9000个图像，分布在100个类别中，另外我还独自完成了一个新类别的图像整理。如果彼得罗想要100个类别，我就给他101个。

帕萨迪纳黎明的微光从地平线上缓缓升起，色调温暖而多变。在这个城市生活久了，我逐渐发现，这是独属于加州的颜色。朝霞召唤人们走到户外，让人不禁想要暂时抛开白天要尽的种种义务，投身其中，尽情享受。但天空再蓝再美，也没有科学发现的希望诱人。今天是开启新实验的第一天，实验室就在地下等着我，我已经为此准备了好几个月。

我们的实验在科赫实验室的心理物理学实验区进行。这个地下室幽闭阴暗，隐藏在加州理工学院阳光下的草坪和自行车道之下。这里没有自然光，大多时候也没有人工光线，空间接近完全封闭。我们在实验区里搭建了三个完全相同的小隔间，每个隔间只能容纳一个实验对象。隔间装有遮光窗帘，可以完全隔绝实验对象的视觉感知。

实验对象进入小隔间以后，会一只手握持鼠标，另一只手放在键盘上，凝视黑暗。在片刻沉寂之后，会有一个显示器亮起来，显示一系列彼此毫无关联、颇有达达主义之风的图像：随意排列的英文字母、无序摆放的场景照片、突然闪过的随机元素。每个图像出现的时间都精确到毫秒，实验对象通过点击鼠标和按键做出反应，我们则对其反应进行精确测量。然后，在几秒钟之内，隔间重新陷入黑暗。片刻的寂静过后，此前播放的图像组合再次出现，实验就此不断循环往复。

实验虽然乍一看杂乱无章，但没有一个细节是随意安排的。所有的周折都是为了一个目的，那就是解读大脑活动，或者至少推断出大脑活动内容的部分片段。实验对象手指抽动、呼吸变浅、瞳孔放大，这短短几秒钟的信息被转化成一系列数据，这些数据可能需要几天、几周甚至几个月才能完全理清。感官的奥秘深藏不露，要把它们诱骗到实验装备上，揭开它们的面纱，哪怕只是短暂的一瞬，也是奇事一桩。

在长达5亿年的时间里，进化不断对光敏蛋白质施压。在其不懈的推动下，光敏蛋白质跨越漫长的岁月，发展成为一个精密到让人几乎无法参透的结构。进化的辛勤劳动打造了整个视觉皮质，从眼睛的玻璃表面一直延伸到大脑的最深处。所以在加州理工学院，我们要拜进化成果为师，尝试揭开视觉之谜。在我的导师看来，要实现机器智能，关键的第一步是更好地了解人类。

除了有机会沉浸在自己心仪的视觉研究领域，我并不知道自己想从研究生阶段获得什么，但我希望在此期间找到可以全力追求的目标。我会像自己的榜样那样全情投入，就像埃里克·维斯乔斯把对果蝇异常现象的痴迷转化成了诺贝尔奖，或者尼尔·德格拉西·泰森把宇宙变成了数字诗歌。我想要一颗属于自己的北极星。但在找到北极星之前，我只想围绕一个问题展开思考，那就是不可言喻的视觉体验究竟是如何实现的，用《视觉科学》那本教科书生动的副标题来说就是，光子是如何成为现象学的。这本教科书让我迈出了理解视觉体验的第一步。书的前言由普林斯顿大学心理学家安妮·特雷斯曼（annetreisman）撰写。她是实验界的奇才，也是20世纪认知科学的巨人。早在数字技术出现的几十年前，她就把特别简单的工具和原始创造力相结合，来探究人类的感知（如果当时就有数字技术，那么她的研究会大大加速）。

特雷斯曼提出的“注意的特征整合理论”几乎成为理解视觉意识本质的通用理论基础。在实验中，她会以极快速度向实验对象展示一些抽象物品，比如在一堆绿色和红色方块中夹杂一个红色圆圈，由此确定他们在不同深度层次上理解图像所需的时间。她发现，人们几乎可以立即意识到红色的存在（也就是知道图像的某个地方包含红色），但找到红色圆圈这样的元素则需要花费更长时间，因为在红色圆圈中，一个物体同时包含了“颜色”和“形状”两种不同的特征。换言之，把对“红色”的感知和对“圆形”的感知整合在一起，不仅需要更长时间，而且似乎属于一个完全独立的视觉处理阶段，这个阶段的信息处理更为密集。

特雷斯曼的研究范围很广，解释翔实，但她的核心理论是统一的，即人类视觉从识别微小细节开始，然后建立它们之间的关系，直到揭示出一幅完整的画面。这个论点非常符合直觉，也为理解视觉的工作原理提供了衡量标准：人类可以迅速识别特征较少的简单物体（如灰色人行道上的橙色小球），而识别更复杂的场景（如蜿蜒的林间小道或朋友的面部细节）则需要更多时间。

在计算机视觉研究中，我反复看到以下模式：研究人员编写算法并不断改进，以识别照片和其他图像中的基础性细节（如清晰的边缘、光线和颜色的变化、纹理或图案的碎片等），然后构建更高层次的算法，来识别这些细节之间的联系，并将它们与更有意义的事物（如人和物体）联系起来。虽然我对视觉原理的了解有限，但我觉得这种方法很有道理。然而，情况很快就变得非常复杂。

“飞飞，我给你准备了一些阅读材料。”彼得罗一边说一边把一篇文章放在我面前的桌子上。

“这个吗？”

我拿起翻看，发现这篇文章的长度还不及大多数发表论文的四分之一。彼得罗露出了会心的微笑。

“相信我。这是你想读的内容。”他不是在开玩笑。

这是神经科学家西蒙·索普（simonthorpe）于1996年提交给《自然》杂志的一篇通讯文章，题为《人类视觉系统的处理速度》。虽然标题平淡无奇，篇幅也只有三页，但在当时却产生了极大的影响，因为它对整个领域公认的正统观念提出了疑问。这个例子彰显了科学界最伟大的传统：虽然既定的观念符合直觉，广为人知，却能被更加错综复杂的现实打破。

在实验中，索普向实验对象展示计算机显示器上的图像，使用脑电图（eeg）来测量他们大脑表面的电信号。当一张照片在屏幕上仅闪烁27毫秒时（即蜜蜂扇动几下翅膀所需的时间），实验对象就能极其准确地识别出照片内容。通过进一步研究，索普精确地指出，大脑中的识别时刻是在图像出现后仅仅150毫秒（大概相当于眨眼的一瞬间）。这是迄今为止对人类视觉处理速度最精确的调查，其结果显示，识别所需时长远远小于特雷斯曼理论的预测。

在特雷斯曼的实验中，实验对象在极短的时间内识别基本的颜色和形状。而索普的实验对象则能够在同样短的时间内处理整个图像，辨别其中的细节、视角、微妙的光照和意义。每个阅读这篇文章的人都会心生疑问：这是怎么做到的？我明白了为什么彼得罗这么想让我读这篇文章，也明白了为什么在这篇文章发表三年多后，他和克里斯托夫还经常就此展开讨论和争辩。我立刻和他们一样沉迷其中。

于我而言，这篇文章颇为超现实，因为它才发表没多久，就在我来到加州理工学院的前几年。即使在今天，人们也很容易忘记对人类视觉的现代研究历程其实是多么短暂，最早的出版物也只能追溯到几十年前。物理学的传奇历史绵延了数个世纪，从伽利略到牛顿再到玻尔，无不充满传奇色彩。相比之下，不管是过去还是现在，视觉在很大程度上仍是一片未知领域。计算机视觉研究则更为年轻，这感觉就像我手里拿着一张还在绘制过程中的地图，而我的研究生早期生活也因此充满了激情和动力。每周从帕萨迪纳给萨贝拉先生打电话时，我总是滔滔不绝地和他聊个不停。

“我从来没见过这样的情况。”我说，“这个领域太复杂、太激动人心了，而且几乎是全新的！就在我们聊天的时候，计算机视觉领域很多最牛的学者还在积极地做着研究呢！”

我与彼得罗和克里斯托夫相处的时间越长，就越欣赏他们的冒险精神，这也是他们作为学者最明显的特征。虽然他们的背景分别是物理学和工程学，但两人都对心理学、认知科学和神经科学等领域充满了热爱。他们和系里的其他人一样经常阅读计算机科学期刊，但他们还会专注阅读《心理学评论》《美国国家科学院院刊》和享有盛誉的《自然》等刊物。

因为受到热爱的驱使，所以他们都抱持着鲜明的观点，渴望开拓知识的前沿。这意味着要直面索普和特雷斯曼研究成果之间的差异。有强力证据表明，视觉在某些方面（也就是识别现实世界风景的能力）几乎是毫不费力的。但这种毫不费力背后的原因是什么呢？这种原因可以被量化吗？这对我们理解整个大脑有什么帮助吗？这些都是值得探索的问题，而对我的导师们来说，还有一点好处：相关研究工作会非常繁重，足以让他们门下这位执着的新研究生忙上一阵子了。

如何阅读一个人的大脑？

在实验室里，经常需要准确捕捉实验对象的感知、期望甚至决策。要设计相应的实验方法，就需要综合运用工程学、心理学、人体工程学，甚至是类似于变戏法的手段。具有讽刺意味的是，虽然我们的实验看起来与在许多其他实验室看到的没有什么不同——都是实验对象身上挂满了电极，助手们处理大量数据，等等——但实验的设计却堪称一种艺术。

与一般实验不同，我们的目标非常笼统。我们会向实验对象展示照片，每张照片的展示时间只有几分之一秒。我们要看他们能否在不把注意力集中在照片上的情况下，准确识别上面的内容。索普已经确定了完成识别任务的速度，但他没有探究有意识的注意力所起的作用。在观看图像的时候，我们需要有意识地集中注意力吗？还是说我们的识别能力会在无意识的情况下持续运转，无论我们是否刻意关注，都能感知周围的世界？我们怀疑是后者，但我们需要加以证明。

克里斯托夫实验室的访问博士后阿希姆·布劳恩（achimbraun）为我们提供了实验的灵感。布劳恩当时正在研究一个类似的假设，他假设我们的大脑会在没有意识的情况下处理大量的视觉细节。他提出了一种“双重测试法”。在这种方法中，他让实验对象的注意力集中在一个需要刻意集中注意力的中心任务上，与此同时，展示一个只需要被动观察的外围任务。中心任务需要高度集中注意力，这样能确保外围任务不会被有意识地处理。

这种方法的巧妙之处在于它可以揭示实验对象感官的焦点。因为中心任务需要实验对象集中注意力产生一个客观反应，因此通过几轮反复实验，就可以非常准确地确定实验对象的注意力是否完全集中在该任务上。外围任务虽然相对简单，但也有一个客观正确的反应，由此一来，便可以可靠地测量出实验对象的次要意识。因为这两项任务呈现的时间都只有大约200毫秒（只比眨眼的时间稍长），所以可以排除实验对象有意识地依次执行这两项任务的可能性。

我们的实验对实验对象的注意力进行了精准的控制，一旦我们确定实验对象的注意力已经完全集中，就会向他们快速展示一张随机选择的户外风景照片，然后提出一个简单的问题：这张照片里有动物吗？他们的答案将充分说明注意力与视知觉之间的关系。

从实验对象的角度来看，这个实验的节奏快得让人喘不过气，因为在实验过程中，各种图像和图案会闪电般地转瞬即逝，需要他们几乎立刻做出反应。但是，实验的实施过程就没那么快了。一天又一天过去，我们感觉自己像在照看孩子，而不是在做实验。我们以赚取周末零花钱为诱饵，吸引大学生来参加实验，然后就在隔间外等着他们双眼昏花地走出来。因为愿意参加实验的大学生不够多，所以我们只能趁他们有空的时候做实验。有好几次，我一天的主要任务就是早上6点在实验室门口迎接陌生人。但就算这样，我也乐在其中。这样的工作虽然烦琐乏味，但依然是科学的一部分。

我们的实验固然重要，但彼得罗和克里斯托夫也明确表示，优秀的科学家要广泛阅读文献，紧跟领域的最新发展。我读得越多，就越意识到，索普并不是第一个挑战特雷斯曼的人。我阅读了几十年来的研究成果文章，发现越来越多的线索表明，除了特雷斯曼的观点，还存在很多不同的理论。

与特雷斯曼的观点差异最大的研究成果也许来自视觉研究员欧文·比德曼（irvingbiederman）。他跟同事设计了一项实验，让实验对象快速浏览一些照片（而不是抽象的形状和颜色），然后让他们辨认看到了什么。随着实验的进展，刺激物的复杂程度大大增加，实验对象看图片的时间也越来越短，但实验对象的回答却始终准确无误。比起特雷斯曼的研究对象在一堆五颜六色的字母b中辨认出一个单独的字母a所花的时间，比德曼的实验对象能在更短的时间内从照片中吸收足够的细节信息，分辨出这是一张购物中心停车场的照片，还是一张家庭厨房的照片。

另一个不同的观点来自心理学家莫莉·波特（mollypotter）。在使用一台早期计算机显示器向实验对象展示文字段落时，她让大字体的文字一个一个地在屏幕中央闪现。即使以每秒12个字的速度展示（是普通大学生正常阅读速度的两倍），实验对象的辨识表现依然优秀。尽管特雷斯曼的演示证明了视知觉是从微小细节开始逐步建立起来的，但阅读似乎明显是个例外。

这项研究所用的工具非常原始，因此研究更显得了不起。几十年来，由于无法直接了解研究对象的认知，特雷斯曼、比德曼和波特这群善于思考的人巧妙地在严格控制的环境中，利用行为观察来寻找令人惊叹的线索。但这种方法也有局限性——归根结底，我们能从外部推断出的关于大脑的信息也只有这么多了。要从内部理解这些现象，还需要新一代技术。

这样的技术最终出现了——脑电图和功能性磁共振成像（fmri）等神经科学工具为研究人员提供了前所未有的临床精确度。索普的论文是最受关注的研究成果之一，但相关成果远不止于此。麻省理工学院认知神经科学家南希·坎维舍（nancykanwisher）及其学生完成的研究也同样重要。索普和比德曼等研究人员发现，人类具备快速准确的感知能力，而坎维舍团队通过功能性磁共振成像分析，确定了与之相关的大脑区域。脑电图测量的是整个大脑的电脉冲，它以极快的速度在大脑表面扩散，而功能性磁共振成像则通过检测特定区域的神经元活动，来测量血氧水平的变化。

研究早期的突破包括发现了“梭状回面孔区”（fusiformfacearea，ffa），这是颞叶的一个皮质区域，大小不超过一立方厘米，似乎是为识别人脸而量身定做的。接下来是附近的“海马旁回位置区”（parahippocampalplacearea，ppa），在识别熟悉的地点（比如自家厨房或常走的道路）方面发挥着类似的作用。另一个发现是“纹外躯体区”（extrastriatebodyarea，eba），可以对周围人的手臂和腿等部位的摆动情况做出反应，帮助我们感知他们的身体方向。

这些被称为视觉神经关联的结构有一些特别之处：它们似乎都是为特定目的专门打造的。每个结构都能且只能识别特定类别的事物，如面孔、熟悉的地点、身体姿势等。这就解释了为什么我们在完成特定的识别任务时，能够达到惊人的感知速度。我们不需要从头开始，逐个细节地进行解码；我们神经系统的一个专用功能会立即启动，几乎在瞬间就能完成识别任务。从我们的感受来看，这种识别是毫不费力的。

在生物学上，个体在某些过程中所付出的努力程度可以说明很多问题。进化极致追求节约体力和脑力，导致生物体只对极端的环境压力做出反应，要么适应，要么灭绝。如果要使一种能力精进到如此程度，使如此复杂的事情变得自动化，那么这种能力必须具有根本性的、独一无二的重要性。

因此，视觉不仅仅是我们所看到的细节问题。虽然像特雷斯曼这样的研究人员提出，图像可以被分解、分层查看，特别是在严格控制的实验室条件下，但我们在混乱世界中生存所依赖的视觉需要处理的对象是事物、人物和地方。事实上，从最早的处理阶段开始，我们在感知周围环境时，并不是将其看作颜色和轮廓的组合，而是以类别的方式来理解。

这些发现本身固然令人兴奋，但它们之间的联系就像是尚未被发现的大陆海岸线，让人感觉别具深意。每一个新的想法都指向一些重大的（或许是历史性的）东西，正等待着被发现。这让我更加迫不及待地想要看到我们的实验结果。我们是不是就快揭晓谜底了？还是会迎来更复杂的问题？

大多数日子里，彼得罗都会在上午到校园的红门咖啡馆，享用一杯卡布奇诺，而我也开始跟着他一起去了。我个人的经济状况并不支持我养成喝咖啡的奢侈习惯，但我喜欢观察他喝咖啡的过程。他会把自己的要求告诉咖啡师，拿到定制的咖啡后，再小心翼翼地加一点点焦糖，轻轻搅拌。对多年来不停东奔西跑的我来说，他的咖啡时间恰好提醒了我，生活中的简单时刻值得细细品味。

然而今天，我来到这里不是为了品味生活，而是另具战略目的：实验结果已经出炉，我想马上跟他分享。虽然彼得罗对自己的咖啡仪式全神贯注，但在咖啡时间跟他交流比吃午饭时更容易——吃饭的时候，他喜欢把我们的餐盘摆成五颜六色的画面，说像流行艺术家大卫·霍克尼（davidhockney）的作品。他所谓的“霍克尼拼贴画”主要是他在自娱自乐，一开始很有趣，但等他摆好我早已饥肠辘辘，不禁回想起他对艺术史的热爱曾经看起来多么高深。

他刚喝了一口卡布奇诺，我就翻开抄录了最新结果的笔记本，开始大声朗读起来。经过漫长的努力，我很自豪终于有了一些切实的成果可以跟他分享。就在我把数据逐个念出时，彼得罗变得和我一样兴奋。

“飞飞，这些数据……我是说，它们——”

“我知道！简直不可思议！”

在一次又一次的测试中，数据清晰地揭示出令人震惊的事实：我们的实验对象在完全专注于其他事情的情况下，也依然能够识别出真实世界场景中的照片。我们知道反应时间会很短，但实验对象的反应速度之快、一致性之强和准确性之高，都完全出乎我们的意料。大脑能够以惊人的辨别力和迅捷的速度识别出无数视觉概念，这是大脑的独特特点，不仅极其强大，而且似乎完全是自动的。

我很荣幸能为这项看起来正在对该领域产生影响的研究做出贡献，但最大的收获在于哲学层面。我们的研究成果跻身过去几十年的成果行列，表明人类视知觉的核心是一个简单的概念：我们的视觉基础在于识别定义明确的类别，也就是对事物的识别。彼得罗神情微妙，但他的喜悦之情明白无误地写在脸上，说明他也认同我的观点。我越发相信，我们即将揭开一切的奥秘。

当我在加州理工学院的第二学年即将结束时，我已经阅读了大量文献，参加了许多研讨会和专题会。随着我们的实验结果的发表，我也看到了足够的第一手资料，因而认识到了一个重要的事实：视知觉依赖于分类。我们的大脑会自然而然地将我们所看到的细节归类为更广泛的概念，如物体、人物、地点和事件等。例如，在现实生活中，我们看到的不仅仅是简单的绿色和蓝色的图案，而是会看到在天空映衬下的一棵树。视觉在更高、更有意义的层面上发挥作用，用知识武装我们的头脑——我们可以想象树叶随微风摇曳的样子或夹在指间的感觉，我们也可以立刻估计出一根树枝的质地和重量，这两者都与高悬在数英里高空的不可触摸的大气层和彩色光线截然不同。

分类的能力赋予了我们难以估量的力量。视觉没有把我们埋没在光线、颜色和形状的无数细节中，而是把我们的世界变成了可以用语言描述的离散概念。有用的观念像地图一样排列在我们周围，把复杂的现实简化成我们可以一望便知、在瞬间做出反应的世界。我们的远古祖先就是这样在纯粹的混沌环境中生存下来的，世世代代的艺术家们就是这样从日常生活中提炼出美感和精华的，即使在今天，我们也是这样在这个日益复杂的世界中找到自己的方向的。

我读到的很多内容似乎都在强化这一观点。虽然特雷斯曼揭示了我们识别复杂物体的一种方式，但比德曼、波特和索普的研究成果提供了一种截然不同的可能性，大大增加了视觉研究的复杂性。他们认为，在某些情况下，大脑会完全绕过这种密集的自下而上的视觉信息处理方式。我们自己实验室的研究探索了在没有刻意集中注意力的情况下，视觉识别能够达到的程度。坎维舍的观点尤其具有启发性，他认为这种不可思议的能力是通过特定用途的神经元关联来实现的，这些神经元关联可以映射到现实世界中的特定事物。这些证据有力地证明了大脑在生理上倾向于快速、稳健地检测已知的视觉概念。

我们的视觉系统就像是某个神秘巨人以极大的耐心精雕细琢出的发条装置，而我们的研究工作像是其逆向工程。虽然发条装置的小齿轮在我们面前嘀嗒作响，但其神秘面纱仍然未被揭开，距离完全理解视觉原理还有很长一段路要走，但我们已经窥得一些非凡的东西。生物进化是宇宙中唯一能够从零开始创造真正智能的力量，我觉得我们正在复原其线路图，或者至少是其中的一些片段。

这也改变了我对自己所从事的计算机视觉领域的看法。虽然计算机视觉领域的灵感创意层出不穷，但它们都分散在各种各样的研究项目中，整个领域缺乏指向同一目标的共同协作，类似于那股千年来耐心地塑造了我们自己思维发展的专注力量。我不禁思考，如果这种情况改变了，如果研究人员能够联合起来，共同理解并重新创造了人类认知的核心理念，世界将会变成什么样子？

我很难想象各方协同可能会带来什么发现。人工智能的未来具有无限的想象空间，但我开始认识到，这并非首要问题。我越来越确信，解开人工智能之谜的理想第一步，就是迎接一个特殊的挑战：通过理解各种物体来理解视觉世界。毕竟，人类就是这样看到世界的。我现在相信，这同样适用于我们的机器。

我想到了我的榜样们，从物理学的传奇人物到我的教授。多年来，我一直崇敬激励他们成为科学家的思想力量，也敬仰他们在各自领域产生的激励效应。现在，我接受研究生教育不过短短几年时间，但我相信我在自己的视野看到了一丝微光，虽然遥远而朦胧，但足以照亮我前进的道路。无论采取何种方法，我们将要让机器熟悉视觉世界。我本身就比较执着，但这次的痴迷程度是前所未有的。

我找到了属于自己的北极星。

屏幕上出现了一张喷气式飞机的图像，这次算法的任务是在照片上找到飞机。这是连蹒跚学步的儿童都能应对的挑战，但在2003年，机器只有在吸收了大量示例材料后才能应对。即便如此，它们成功的概率也很低。那天下午，我和彼得罗测试了一个想法，希望能够大幅提高机器判断的准确率。我紧紧盯着屏幕，迫不及待地想知道算法会带来什么结果。

屏幕上开始出现粉色的圆点，这些圆点是视觉辅助工具，旨在突出照片中能够吸引算法注意的细节。第一个圆点出现在了停机坪旁的一片草地上，我微微皱了皱眉。算法找错了地方。但趋势很快逆转，接下来的两个圆点出现在了喷气式飞机的机翼上，接着又有一个圆点出现在飞机尾部。再接着，三个圆点出现在驾驶舱附近。最后一个圆点出现了——起落架。这也可以算，我想。严格来说，起落架也是飞机的一部分！

我兴奋地呼了一口气。到目前为止，一切都很顺利。

接下来是真正困难的部分。每个突出显示的特征只占据了几个像素，因此算法会将特征进行分组，每个组群都代表了所要识别的对象的较大部件。换句话说，算法通过这种方式大致标示了自己所识别的内容。飞机的每个部分周围绘制着彩色圆圈——蓝色和青色代表机身的不同部位，红色代表垂直稳定器，绿色代表两者的交汇处。果不其然，算法几乎精确地将它们放在了各自所属的位置。

飞机被成功识别出来了。

这是一个激动人心的时刻，但并非因为算法的成功识别，而是因为它的运作方式。以往的算法会首先学习数百张飞机的照片，涵盖尽可能多的颜色、风格、角度和光照条件，但在这次研究中，我们只给算法展示了一张飞机的图片。与此同时，我们还向它展示了数百张完全不相关的图片，包括有斑点的丛林猫、摩托车、人脸（我们用彼得罗新买的高级数码相机拍摄了实验室伙伴的笑脸），还有一些从谷歌图片上随机下载的图片。我们的假设是，先让算法充分接触视觉世界里丰富繁杂的各类事物，它就更好地具备了学习特定事物的能力。因此，虽然算法被训练识别过各种各样的事物，但它刚刚识别出的那架飞机是它见到过的第二架飞机——自它被设计出来后见到的第二架。

我们的创造只是概念验证，仍然存在一些错误。但我们的目标是证明算法和人类一样，能够通过看到更多的现实世界而广泛受益。现在，北极星已成为我视野里的一个坐标点，我们已经朝着这个方向迈出了真正的一步。

我们将这种技术称为“单样本学习”（one-shotlearning）。这种技术与当时主流的图像识别方法背道而驰，但我们是从一个众所周知的能力中获得了启发。作为人类，我们天生就有一种神奇的本领，那就是可以仅凭对陌生事物的一瞥，再次遇到时就能认出来，不管是一样新的乐器、一种我们从未见过的动物，还是一位新当选的政治家。我们可以对这种能力做出多种解释，但其中最简单、最有力的解释是，即使面对全新的事物，无论多么新奇，我们也会借助一生的经验来加以理解。我们所看到的几乎一切都深深地融入了过往的经验——轮廓、光影、纹理和图案等熟悉的细节，以至我们很难想象能真正孤立地看到任何东西。

我们的技术将这一概念引入了机器，而且看起来效果不错。如果说实验结果是一个惊喜，那么我们的论文所受到的欢迎程度则是超乎想象的。这是一次突破性的成功，我们的论文不仅被在法国尼斯举办的国际计算机视觉会议（internationalconferenceoncomputervision，iccv）所接受，而且为我们赢得了为数不多的口头报告的机会。虽然这篇论文是与彼得罗和另一位名叫罗布·弗格斯（robfergus）的研究员共同撰写的，但我是主要作者。这意味着此次旅程的荣誉和责任都属于我。

在国际计算机视觉会议上发言是一个难得的机会，尤其是对一个研究生来说。然而，我可以说完全没有在如此重要的听众面前发言的经验，因此感到压力重重。更糟糕的是，彼得罗不能跟我一同前往。他和妻子的第一个孩子即将出生，预产期近在眼前。这是我第一次参加学术会议，也是我第一次登台演讲，而我要独自前往了。

在飞往法国尼斯的航班上，我没有时间紧张，因为还有要务在身。在加州理工学院的工作让我一直忙得不可开交，而在约9100米的高空安静飞行的13个小时，是我唯一可以用来准备演讲稿的时间。在旅途的大部分时间里，我都低着头，以最快的速度撰写演讲提纲、制作幻灯片。

然而，一到会场，我就强烈地感受到没有彼得罗在身边，我心里是多么没底。按照惯例，学生第一次参加会议时，无论是否做报告，导师都要陪同出席，以示支持，同时也可以帮助学生建立人脉。我开始逐渐意识到，我置身于一个挤满数百名陌生人的活动大厅里，不得不独自应对一切。紧张感开始涌上心头。

“飞飞？”一个声音在我身后响起。我转过身，发现一张陌生的面孔正俯视着我。

“是的，你是？”我小心翼翼地回答。

“终于见到你了，真是太好了！我是吉滕德拉。”

“吉滕……哦！吉滕德拉·马利克吗？你……”

“是啊，你知道我是彼得罗以前的导师吧？”他笑着说，“他让我来陪你。你不会以为我们会让你一个人来这里吧？”

虽然我听过吉滕德拉的名字，当然也知道他响当当的名声，但这是我们第一次见面。我倾向于从家庭的角度来看待学术关系，所以我把导师的导师视作我的“师爷”。他的陪伴让我倍感平静和鼓舞，他完全无愧于这个称谓。演讲结束后，我被一群渴望了解更多细节的研究人员团团包围，而吉滕德拉成了我的救星。有他陪着，就算他什么都不做，我也觉得这不堪重负的一天可以熬过去了。我们之间也就此开启了一段持久的友谊。

在我的演讲结束后，大家展开了热烈的讨论。我突然意识到一件微妙的事情——我被问到的每个问题都与算法本身有关：你是如何建立贝叶斯方程来估计后验概率的？你是如何估计图像的先验分布的？你提到使用最近提出的变分推理算法来优化模型参数，能详细说说吗？在未来的改进中，你打算如何扩展算法？算法在不同情况下可能会有什么表现？

我们选择的机器学习算法的数学核心是“贝叶斯网络”（bayesiannetwork），这是一种概率技术。接二连三的问题都是有关这种技术的，但没有一个人问及我们训练算法时所用的数据。数据被公然视为一种惰性商品，只在算法需要时才重要，虽然这种观点并不稀奇，但我开始意识到，有一些重要的东西一直都被低估了。

我们算法的决定性特征是能够从只看过一次的图像中学习新的事物类别，而这一特征对数据的依赖极大。究其根本，是因为我们的算法已经见识到林林总总的各种事物，获得了感知体验，才可以在面对新事物时展现出卓越的识别能力。

事实上，我越想越觉得奇怪。数据具有微妙而神奇的力量，为什么这个话题从未得到任何关注呢？我们的实验材料极少，只不过是从几个随意选择的类别中拿出几百张图片，却获得了意料之外的结果。这不禁让人思考：如果少量数据就可以实现如此强大的能力，那么更多的数据又将带来什么呢？这个问题越想越觉得具有启发性。

如果数据量大得多呢？

“差不多了……等一下……”我又跟彼得罗在红门咖啡馆一起吃午饭，他又要把我们的拼盘摆成他的霍克尼拼贴画系列新作，我又浪费了几分钟的用餐时间。“完工！”

“嗯，非常漂亮。”我说。我现在连假装欣赏的样子都不做了。

彼得罗微笑着看着他的作品，他显然察觉到了我的不耐烦，但他并不在意。我从他手里拿回托盘，开始吃饭。

“我一直在想我们的单样本学习论文。”他转移话题说，“我为我们取得的成就感到自豪，但我们都知道，数据才是真正的主角。”

我一边咀嚼一边点了点头。

“所以我们要是创建一个全新的数据集，你觉得怎么样？这次的规模要更大。我觉得我们可以从头开始全部自己来做。”

我继续点头。

“我的意思是，如果所有这些新数据本身就是达到下一个阶段的关键所在呢？”

这是一个大胆的想法，足够冒险，但也有一丝成功机会，所以会很有意思。

“那我们从最显而易见的问题开始：我们的新数据集应该包含多少个图像类别呢？”

我放下叉子，思考了片刻。加州理工学院有史以来最大的数据集中包含了7个随机选择的类别，所以明智的做法似乎是稍微增加一点儿，凑个整数。

“10个怎么样？”我提议道。

彼得罗皱了皱眉头：“是比之前多了点儿，但我觉得是不是有点儿过于循序渐进了？”

我欣赏他勇于冒险的精神，但也不得不考虑现实情况。我知道收集、标记和组织图像的实际工作将会落在我身上，所以我总是尽力平衡我们的研究需求和日常生活的实际问题。

“好。那就15个？”

彼得罗听到后狡黠地笑了笑。