我看见的世界：李飞飞自传 09 万物以外是什么

whatliesbeyondeverything

深度学习革命已经到来，而我们还没有做好准备。报纸上的一篇文章让我看到了世界变化之快。我们的对手不是其他大学的某个神秘研究团队，而是谷歌。

“哎呀，有点儿吓人。”

这个学生说得没错。灯光闪烁了几下后，照亮了整个大厅，奇特的几何图形瞬间映入眼帘：一排排废弃的阴极射线管显示器摆放在地板上，似乎已深锁在黑暗中多年，不知是准备存放起来，还是要送去回收。整个大厅看上去像一个巨大的古董壁橱，尘封已久，无人问津。很难想象这里曾是学术要地。在2013年年初的一个普通的下午，我们手提垃圾袋，推着小推车，来到了世界闻名的斯坦福大学人工智能实验室曾经的中心实验室。

几十年来，曾经大胆自称“人工智能”的领域已经分裂成许多细分的学科，其中许多学科的命名抛却了其认知根源，转而使用更机械化的术语，比如模式识别（patternrecognition）和自然语言处理（naturallanguageprocessing）。在这个过程中，对中心实验室的需求逐渐消失。当然，人工智能中心实验室仍在支持重要的工作，包括在自动驾驶汽车和计算生物学取得的开创性成就，以及在针对现实世界现象的建模方面，关于概率和统计的新创意出现爆炸式增长。但斯坦福大学人工智能实验室与其支持的研究之间的联系更像是一种形式，而不是其全盛时期的共同使命。

然而，突然之间，人工智能的寒冬开始消退。神经网络等灵活的算法重新焕发生机，真正的大规模数据集横空出世，alexnet展示了算法和数据集在实践中的强大威力。这些曾经只有我最亲密的同行才会关心的发展趋势正在成为热门话题。我们的研究领域似乎正在走向统一，只是这面统一大旗的名称略有不同，是一个热度与日俱增的流行说法——机器学习。

起初，变化的迹象非常微妙，比如我和同事们开始收到更多媒体采访的请求。然而，最明显的变化是，越来越多的科研人员被科技产业吸引，一些人完全离开了学术界，前往硅谷发展，最初的涓涓细流正在加速形成滔滔洪流。其中有两个离职的人格外值得一提，因为正是他们在一夜之间改变了我的生活。

一个是塞巴斯蒂安·特龙。因为他的离职，我和西尔维奥终于有机会实现一直渴望的全家团聚。五年的两地分居虽然辛苦，但我们突然意识到，这五年的辛苦是值得的：在我追逐imagenet的同时，西尔维奥已经成为3d感知算法开发领域的领军研究者，而这也是我们系非常感兴趣的课题。在塞巴斯蒂安·特龙离开斯坦福大学，去帮助谷歌启动其迅速成长起来的自动驾驶项目时，西尔维奥凭借自己的声望成为填补特龙职位的热门人选。

出于显而易见的原因，我并没有参与对西尔维奥的招聘谈话，但西尔维奥在我心中的种种优点也都被同事看在眼里；他以压倒性优势获批成为斯坦福大学教师队伍的新成员。一个决定结束了我们长达五年、每周一次的跨州飞行，我们终于不用分居两地又共同抚养蹒跚学步的孩子了。母亲的身体一直不好，这意味着父母很可能会一直跟我和西尔维奥生活。毫无疑问，他回来后，家里会比以往更加拥挤，但这个代价微不足道。

另一个则是长期兼顾教育和硅谷领导职务的吴恩达，他卸任了斯坦福大学人工智能实验室的主任一职。在许多资深同事的支持下，我接任了实验室的第七任主任，也是首位担任这一职务的女性。于是，我联系了电子产品回收专家，并安排了一系列会议（会议提供免费午餐，以此来吸引我的教授同事们参加），着手重建斯坦福大学人工智能实验室。我对实验室的定位不仅是融资渠道，还希望将其打造成人工智能研究领域的社会活动中心、人际交往中心，乃至文化中心。

从普林斯顿大学来到斯坦福大学之后，我也一直在管理着自己的实验室。我的实验室名为斯坦福视觉与学习实验室，规模较小，位于盖茨计算机科学大楼二楼的东南角，靠近大学校园的边缘，与周围帕洛阿尔托的山丘融为一体。无论日程表上是否有安排，我都喜欢来这里转转。每个办公室似乎都有一群新学生，我都至少能找到一两个有空的学生聊上几分钟，谈谈他们的研究和一些漫无边际的设想。

对我来说，有一件事意义重大：我的第一批博士生即将毕业，其中包括耐心非凡的邓嘉同学。在完成imagenet之后，他身上的创新之火一直在熊熊燃烧，而现在距离获得博士学位还有几个月的时间，他的热情似乎越发高涨。他的风格也代表了整个实验室的状态：精神焕发、全神贯注、渴望探索。

然而，这也意味着邓嘉的研究变得越来越前沿，越来越辛苦。随着他自身学术研究的广度和深度不断扩展，显然是时候找一位继任者来承担竞赛的主要组织工作了。在我们实验室工作了一年的奥尔佳欣然接受了这一重任。从本质上看，我们的竞赛既是技术挑战，也是学术活动，而奥尔佳不仅悉心管理竞赛的诸多运营细节，还将自己打造成了一位能力超群的竞赛代言人。

与此同时，新一届学生加入了实验室，他们的迫切之情与老生的镇定自若形成了鲜明的对比。由于imagenet的成功，实验室吸引了一批特殊的年轻思考者。他们是在人工智能复兴时期就开始研究相关学术的首批学生，赶上了难得的际遇。他们已经足够成熟，能够认识到历史正在被创造；同时也足够年轻，可以在职业生涯起步时就抓住机会。

他们每个人都密切关注行业的最新进展，无论是通过网络、电视，还是在大厅漫步或与教授闲聊时偶然听到的谈话。这一切都预示着，未来似乎提前几十年到来了，这个时代为他们提供了超越以往任何时代的机遇。有史以来第一次，计算机视觉专业学生的抱负不再是争夺分散在全美各地的少数几个令人垂涎的教职职位，而是进入科技行业工作，加入初创公司或科技巨头。

在我们这样的学术领域，如此让人激动、回报优厚的前景并不常见。但我们的行动表明，即使是新入行的人，动机也并不复杂：面对绵延不绝的未知世界的地平线，我们从未像现在这样渴望探索。我们被雄心无限的创造力驱使着，夜以继日，废寝忘食。全球各行各业必然已经有了各自的imagenet计划，会以此为基础开发许多应用程序，但我们知道那是他们的道路，不是我们的。北极星仍在远方。我们的科学研究还没有结束。

邓嘉正在分享如何用一种创新方法解决图像分类失败的问题，他的幻灯片让实验室里爆发出阵阵笑声。这个主题乍看之下并不搞笑，但为了干扰算法，他用photoshop设计了一些怪物，它们有的古怪可爱，让人哑然失笑，还有的让人胆战心惊，有的长着斑马条纹和公羊角的袋鼠、从海浪中冒出的一直长着鲨鱼牙齿的小猫，还有一只皮肤上长满西瓜纹的河马。然而，真正让大家捧腹的是此时屏幕上出现的图片：一只鸭子的身体上长着一颗完整的鳄鱼脑袋，安静地站在公园里，两条小细腿看上去毫无负担，就像希腊神话中的怪物被改编成了儿童读物。邓嘉不为笑声所动，继续自己的演讲。他解释说：“我管这种动物叫‘鸭鳄兽’。”他的语气如此平淡，我甚至怀疑他是否真的相信这种物种的存在。“乔恩说这是‘鳄鸭’。不过，最重要的是看我们的模型如何对其进行分类。”他再次点击鼠标，这只鸭子和爬行动物的混合体上方出现了算法的描述，只有一个词：“动物”。

这个标签又引来了大家的一阵哄笑，但邓嘉依然不动声色，这是他的典型风格，低调而出彩。此次演讲以他最新发表的论文为基础，论文题目叫作《赌注对冲：优化大规模视觉识别中的准确性和特异性权衡》，由他与即将毕业的博士生乔恩·克劳斯（jonkrause）合作完成。他们在论文中指出，即使是最先进的图像分类器，也面临一个日益增长的挑战，即需要在面对模糊不清的物体时做出明智的判断。事实上，虽然“鸭鳄兽”无法被准确分类，但他们的模型并没有贸然做出肯定错误的猜测，而是顺势退而求稳，直接给出了更安全的“动物”分类，这就是模型的高超之处——毕竟，抛开奇怪的细节不谈，它看起来确实像是某种动物。

这项工作提醒我们，尽管我们的研究主要集中在视觉方面，但语言描述也是不可或缺的一部分。毕竟，没有wordnet，就不可能有imagenet。wordnet为每个类别提供了框架，使它们不仅拥有自己的标签，还能在相互连接的思维树中找到自己的位置。如果没有心理学家埃莉诺·罗施（eleanorrosch）的工作，很难想象wordnet会是什么样子。

罗施在范畴及其在思维中的作用方面做出了重大贡献，为我们对这一概念的现代理解提供了关键帮助。她在全球开展了一系列实验，主要研究人类是如何把世界概念化的，研究对象既有加州大学伯克利分校的研究生，也有巴布亚新几内亚的高原部落居民。虽然对范畴的研究可以追溯到亚里士多德，但罗施的实验方法将简洁清晰的逻辑与经验数据相结合，在20世纪70年代掀起了范畴研究的热潮。

在发表于1975年的开创性论文中，罗施提出了一组更精确的词语来描述“理解层级”。所谓的“理解层级”，是指从“一般”到“特殊”的光谱，无数概念都可以在这个光谱上找到自己的位置。以邓嘉的动物分类“鸭子”为例。“鸭子”存在于一个特定的细节层级上，与“鸭科”（包括鸭、鹅和天鹅的生物科）“动物”、“生物”以及最终的“事物”等浅层分类相比（罗施称之为“上义词”），要理解“鸭子”这一概念，需要更多信息；但与“野鸭”“鸳鸯”“环纹凫”等深层分类相比（罗施称之为“下义词”），理解“鸭子”所需的信息则相对较少。从整体上看，包括imagenet在内的类似层级结构就像一棵树。向树根移动，意味着更低的特异性和差异性，而向树叶（每根树枝的最远端）移动，则意味着更高的特异性和差异性。

邓嘉和乔恩将这种层级原则引入了计算机视觉领域。如果分类器有充分的理由相信它观察到的可能是鸭子或鳄鱼，却没有足够的信息来判断究竟是哪一种时，明智之举就是将其上移一级，选择概念更宽泛的上义词，以牺牲较深一级的特定性为代价，换取较浅一级的安全性。

猫鲨、西瓜纹河马兽、斑纹羊角袋鼠的奇观告一段落，接下来，他们要展示的是这项技术在更为实际的场景中如何有效地发挥作用。一只柯基犬的特写镜头被传统分类器错误地标记为“金毛寻回犬”，而他们的算法则会对冲风险，采用“狗”这个更加安全的标签；一辆外装奇特、涂装混乱的出租车原本被错误地贴上了“坦克”的标签，现在则被标注为“车辆”；如此等等。

我不禁注意到，大数据的力量又一次得到了充分展示。如果没有imagenet这一庞大的图像库，他们的研究就不可能如此精妙。imagenet不仅提供了探索层级概念宇宙所需的原始数据，更重要的是，正是由于其规模和图像的本体组织形式，不同的概念关系才得以被发现。无须告诉模型如何从较高层级的细节移动到较低层级的细节，也无须设计新的连接或路径列表。imagenet是如此全面，模型所需的一切都已存在其中。只需要一些新的策略，就可以充分利用之。

邓嘉和乔恩的“对冲”技术是我认为最有启发性的思维方式。对冲技术优雅而直观，一旦理解它之后，甚至会觉得它非常简单，但要完成开发，则需要真正的洞察力。他们的算法巧妙精确，是计算机视觉多种发展方式的杰出典范。

接下来的演讲提出了一个更广泛、更深奥的问题：如果我们反其道而行之，深入分支，那么等待我们的将会是什么？我们的算法将如何应对比其构建之时所能理解的世界更加微妙、更加复杂的世界？

接着，乔恩站起来回答。他来自俄亥俄州，温文尔雅，穿着t恤和工装短裤时感到最自在。他和邓嘉一样寡言少语，只是表现的方式更怪一点儿，比如，他很快就因迷恋小熊猫而出名，还打印了一张小熊猫的图片，一直贴在工作站显示器的上方。他也是一个不轻易屈服的人，就像我的实验室里其他顶尖研究人员一样，当他觉得有必要让别人听到自己的声音时，他会坚定地发表意见。

随着鼠标的点击，画面分成了两屏，一边是一辆汽车的照片，另一边是与之相对应的计算机辅助设计（cad）线框图，也就是汽车设计师绘制的示意图。然后，后一张图片被叠加在前一张图片上，用数字红线勾勒出真实汽车的格栅、车窗和车身面板的轮廓，突显了分类器为精确识别车型而需要准确辨认出的特征。

“汽车吗？”有人问。

“等一下。”乔恩会意地咧嘴一笑。

他不是在开玩笑。这是我们首次窥见一个比我们任何人意识到的都要大得多的话题。

我一直认为，imagenet的真正贡献在于它的双重性质。其庞大的规模之所以强大，是因为其中数据的组织遵循了本体层级结构，而其本体层级结构之所以强大，是因为数据规模足够庞大和全面，涵盖了如此多样化的类别。这两个优势中的任何一个单独拿出来都是不够的。但就像规模本身一样，“类别”这样的术语也是相对的。如同对冲技术所展示的那样，针对提出的问题，在多个不同的深度层级都能找到有效的类别答案。随着深入层级的加深，概念之间的距离变得更小，分隔的细节也减少了，例如：事物—生物—植物—树木—枫树—欧亚槭。

虽然imagenet规模庞大、细节丰富，但它并非完美之作。虽然有些分类特别精细（树木就是一个很好的例子），但有时候，一些明显存在差异的概念依然会被归为同一类别，概念范围相对粗略，同类概念之间的差异也较为明显。这确保了我们的分类器在很多领域都可以比较轻松地完成任务。

对某些事物来说，同一类别之间的差距微乎其微，汽车就是其中之一。邓嘉和乔恩下午的速成班就让我们见识到了汽车的复杂性。例如，我们可能会明显辨认出一辆丰田汽车的图片（仅管我们中的大多数人可能没有准备好讨论汽车）；经过一番研究，我们似乎也能确定这辆车是丰田雅力士。但到底是2008款还是2009款呢？这个问题一下子就把人难住了。是2008款丰田雅力士的炽烈蓝珍珠色，还是2008款的河口蓝珍珠色？当年两种颜色都有，而且都是……蓝色的。是炽烈蓝珍珠色的2008款丰田雅力士基础款，还是炽烈蓝珍珠色的2008款丰田雅力士掀背运动款？神奇的是，还可以再继续追问下去。这一切都是为了了解一个制造商生产的一个车型的一个款式。而这还只是汽车而已。

有听众指出，最近有几篇关于鸟类的计算机视觉论文，其中有59种鸟被imagenet收录，这个规模看起来已经很大了，但跟康奈尔大学一个涵盖了数百种鸟的数据集相比，就相形见绌了。然而据估计，全世界有超过1万种鸟，即使是最先进的数据项目也比现实落后了好几个数量级。我想到了科技媒体上那种激动的口吻，一篇又一篇的文章宣告着机器学习时代已经到来，图像分类难题突然“迎刃而解”。我不禁笑了：这个世界上的梧桐树、百灵鹤和丰田汽车可不是这么想的。

下午的这堂实物教学课程的内容后来被称为“细粒度分类”（fine-grainedclassification）。细粒度分类课题研究的是细节：识别的对象越相似，所需要的细节就越细微。乍一看，我们的研究只是从区分明显的差异延伸到了解析不太明显的差异，但这一过程却向我们传达了更加震撼和富有启发性的信息：即使是我们最大规模的设计，也还是想得过于狭隘了。

然而，科学最伟大的优点之一，就是能够将让人谦卑的一刻重塑为充满可能性的一刻。我们花了数年时间收集了数十亿张图片，招募了全球志愿者帮忙标注分类，但只要翻阅一下汽车杂志《凯利蓝皮书》，就能意识到，我们仅仅触及了皮毛而已。比起树叶，我们更接近树根。我们付出了多年的努力，与地球上最聪明的人展开全球竞争，最终也只是向真正的视觉智能迈出了一小步。

然而，当我环顾教室，我并没有在学生们的脸上看到惊悚或绝望的表情。我看到的是他们眼后的齿轮开始转动。毫无疑问，我们每个人都在想同一个问题：旅程尚未结束，我们还有很多事物要探索。

比德曼的数字的确很大，但这个虚构的数字很有必要，因为它把“万物”的定义做了删节，方便我们的思维和算法进行理解；当然，即便是这样的数字，我们的思维和算法也只能勉强应对。现在，我们站在了新的起点。我们身处广袤之境的悬崖边缘，即将找到“万物”以外的真相。

一个华丽的木制香料架引起了我的注意。我拿起来仔细看了看。父亲注意到我感兴趣的样子，走过来跟我一起观察。

“挺好看的，这个……”他说，然后又凑近看了看，“看着像手工做的，你不觉得吗？这里一定住着个木匠。”他放低了声音，好像不想让人听到他在说普通话。

可能是，我自言自语着，瞥了一眼另一张桌子：“那边有什么有意思的东西吗？”

“还挺多的，有些手套我很喜欢。还有一个特别漂亮的工具套装。我看到车库里还有更好的工具，但我觉得不是用来卖的。我觉得这个房主应该会做木工。”

生活往往是这样的：为人妻、为人母，同时追求自己的事业，所有的责任似乎在一夜之间爆发。虽然日程繁忙，我还是会偶尔抽出时间，陪父亲去参加他最喜欢的车库市场。我的生活步调似乎永远在加速，而跟父亲一起闲逛是难得的平静和怀旧时刻。他的爱好就像一个纽带，从我们在一个陌生国家最初的日子里就一直伴随着我们。我尤其喜欢他的用心和敏锐，看到陌生人车库桌上摆放的待售物品，就能推断出这个人的生活点滴。不管猜的是对还是错，他的尝试总是带着真诚，而且感觉合乎情理。

多年来，这也成了我的习惯。

又是一辆特斯拉。2012年年中，models发布还不到一年，就成了帕洛阿尔托随处可见的时尚标志。这辆车的车主可能是个技术男，或者是搞风投的。我经过的下一辆车没那么豪华，但也能反映一些车主的信息。那是一辆两厢车，车身漆成米黄色，但可能因为常年停在户外而已经褪色。看起来像是我的学生会开的车。

朋友约我去一家新开业的火锅店吃晚饭，我打开谷歌地图，找到了这家店，还用街景模式看了几张店面照片，这样从车上就能认出它。我无时无刻不在观察各种视觉细节。在大多数时间里，这种兴趣会消退为一种白噪声，但在今天开往火锅店的路上，我的注意力比平常更加活跃。如果说我有一半的精力是在导航去往吃晚饭的地方，那么另一半的精力则沉迷于沿途所见。

从个人到社区，汽车可以反映出人群方方面面的信息，但相关信息的评估规模却相当有限。历来的调查都试图收集这类信息，但聘请专业人员绘制整个城市的汽车保有量地图既昂贵又耗时，而且无法在中等规模以上的地区进行实际操作。那么，如果能够克服这些限制呢？如果在我们希望的任何规模上，都能进行汽车保有量分析呢？如果不仅仅是分析汽车，而是能分析一切事物呢？如果我们想分析什么，就能分析什么，结果会怎样？如果我们深入分析日常生活的相关数据，仅仅以这种简单的方式，能获得什么有关社会、文化甚至政治领域的新见解吗？这些问题似乎无法回答，除非我们创造出全新的感知方式。我突然灵感乍现：谷歌街景、汽车识别算法、细粒度分类——原来我们已经在创造新的感知方式了！

alexnet催生了新一代神经网络，每年都取得令人惊叹的飞跃。像任何占主导地位的生物一样，这种新型神经网络几乎垄断了它们所处的环境。它们是如此有效而优雅，适用范围又如此之广，几乎所有其他技术都在一夜之间被淘汰出局。仅在一两年前，支持向量机和贝叶斯网络等算法还是学术界的宠儿、研究人员的迷恋对象，而现在，这些算法几乎从会议讲座、发表的文章甚至实验室里的谈话中消声遗迹了，所有人都只想谈论神经网络的最新发展。

我们之所以知道这一点，是因为许多新的神经网络模型参加了imagenet挑战赛。自2009年imagenet数据集在计算机视觉与模式识别大会首次亮相以来，五年多时间里，imagenet挑战赛已经发展成为计算机视觉领域的基础赛事，为该领域的技术进步提供了共同的基准，这也是我们一直以来的心愿。为了避免任何明显的利益冲突，我们实验室的政策是不提交自己的算法模型，但仅仅是观摩比赛就已经成为一项定期活动，其重要程度可以与圣诞节相媲美。每年都有新的进展，机器表现与人类表现之间的差距不断缩小。机器的误差率越来越小，越来越接近人类的水平，也许未来甚至会超过人类的水平。

然而，技术表现接近“人类水平”的说法本身，会让人觉得是臆想，甚至是海市蜃楼。人类的能力维度是丰富多样的，远非任何单一指标所能衡量。但我们的缺点和优点一样具有启发性。例如，人类可以用各种常识、视觉线索和直觉来解释为什么自己认为附近树上的鸟是沿海蓝鸦，在这方面，人类比机器做得更好。但人类识别鸟类的能力是非常有限的，即使是经验丰富的鸟类观察者，也很少能识别出几百种以上的鸟类。因此，对普通的观察者来说，绝大多数鸟类是未知的。

在一般物体分类方面，计算机已与人类水平相差无几。当人工智能努力克服相差的最后几个百分点时，它似乎又在其他方面超越了我们，而且超越幅度极大，因为计算机在知识储存方面的能力让人类大脑望尘莫及。

从那时起，种种思考开始以新的方式连点成线。多亏了谷歌的街景系统，我们现在拥有了美国几乎每一个社区的高分辨率图像。虽然谷歌地图的主要用途是帮助导航，但它展现的关于世界的种种细节让我震撼不已。树木、路灯、邮箱，当然还有我们驾驶的汽车——街景图让我们有机会窥探到那些隐匿在我们身边的信息。想到我们实验室在精确区分汽车型号方面所做的工作，我就感觉街景图提供的机会像是又一次意外之喜。

我越来越觉得，我们研究的主题已经不是“视觉”这么简单了。把视觉敏锐度和百科全书式的知识深度结合，可以带来一种全新的能力。这种新能力是什么尚不可知，但我相信，它绝不仅仅是机器版的人眼。它是一种全新的存在，是一种更深入、更精细的透镜，能够从我们从未想象过的角度揭示这个世界。

我们精心挑选散布在互联网上的资料，不断扩充汽车模型的图片库。我想象着，如果要跟十几岁时的自己解释这种烦琐的工作跟科学有什么关系，可能很难说清楚。当然，具体的工作细节并不重要；它只是再次证明了我们实验室的核心价值：永远尊重世界的复杂性，并渴望不惜一切代价对其进行探索。我们感觉自己就像艺术爱好者在导游的带领下参观博物馆，每一个新的展品都在挑战我们，同时也激起了我们对周围无限细节的敬畏之情。

我们能如愿以偿、得到回报吗？我们没有浪费时间去担心这个问题，而是选择拥抱世界，接受世界的真实面貌，不妥协、不简化——仅仅是这一点，就让我们觉得这是一项值得为之献身的使命。无论我们了解世界的窗口是汽车模型、鸟类物种，还是其他事物（也许我们的下一个项目将探索各种铺设道路、爬行动物的鳞片、小提琴的饰面），每一步都让人感觉距离用全新的眼光看待现实的时刻更近了一点。无论我们发现了什么，我都相信这趟旅程是值得的。

与此同时，我们还要克服一系列常见的障碍。当然，规模是一个无法回避的挑战，但这次我们准备好了。在imagenet之后，我们已经习惯了处理海量数据所带来的巨大负担。我们仔细搜索了craigslist、、edmunds和其他一些在线汽车交易市场网站，生成了包含2657种车型的训练图像集，几乎涵盖了2014年在路上行驶的所有车型。我们把图像导入我们构建的最大、最精确的分类器中。我们还利用大量的谷歌街景图像，在服务器中填充描绘整个美国纵横交错的街道、林荫大道、拐角、十字路口和死胡同的照片。在我们的实验室里，世界的另一个缩影正在形成。不久之后，我们就可以直接研究这个缩影，揭开其中隐藏的秘密。

但要真正揭秘，还需要一番努力。我们计划以汽车为切入点，把汽车和车主的收入、教育和职业等身份方面联系起来，探索更大的社会经济问题。然而，我们不得不面对这样一个事实：货币价值上的巨大差距往往只能表现为外观上的细微差别。尽管我们可以轻易区分凯迪拉克轿车和丰田皮卡，但早期的实验表明，一个经过训练的“天真”的分类器很容易把凯迪拉克误认为本田雅阁，尤其是当两种车颜色相似时——这正是我们希望避免的错误。把凯迪拉克ats车型与cts车型区分开来难度更大，更不用说每个车型内部的无数变化了。我们发现，内饰的概念尤其令人头疼，因为总价数千美元甚至更高的选装包通常只是对车身样式和徽标进行微小的改动。

“各位，在休息之前，我有个想法要跟大家分享。”在我们每周一次的街景项目研讨会议即将结束时，一位叫蒂姆尼特·格布鲁（timnitgebru）的研究生开口说道。大家聚集在我的办公室里，这是盖茨计算机科学大楼三楼一个长方形小房间，完全符合人们对学术办公室的刻板印象——狭窄的空间里堆满了书籍、文件和小摆设，从书架往房间中央蔓延，让办公室显得更加拥挤不堪。学生三人组在四面杂物的簇拥下，挤坐在鲜红色的沙发上。

“我们的想法是将图像分类器应用到所有街景图像上，追踪所有我们能追踪到的汽车型号，看看能揭示出什么样的模式。我一直在研究，我想我们已经找到了完美的实现方法。”

蒂姆尼特是三位参与项目的学生中资历最浅的，但她充满激情，干劲十足，气场强大。虽然和我一样个子不高，但她天生自信，具备出色的演讲天赋，能轻松地掌控全场。邓嘉正在为他的博士论文答辩做准备，乔恩则忙于处理其他项目，因此蒂姆尼特毫不犹豫地主导了这项研究。

我们初次相遇是在一年前，她参加了我的一个高级研讨会。当时她还是电气工程专业的三年级研究生，几乎没有人工智能方面的背景。但我对她印象很深，不仅因为她是唯一一位攻读工程学博士学位的黑人女性，还因为她乐于提问，表现出了教授们一眼就能注意到的强烈的求知欲。当她请求加入实验室时，我毫不犹豫地答应了，甚至连推荐信这样的基本手续都免了。

她接着说了下去，我能从声音中听出坚定的信念。“美国人口调查局每年都会在全国范围内开展美国社区调查，追踪全国各地的大量社会学信息。”

“你是建议我们把这个纳入我们的分析吗？”

“可能性是无限的。人口普查绝对是数据宝库，所有数据都是按照社区、县、州甚至选区组织的，但收集这些数据需要花费海量的时间和精力。如果能把人口普查的数据和我们的分类器采集到的事物关联起来，你能想象会产生什么结果吗？”

她已经从理智上充分阐述了自己的观点，但最打动我的是她的热情。作为教授，我们最希望看到的，也是觉得最有价值的，就是学生能够独立提出新创意、新想法，甚至完全出人意料的观点。她的直觉没错。她帮助我们拿到了人口调查数据。仔细研究之后，我们不仅惊叹于数据的广泛性和多样性，还惊叹于它们所探讨的议题维度。我们手头拥有了全美范围内的政治、教育、收入甚至犯罪情况，所有数据都可以与计算机视觉这一关于世界的根本性新信号相结合。我们实验室从来没有遇到过这样的数据，它们为我们的工作注入了前所未有的力量。我们的项目已经不仅仅是数据挖掘这么简单了。

厨房里一片狼藉，但非常符合我的心意。西尔维奥好像在自家作坊里的工匠，娴熟地在散乱的锅碗瓢盆之间来回穿梭，偶尔拿起旁边摆放的器皿，还不时地从台面上的各种袋子、盒子和罐子里抓取食材。

“你在做什么呢？”我问。

“我就是想做点特别的晚餐，这是意式炖章鱼，我还准备了西葫芦意面、烤辣椒、布拉塔奶酪和芝麻菜什么的。”

“哇，我都等不及了，不过我们还是先把门关上吧。”

他知道我是什么意思。在一个三代同堂、融合了两种文化的家庭里，西尔维奥很快掌握了与我母亲共处一室的艺术。母亲对厨房的清洁要求几乎达到了极致的程度——她遵循着一边做饭一边收拾的信条，更准确地说，她的主要精力放在了收拾上，做饭只是顺便为之。尽管她很喜欢西尔维奥的厨艺，但像这样精心制作晚餐往往会导致家庭关系的紧张。我又欣赏了一会儿他的表演，然后暗自发笑。

“怎么了？”西尔维奥问。

“你知道吗，我觉得特别有意思。我一眼就能看出来今晚是怎么回事。我立刻意识到必须让妈妈远离厨房。看到锅碗瓢盆的奇妙排列，听到嘈杂声，我就知道你准备做一顿大餐，一进厨房就感受到了，都没有刻意去想。你知道这让我想到什么了吗？我想到了杰里米·沃尔夫。”

西尔维奥搅拌东西的手慢了下来。“沃尔夫……沃尔夫……哦，那个认知科学家？哈佛大学的？那个提出‘要点’的家伙，对吧？”

“记性不错！他好像1998年在哪本杂志上发表过一篇特别难懂的文章。不是研究结果，就是一篇观点文章，但绝对是我在加州理工学院读到的最有影响力的文章之一。我现在还在想里面的内容。”

杰里米·沃尔夫（jeremywolfe）是世界知名学者，主要研究视觉记忆的内部运作机制。他对人类迅速理解场景的能力非常感兴趣，因此大部分研究工作都据此展开。1998年，他发表了一篇名为《视觉记忆：你对所见之物了解多少？》的文章，尽管其语调近乎口语，但其中的结论却异常精辟。他说，当我们看到一幅图像时，我们的大脑会“记住场景的要点”。

“对，对。我记得当时觉得‘要点’这个词出现在这样的文章里特别搞笑。”西尔维奥一边用布拉塔奶酪、芝麻菜和西红柿摆盘，一边笑着说，不时还瞥一眼厨房门，确保门还关着。

“我喜欢这篇文章的一个原因就是他的语言风格。”我接着说道，“他的想法如此宏大，用词却非常直白。”

西尔维奥讨厌做饭时分心。我知道这一点，他也知道我知道这一点。但他也很喜欢谈科学，而且他早就知道，一旦我因为某个科学话题而兴奋不已、滔滔不绝，他最好还是认真听完。我微微一笑，知道他可能在切辣椒的时候还在心中默默提醒自己：要耐心听她说话。

西尔维奥补充道：“他的想法是，我们对某个事物的第一印象就足以让我们理解这个事物，至少在某种程度上理解它，对吗？”

“对的，其中当然包括像物体这样基本的东西。我们很擅长快速扫描事物，但我们更擅长留意它们的布局和排列顺序，就是角度、位置之类的。还有我们对这种顺序的解读。”

“事物之间的关系。”

“没错，但令人惊奇的是，我们做这一切都是不假思索的。在一瞬间就发生了，就像我今晚看到你做的菜一样……”

“飞飞？你在里面吗？”

是妈妈。我和西尔维奥面面相觑，瞬间睁大了眼睛。

“门怎么关着？”她继续问。