我看见的世界：李飞飞自传 06 北极星

“好吧。20个！”

他仍然不为所动。不会吧？

彼得罗后来告诉我，我提的数字已经很接近了，因为他本来想着30种应该差不多了。但他注意到我俩之间的对话似乎变成了一场谈判，而且我的态度非常慎重，于是他决定采取一种进攻的策略。

“我们搞100个吧，飞飞。”

彼得罗后来告诉我，当时我脸上的表情就像是被他判了死刑。这里面涉及的工作量太大了，未来几个月，我可能会丧失部分理智，还可能牺牲我渴望的社交生活（诚然这部分损失并不大）。但他的提议没错，一想到我们的模型在这种资源下的表现，我就会情不自禁地兴奋起来。不过，为了不让他得意，我尽力让自己淡然地接受了这个提议。当然，要做到不露声色，我还得再修炼几年。

随着我们的极限对话场景从记忆中逐渐消失，我对这个计划的看法也发生了改变。是的，策划100个类别的图片，让每个类别都包含各种各样的例子，这比我这辈子做过的任何事情都要费力（包括周末在干洗店干活）。但这恰恰是我想要的。我的北极星在地平线上闪烁，比以往任何时候都更加明亮。

“喂，飞飞。”

“妈妈，爸爸还好吗？店里怎么样？”

“有个顾客要改衣服，他不停地说一个我不熟悉的词，我觉得好像说的是缝什么吧，但是……”

接着是一阵奇怪的停顿。“飞飞，我……”

她的呼吸越来越急促。我能听到她在电话那头的声音，但她似乎无法做出回应。

“妈妈？妈妈？你没事吧？”

坏消息总是在最不合适的时候出现。两年的研究生课程已经让我的体力和毅力达到了崩溃的边缘，在这个时候得知母亲患上充血性心力衰竭，我的感受无法用语言来表达。

事后看来，几个星期前她就明显感觉不舒服了。

家里的干洗店基本上相当于母亲独自一人在经营，压力巨大。我以为她只是需要休息一下，于是让她来我这边几天。但下了飞机后，母亲呼吸困难，面色苍白，我这才意识到她的病情比我想象的要严重得多。显然情况已经非常紧急，但父母都没有医疗保险，我也不知该如何应对。惊慌之下，我给所有我能想到的人都打了电话，最终有人介绍了一位在尔湾一家私人诊所工作的会说中文的医生。虽然开车过去要将近两个小时，但她是唯一一位愿意接待自费患者的医生，还好心给我们打了折。医生很快就做出诊断：母亲的心脏状况十分糟糕。

萨贝拉先生依然是我的安慰之源。“你妈妈怎么样了，飞飞？”

“医生说没有生命危险。还好我们及时发现了。”

“谢天谢地，你还好吗？”

我叹了口气，把一切都和盘托出——我们家最新也是最不得已的计划。我们的干洗店已经经营了七年，现在我们别无选择，只能把店卖掉。当年，在所有其他选择看起来都遥不可及的时候，干洗店成了我们家的救命稻草，然而，由于母亲的病情严重，就算父亲能帮忙，她也没有办法再经营下去。虽然生意尚可，但我们赚的钱远远不够雇人帮忙。是时候另谋出路了。

我还有一个更极端的决定：让父母搬到美国另一端的帕萨迪纳和我一起生活，我们再次共同面对在美国的生存问题。我的宿舍比我们在帕西帕尼的住处还要小，但这是我们目前唯一的选择。

萨贝拉先生在电话那边沉默了许久。“你还会继续你的学业，对吧？”他似乎察觉到了一些连我自己还没有去面对的东西。

“我不知道。”

又是一阵沉默，直到我笑着说：“你觉得我至少可以在报税单上把父母申报成为我的受扶养人吗？”

一个新的现实正在浮现，它如此复杂，动摇了我以物理学专业学生的身份走进普林斯顿大学报告厅以来所做的每一个决定。毕生的好奇心把我带进了一个竞争激烈、薪酬低廉、无法保障长久职业生涯的领域，而我的父母现在需要我无法提供的支持。我每天都在追求自己的梦想，这让我觉得自私至极，甚至过于鲁莽。我的实验室伙伴大多来自中产阶级，有些甚至家境非常富裕。我越是反思与他们家庭之间的差异，就越难以否认这样一个事实：成为科学家是一种奢望，我负担不起。

但故事并没有到此结束。

几周后，一位同学提到，世界知名管理咨询公司麦肯锡的合伙人过来招聘了。他们正在寻找一个实习级别的分析师，这个职位将提供丰富的在职学习机会，这意味着常春藤盟校里只要跟数学和计算机科学有一点联系的研究人员，都可以成为理想的候选人。在真正绝望的时刻，这似乎是一个值得考虑的机会。

当然，我以前也经历过这种情况。我的学术目标和现实生活之间一直存在冲突，我很想把这次事件也当成最近的一次小冲突。但这一次，我内心科学家的声音与以往不同。在母亲的健康状况受到新一轮的打击后，它变得不那么坚定，就连我内心那个特殊而戒备的部分也开始屈服了，我知道自己不能永远无视现实。我把犹豫抛到一边（这一举动现在竟然出奇地容易），买了一套远超我预算的衣服，小心翼翼地把标签藏在领子下面，这样穿完后马上就能退货。我申请了一次面试。

跟我预料的一样，一切都感觉很不自然，但我无法忽视的是，命运似乎从一开始就很眷顾我。这可能是我第一次有机会在学术世界之外以一个完全成熟的个体身份展示自己，我充满了平日里没有的信念。当然，我是个不折不扣的书呆子，但这只是我的一面而已：多年的奋斗锻炼了我，让我拥有其他候选人从未有过的拼搏精神，以及一种实用主义本能（我现在才意识到，这种务实使我与众不同）。然后，一个近乎滑稽的巧合出现了。

麦肯锡公司的代表首先说道：“我们喜欢围绕假想的商业场景来组织面试。当然，没有人指望你真正了解这个行业，所以就把它当成一种创造性的练习。我们只是想了解你的直觉，你知道，就是分析推理之类的东西。”

很简单，我想。

“我想让你想象你是一位经理，比方说，服装业的经理。”

哇。

面试开始时不过是例行的评估，却意外地逐渐演变成一场内容丰富的对话，从我对物理学的热爱和对智能奥秘的痴迷，到洗衣店供应商的世界，再到我作为干洗店主管的业余职业生涯，等等。尽管感觉很不可思议，但谈话似乎进行得非常顺利。

招聘人员显然也是这样认为的。麦肯锡公司立即给了我肯定的回复，并决定将我的实习机会转为长期的正式职位。

我的心中五味杂陈，难以言表。一方面，我将要抛下这么多人和事——加州理工学院、彼得罗、克里斯多夫、吉腾德拉、我的同学们和我所知道的一切，最糟糕的是，要放弃追求一个具有历史意义的梦想的天赐良机，放弃我的北极星，一想到这些，我的胃里就感到一阵阵难受。另一方面，我亲眼看到父母多年来濒临绝境，越来越觉得他们是为了我才做出这么大的牺牲。这份工作似乎让我终于可以卸下长久背负的重担，而我却从未充分认识到这个重担的分量。为了我能来美国，母亲已经付出了一切。我知道现在是她最需要我的时候，我终于可以报答她了。我径直回到家里，准备分享我认为的好消息。

“飞飞，你穿这个去实验室了吗？”

我低头看了看——我都忘了自己还穿着面试的衣服。“哦，是的。”我敷衍一笑，“别担心，这套衣服特别划算。”我说着，向她展示了依然完好无损的标签。

“发生了什么事？”她更加困惑了。最近的生活太混乱了，我还没来得及跟父母说我的计划。

“妈妈，我们得聊聊。”

我跟她说了面试、工作机会和其他所有的一切，告诉她待遇、起薪，以及在我还没来得及答复之前，他们就已经提出了优厚的待遇。我解释说，无论从哪个角度来看，这都是通往每个移民母亲都希望自己孩子拥有的职业生涯的捷径。她礼貌地听着，但我还没说完，就在她脸上看到了那种熟悉的表情。

“我们真的要再次讨论这个问题吗？”

“妈妈，我知道，但听我说——”

“我了解自己的女儿。她不是管理顾问，或者其他什么职务。她是个科学家。”

“想想你的身体吧，妈妈！想想我们的开销。搞学术能给我们带来什么呢？”

“飞飞，我们走到这一步，不是让你现在放弃的。”

“这不是放弃！这是我梦寐以求的工作，一份事业，可以让我们摆脱目前的困境。看看我们现在活成什么样了！三个大人住在一个宿舍里！”

我不确定自己是否相信这些话，但它们似乎是对的。母亲停顿了一会儿，也许是在思考这些话，然后回答说：“飞飞，你一直在说自己走的路很‘自私’，就好像你追求科学是在牺牲我们一样。”

“我怎么能没有这种感觉呢？我现在本来可以养活咱们全家，而且——”

“你没明白我的意思。这从来就不是你一个人的路。从一开始，这就是我们全家的路。不管你是注定要成为科学家、研究员，还是其他我没有办法想象的职业，也不管你能不能从中赚到钱，从我们的飞机离开上海的那一刻开始，我们全家就一直在为这个目标努力。”

我不知道该说什么。

“我再说最后一次：我们走到这一步，不是让你现在放弃的。”

她是对的。她总是对的。这一次，不知什么原因，我终于听进去了她的话。我再也不会质疑自己的道路了。

“嘿，那狗叫什么？”吃午饭的时候，我隔着空荡荡的实验室问一位同学。

“哪个？”

“就是身上有棕色和白色的毛，可能还有点儿黑色，耳朵耷拉着，特别可爱的那个。天哪，我一点儿也想不起来这种狗的英文名叫什么了。”

我们在思考只有研究生才敢面对的宇宙级问题。

“我知道是字母b开头的……等等，别告诉我……”

我伸手去拿书桌上的那本英语词典。我成为美国人已经将近10年，尽管互联网逐渐取代了我们生活中的许多物品，但这本字典仍然要偶尔充当我的救命稻草。我翻了几页，一直往下扫视，直至看到……

“对，是beagle！小猎犬！”

“好吧，小猎犬怎么了？”

我停下来，又看了看那一页。我都忘了自己为什么会提起这件事，但没关系。我突然意识到另外一件事。

我和彼得罗的目标是建立一个包含100个图像类别的数据集，但我们一直在苦苦思索如何决定应该包括哪些类别。我们担心如果由我们自己来选择，结果可能会带有偏见——甚至在潜意识里，我们会倾向于选择我们知道算法更有可能成功识别的图像类别。

我眯起眼睛，更仔细地看了看词典。词典对某些词的解释有一种优雅的意味。大部分词是名词，强调的是有形的、看得见的东西——换句话说，就是物体，或者像小猎犬那样的动物。这些看上去正是我们想要的类别。而且每个字母开头的名词数量基本是均匀的，我觉得分布得很公正。于是我想：让词典来替我们做选择，如何？

一切堪称完美。这么多年我一直带着这本板砖一样的大词典，现在它竟然成了我作为计算机视觉研究人员实现理想抱负最有用的工具。看来，有时候移民身份还是有好处的。

抛开早期的灵感乍现不谈，建立完整的数据集耗时漫长、进展缓慢，而且无聊乏味。我们花了几个月的时间手动查询图像搜索引擎，挑选出最好的结果，然后裁剪和调整照片的尺寸，确保一致性。一个由三到四名本科生组成的小型标签团队也参与到其中，已经搬来与我同住的母亲也想办法帮忙。

虽然图像整理是个苦差事，但这个过程让我深受启发。在对视觉世界的多样性进行深入思考之后，我开始以一种前所未有的方式看待这个世界：视觉世界本身是单一的现实，其中包含了手风琴、搅拌机、手机、龙虾、比萨、停车标志、雨伞和其他各种各样的东西。这是一种诗意的存在。我意识到这个世界是多么丰富多彩、变幻莫测，而我们留意到的细节却少之又少。

浩大的工程终于完成。我们的图像集于2004年完工，成为有史以来为机器学习配置的最大规模的图像集合，里面有超过9000个图像，分布在100个类别中。这是前所未有的，我迫不及待地想看看这个图像集能解锁什么奥秘。我们觉得自己被赋予了前所未有的力量，就好像突然拥有了一件超自然的神器，将赋予我们的创作难以想象的能力。另外，我还忍不住实现了一个细节：我独自完成了一个新类别的图像整理，虽然耗时耗力，但我想用这种开玩笑的方式“嘲笑”导师。如果彼得罗想要100个类别，我就给他101个。

新数据集的官方名称叫“caltech101”（加州理工学院101类图像数据集），这套训练图像集内容极其丰富多样。我们现在的模型利用了caltech101，性能显著提升，于是我们立即发表了一篇关于单样本学习论文的后续文章。无可否认，模型准确度的提升只是在原来基础上的增量，因此它并没有像第一篇论文那样获得突破性成功，至少在一开始没有。但这个模型树立了更加持久的典范，成为其他开发团队效仿的榜样。模型绘制的性能曲线成为行业基准；在六个月内，来自世界各地的研究人员都将我们的论文引作标准，其中很多人的模型还超越了我们的模型。发表自己的研究成果固然令人兴奋，但知道自己在为他人的构想做阶梯，哪怕只是在他们成功推动该领域发展的过程中扮演了微不足道的角色，也让人无比激动。

很明显，加州理工学院的生活不会轻松，但我对这里的感激之情比以往任何时候都更加深厚。我们卖掉了干洗店，这是我们来到这个国家以来，母亲第一次有机会休息（我也很开心——以后再也不用为了什么浆洗过度的衬衫裙接到长途电话了）。最重要的是，我对学业充满了热情，几乎付出了全部努力，以至每天都会感到筋疲力尽。

幸好，在加州理工学院，不难找到像我这样痴迷的人。我在彼得罗的办公室外就遇到了这样一个人。当时，我听到两个明显是意大利口音的声音，我很快便得知，除了我熟悉的彼得罗，另一个声音来自我尚未谋面的研究生同学。他身材高大，说英语时意大利口音特别重（相比之下，彼得罗可以说没什么口音了），他满头乱蓬蓬的卷发，在房间的另一头显得格外显眼。那天他正好赶时间，在彼得罗介绍我们彼此认识之后，我们的第一次见面就匆匆结束了，很快我就忘了这件事，不过我记住了他的名字：西尔维奥。

西尔维奥会来参加我们的实验室会议，很快就吸引了我的注意。跟我一样，他经常以讨论艺术作品作为演讲的开场白。他很喜欢埃舍尔的《手与反射球体》和维米尔的《戴珍珠耳环的少女》等作品，而这些作品都与他在研究中探索的视觉世界的各个方面有关——扭曲表面反射的轮廓、金属表面的闪光，以及日常物品的三维本质。当然，这些赏心悦目的画作很快就让位于堆积如山的方程式。我们在一起的时间越长，我越意识到我们之间有一个共同点，那就是无论在什么情况下，我们都无法抑制自己的好奇心。

“快看！看那辆摩托车！”他兴奋地大喊，完全破坏了原本只是一次轻松校园散步的气氛。

“怎么了？”

“你看到镀铬排气管了吗？看到反光了吗？这里面包含了很多信息。你看到了没？排气管的弯曲方式？”

“对，我明白你的意思。”

“但问题来了——到底什么叫‘反射’呢？反射只是表面周围世界的扭曲图像而已！这个扭曲的方向跟排气管的弯曲方式几乎完全相反，但我们却能够从反射的图像中获得足够多的信息，毫不费力地在大脑中想象出排气管的形状。这就是我们想要设计的算法。”

我心想，天哪，这家伙真是个呆子——不过，我俩呆到一起了。

我是两个实验室的学生，一个是彼得罗的电子工程实验室，一个是克里斯托夫的计算神经科学实验室。我每周跟他们分别见一次面，参加期刊俱乐部，一起评论神经科学和计算机科学方面的最新文献。另外，因为两个实验室都免费提供食物，所以我的饮食状况比预期的要好。然后，西尔维奥出现了，我们陷入热恋，虽然两个人都特别忙，但有限的闲暇时间总会在一起度过。

随着我在加州理工学院的岁月流逝，另一种东西在我内心深处扎根发芽。我反思了我们所做的一切：我们的心理物理学实验，我们对单样本学习算法的研究，我们对caltech101数据集力量的展示，我们阅读的几十年的文献。我同时跟随两位导师，他们带领我在不同的道路上探索，让我拥有了非常特殊的研究生教育。我开始理解我们工作的优雅之处。我们所做的一切都绝非偶然；我比以往任何时候都更加确信，分类是连接一切研究的核心思想。我也相信，事实将很快证明，分类在理解视觉（甚至整个人类智能）方面起着至关重要的作用。

那么，为何进展依然如此缓慢呢？

总结成一句话来说：因为我们的算法出现了数据科学中所说的过拟合现象（overfitting）。也就是说，无论算法设计得多么巧妙（我们探索了所有能找到的算法），即使是那些在测试中表现最好的算法，在遇到新的刺激时，也会很快出现问题。那些看似经过有效训练的算法，却无法将它们所学到的知识，或者说它们本应学到的知识，应用于现实世界。从本质上讲，这与人类的感知能力恰恰相反。人类的感知能力是由泛化能力决定的，泛化能力增强了我们的灵活性和适应性，甚至让我们富有创造力，让我们能够随时利用新想法的力量锐意进取，而不是停留在过去的经验中止步不前。任何缺乏泛化能力的生物都会很快被自然界的不可预测性击垮，因此这种能力是生物进化思维的关键特征。然而，对机器来说，泛化在很大程度上仍然是遥不可及的。

在我们试图解开过拟合之谜的过程中，算法本身是一个自然的起点。具体来说，需要研究算法如何从训练数据中学习。我们探索的大多数算法都非常复杂，无法手动配置，用专业术语来说，是“计算难以实现”。其中包含的无数参数的排列组合范围庞大无比，就像一个延伸到视野之外的旋钮和开关控制面板。相反，自动化技术通过长时间的迭代试错，可以接近理想的参数平衡。多年来，相关技术的改进一直是计算机视觉研究的重要支柱。

但caltech101鼓励我们更深入地思考数据，这反过来又激发了我们的好奇：等式这一边的数据是如何导致过拟合问题的呢？毕竟，如果没有数据，“机器学习”中的“学习”对象就不存在了。尽管数据的重要性不言而喻，但这个话题缺乏物理学、数学或统计学所具备的精确性。像彼得罗和吉滕德拉这样的研究人员是为数不多的几个对数据进行了深入探索的人，我认为他们形成了理解这一问题的最佳直觉。我们发表的论文似乎表明，随着数据集的增大，我们的算法的能力也相应提升——至少相对而言是这样。即便如此，数据的筛选感觉更像是黑魔法，而不是一门科学。

我开始思考我们可能犯了哪些错误。也许应该调整训练图像的方向？或者增加数据的多样性？是分辨率的问题还是相机质量的问题？或者，有没有可能101个类别都不够？——我都不愿意往这个方向想，更不用说将它说出口了。我对这些问题思考得越深入，它们就越明显，甚至是紧迫。但据我所知，在视觉研究领域还没有人提出这些问题。

我们的优势是数据量，可就连数据量的问题也显得扑朔迷离。我不得不承认，其实101这个数字并没什么特别之处，它不是经过证实的结果，甚至不是从理论中推导出的原则性估计。这只是我和导师在摆得像霍克尼画作一样的午餐盘上玩“胆小鬼游戏”的结果。这并不是突破性进展的前奏，难道这真的有那么令人惊讶吗？我再次回到文献中，这次是怀着复仇的心情。如果不是101个类别，那应该是多少个？200个？500个？还是1000个？我想，拜托，千万别是1000个。我下定决心，无论如何都要在茫茫文献中找到一丝线索。

我费了一番功夫，终于找到了一些资料。这些资料甚至来自一个熟悉的来源——现代视觉研究成果的主要贡献者之一欧文·比德曼。他的这篇论文发表于1983年，我上次读这篇文章已经是好几年之前的事了，应该是在凌晨两点跟其他一堆文献一起浏览的。现在，我们已经对单样本学习进行了大量探索，并真正实现了视觉分类的梦想，从中学到的一切让我开始以一种崭新的视角重新审视这篇论文的观点。

比德曼在论文中探讨的话题与我的研究领域并不直接相关，但其中的内容却非常有趣。他讨论了如何利用基本几何形状的知识来识别复杂的物体。在论述和推导结论的过程中，比德曼试图回答一个看似简单的问题：世界上大约有多少独特的“事物”类别？也就是说，如果把所有的事物都相加——包括“摇椅”“企鹅”“跑车”“拉布拉多”“山”和其他所有东西——总数会是多少？

这个问题听上去更像一个谜语，而不是科学挑战。但是，比德曼采用了一种基于对英语语言的分析的独特方法，令我非常钦佩。单词在帮助我们对所见事物进行分类方面发挥着基础性的作用，因此他推断，对所有离散且可量化的事物的单词（即英文中的可数名词）进行计数，将是一个很好的起点。然后，他又计算出每个可数名词有多少个真正不同的变体，就像“杯子”这样单一类别的物体可能包括带华丽把手的白色茶具、色彩鲜艳的咖啡杯和普通的透明玻璃杯。由于某些类别比其他类别更具多样性，他通过假设一个合理的平均值将问题简化为一个简单的乘法问题，从而计算出总数。

其中的逻辑简单明了，但他的想法之所以如此具有颠覆性，是因为其规模之大。这个想法立即揭示了我们的研究是多么有限，我们的想象力是多么有限，而这两者之外的世界又是多么广阔。这篇论文是一份模糊的影印版，但感觉就像比德曼在直接对我说：“你想要突破吗？这就是代价，这就是需要付出的。”

比德曼的数字可以为我们研究人员所追求的雄心壮志提供蓝图，而这个数字是巨大的。无比的大。不是1000个，不是2000个，甚至不是5000个。当然，更不是我们花了几个月搜集的那101个类别。

是3万个。

我完全不知道要对这个数字作何感想。创建caltech101已经让我感觉像是一项无比艰巨的任务，而现在又多了两个数量级。但我已经无法回避这个问题了。他的思想极具价值，具有真正的洞察力，其能量几乎在通过印在纸上的数字迸发出来。更重要的是，我知道无论这个数字注定要带我去哪里，我都将独自前行。我的研究领域仅仅专注于算法，但我对数据思考得越多（尤其是大规模的数据），我就越意识到，这是一个完全未开拓的领域。世界已经选择了它的方向。但我的北极星正引领我向另一个方向前行。