我看见的世界：李飞飞自传 05 第一道光

“那还有什么好说的呢？”

面对我的含糊其词，母亲的回应总是一针见血，速度之快让我得花点儿时间才能反应过来。三步绝杀，一剑封喉。我要去读研究生了。

普林斯顿大学的教授们常说，研究生学习不仅仅是另一个学术里程碑，更是一个转折点，代表着从学生到成为真正科学家的第一次转变。研究生学习将把激情转化为旅程，将兴趣转化为身份，将这段教育经历锤炼为事业、声誉和生活的基础。这种看法令人鼓舞，让我所面临的问题变得明确，但同时也让它变得更加费解。我知道自己想成为一名科学家，但究竟是什么样的科学家？究竟是为了什么目的？我怎么才能找到答案呢？

在加州大学伯克利分校的经历让我看到了智能的奥秘，也让我认识到，深入理解视觉可能是解开智能之谜的关键。然而，在视觉研究领域，我面临着两个选择：神经科学和计算科学。神经科学可以让我更深入地了解大脑的能力，而计算科学则可以利用工程学的原理来建模，甚至复制智能能力。

我决定两者兼修。

同时研究神经科学和计算科学的组合并不常见，至少在当时的硕士项目中是这样。不过，也有少数几所院校可以满足我的需求，只是需要花费一些精力去寻找。事实上，我的运气非常好，有两所排名世界前列的学校恰好提供了我想要的课程。

第一个选择是斯坦福大学的双轨项目，融合了神经科学和电子工程学，由戴维·希格（davidheeger）教授领衔，他是少有的在两个领域都拥有丰富经验的学者。课程的每个细节似乎都是为我量身定做的，只是有一点不太合适：这是他在斯坦福大学的最后一年，他离开后，这个项目也就停了。

于是我排除了这个选项，将目光转向了麻省理工学院的项目。我觉得这个项目更符合我的兴趣。项目是托马索·波焦（tomasopoggio）博士精心打造的，他是计算机视觉这个相对冷门领域的第一代研究者。即使在当时，波焦的工作也已经给我留下了深刻的印象。现在回想起来，我才意识到他的工作是多么超前，这让我对他更加敬重了。波焦直接从大脑结构中汲取灵感，建立了一组名为“关联主义模型”（connectivistmodel）的算法，用于识别图像内容。这种信息处理系统内部的结构密集交织，与神经网络并无二致。

我还有一个学校可以考虑：加州理工学院。这所学校有着悠久的历史，其世界闻名的喷气推进实验室与美国国家航空航天局保持着密切的合作，但不可否认的是，加州理工学院在排名上处于劣势。斯坦福大学和麻省理工学院是全球最负盛名的学术机构，拒绝其中任何一家的录取通知书似乎都很难理解，更不用说同时拒绝两家了。但要说起与我的个人偶像之间的联系，加州理工学院有一点远超其实力所及，即费曼、密立根，甚至爱因斯坦本人都曾在这里讲学。至少，我无法抗拒去学校参访的机会。

从乘飞机抵达帕萨迪纳的那一刻起，加州理工学院在气候方面的优势就显而易见了。这是我第一次来到南加州，当地的天气果然名不虚传，气候干爽，阳光明媚，热气袭人，与新泽西的潮湿形成鲜明对比，让我仿佛瞬间来到了一个避风港。从遮天盖地盛开的鲜花，到池塘里慵懒地晒太阳的乌龟，南加州的城市风貌也让我感觉新奇不已。在学术氛围方面，麻省理工学院和斯坦福大学都无可挑剔，但加州理工学院却更似世外桃源。虽然校园很小（甚至跟普林斯顿大学小小的校园相比都相形见绌），但这里的活力把我征服了。在普林斯顿大学那庄严的大教堂式建筑中度过了这么多年后，加州理工学院色彩斑斓、高大明亮的西班牙殖民时期建筑让我感觉仿佛置身于另一个世界。与物理有关的观光机会随处可得。我一眼就看到了爱因斯坦骑自行车的著名照片拍摄地，不经意间路过了密立根图书馆，还碰巧看到了费曼做过著名演讲的礼堂。

在加州理工学院参访期间，我所看到和感受到的一切都表明，这里就是我的归属。虽然气候原因听起来微不足道，但有机会逃离美国东北地区的暴风雪，摆脱多年来的严寒之苦，本身对我来说就有很大的诱惑力。而真正把这种“怦然心动”变成“心意已决”的，是我即将追随的导师们。

第一个将要担任我的导师的是彼得罗·佩罗纳（pietroperona），他全身上下散发着意大利人的魅力，将学科边界视为无物，在跨学科研究中游刃有余。他在电气工程系，但热爱认知科学，和我一样希望把两者结合起来。第一次跟他交流时，我就觉得他兴趣广泛、知识渊博。

“飞飞，我很好奇，你对墙上的那幅画有什么看法？”

彼得罗指着一幅装裱精美的海报问我。海报上，大胆的原色被不规则间距的正交线分割成正方形和长方形。

在普林斯顿大学的时候，我抽时间上过几门艺术课，于是我高兴地指出这是蒙德里安的作品。

“我一直很喜欢他的作品。”彼得罗继续说道，“几何的简单性总是能让我停下来思考。”

“具体是思考什么呢？”我问。

“思考是否有一些指导规则，或者至少是解释规则。”

“规则？你是说……比如算法？”

他笑了笑，接着说：“你不感到好奇吗？如果测量蒙德里安每幅画的比例，结果发现了某种特定的模式，那不是很有意思吗？”

我也报以微笑。我不知道他在多大程度上是认真的（我几乎可以肯定他是在和我开玩笑），但我喜欢他会花时间思考这样的事情。他聪明过人，喜欢冒险，又不时展现出天真的一面。我觉得自己一直在等待遇到这样的思考者。

第二位未来的导师是计算神经科学家克里斯托夫·科赫（christofkoch）。与彼得罗类似，我第一天就在克里斯托夫身上看到了优秀科学家都具备的特质：拥有无限想象力，同时敢于面对这种想象力带来的挑战。他在生物物理学方面已经有很高的造诣，但仍在不断精进创新，让我深感钦佩。像彼得罗一样，他渴望跨越学科界限，将不同学科融合发展，也鼓励我追寻同样的道路。我们两个有着相同的背景，他也是物理学专业，以前也是波焦的学生。但在第一次见面时，我发现他的头脑中蕴藏着一种深沉的哲学激情，这种激情主导了我们的第一次谈话。

“飞飞，你有没有想过怎么跟色盲解释颜色是什么？怎么用语言来表达‘看到红色’这种体验？”

嗯……我从来没有想过这个问题。

“我们非常熟悉颜色，但似乎无法用语言来描述颜色，这不是很奇怪吗？我们只能说到颜色。当我说‘蓝色’或‘红色’时，你就知道我是什么意思，但这只是因为你已经见过这些颜色。我的话只是唤起了你的回忆，并没有传递新的信息。”

他的话让我陷入了沉思。

“所以，想象一下，如果未来的人类完全理解了视觉的工作原理，那么你觉得他们能掌握用第一原理来描述红色的能力吗？”

我想了一会儿。

“难道这不是必然的吗？我的意思是，如果真的‘完全理解’，那必然会具备这种能力。”

“你的回答完全合理。但前提是可以在还原主义描述中找到对这种经历的描述和解释。如果找不到怎么办？我们该如何处理这个矛盾？视觉是一种复杂的现象，也许是最复杂的现象之一，但仍然是一个物理过程：物质的表现遵循物理定律。然而，从主观上讲，我们的经验难道不是非物质的吗？为什么看到红色会让人觉得是一种主观感受呢？”

这些都是我以前从来没有思考过的问题。他的不断追问让我对他挑战我的能力有了全面的认识。

这两位导师的组合很有意思。他们俩都身材高大，看上去年龄相仿（我猜测都在40岁左右），但体形却截然不同，彼得罗比较健壮，克里斯托夫则相对清瘦。两人的口音都很重，一个是意大利口音，另一个是德国口音，但说起话来都幽默自信，也非常随和，让咄咄逼人的追问也显得没那么可怕。彼得罗穿衣是学者风格，穿着纽扣衬衫和米色夹克，衬衫下摆总是塞进裤子里；克里斯托夫则对自己浮夸大胆的着装风格引以为豪，他喜欢刺眼的荧光衬衫，还喜欢把头发染成漫画书里的颜色，比如绿色或紫色。

然而，他们有一点相似到离奇的程度，那就是都有一种只能用“陶然自得”来形容的好奇心。这使得他们说的每句话都极具感染力。他们自由奔放，总会毫不迟疑地就复杂的话题提出探索性的问题，仿佛只需聊上几句，就能解开生命中最深奥的谜题。尤其是克里斯托夫，他经常沉浸在自己的思考中难以自拔，即使我们两个人在交谈，他似乎也更喜欢在自言自语中探索这些问题。但他的专注并不是因为冷漠，而是源于天真，就像一个被白日梦弄得神魂颠倒的孩子。看到他这个样子，我就会想到常常心不在焉的父亲，觉得特别可爱。

这么多年来，我一直生活在自我怀疑之中，努力掌握英语，为人处世也变得谨小慎微。但奇怪的是，我被他们这种漫不经心、旁若无人的性格吸引了。就像当初与萨贝拉先生相处时一样，我发现，如果其他人跟我有着对科学的共同热爱，那么我就会觉得我们是平等的同伴，哪怕只是友好地聊过几句。而在跟彼得罗和克里斯托夫这样的人对话时，我所熟悉的现实世界几乎变得无关紧要，仿佛我们在心灵相通，不受语言、地位或年龄的束缚。在我心目中，他们是我的新榜样：同样都是移民，他们不仅获得了世俗意义上的成功，而且成了卓越的科学家。

在加州理工学院参访的那个下午让我毕生难忘。这些导师都是学术界的巨头，能跟他们交谈几个小时是我的荣幸，更不用说考虑成为他们的学生了。还没有登上返程飞机，我就做出了决定。

人类的视觉能力进化范围广，演化过程复杂，因此我们几十年来都无法将这个能力用自动化复制也不足为奇。但如果这种情况改变了呢？如果我们能与机器共享人类对世界的感知，会发生什么呢？机器拥有自动化的速度，可以持续产出高精度影像，不知疲倦为何物。想象一下，无人机甚至卫星在森林、冰川和海岸线上空飞行，对全球的环境健康状况提供专业评估。想象一下，智能的非人类助手像人类助手一样帮助视力障碍人群应对复杂的环境。想象一下，机器人急救员将急救医护人员或消防员的判断与机器的耐力和恢复能力相结合，使搜索和救援变得更加安全。想象一下，自动医疗诊断能通过移动设备为世界各地的病人提供专家意见。

数字世界的机会也不胜枚举。视觉媒体发展百年以来，摄影、电影、新闻和电视等图像消费已经成为现代生活不可或缺的一部分。自计算机诞生之日起，文本和数字数据就可以自由搜索，但与之不同的是，仅仅是对图像进行粗略的搜索，都依然需要依靠人工来完成，耗时耗力，成本高昂。图像数据库规模极其庞大，人工管理分类早已无望，视觉智能机器能提供帮助吗？

从人工智能领域发展早期，这样的可能性就一直诱惑着研究人员。然而，他们很快就意识到，视觉理解的挑战极其复杂，这一点也被此后的每一代人反复证实。首先就是数据本身。数字图像是以像素的形式存储的，也就是说，单个颜色点用数字编码表示，因此在机器看来，像素只不过是一长串整数。如果算法想要像人类一样，根据有意义的概念（如人物、地点和事物）来理解图像，就必须对这个列表进行筛选，并找出以某种方式对应的数字模式。

遗憾的是，定义这种数字模式的难度很大，即使是定义直线或几何形状这样的简单概念也很难。人脸识别更是难上加难，因为人脸是有机体，变量非常多：肤色、比例、拍摄角度、光线条件、图像背景等，组合种类繁多，极其复杂。

从数据开始，谜题越来越难。例如，人类在看到事物之后，会形成更深层次的理解，那么被动观察行为和理解行为之间的界限究竟在哪里？我们对影像的感知包括由边缘和纹理形成的一团团的色块，我们会下意识地解读这些色块，这是一种纯粹的感知体验。而在我们有意识地处理所看到的东西之前，有多少次是下意识地看到了图像？研究人员很快就发现两者不可分割：看到即理解，因此科学挑战既存在于感官层面，又存在于智力层面。所以，视觉不仅仅是我们对智力的应用，实际上，它就是智力的同义词。

这就是视觉的魔力。视觉是一种非常精细的技能。虽然我们看到的世界只是光线恰好落在我们眼睛表面的映射，但我们从光线中获得的信息却能延伸到我们的全部经验。从感官输入到可靠、可操作的知识，这是一种近乎奇迹的转变，是人类大脑最了不起的一大能力。仅仅是转换任务的计算成本，就远远超过了仓库大小的超级计算机的计算能力，而对人类来说，所有这些都是由一个直径约12.7厘米的潮湿有机块体完成的。人脑对概念的认知深度让学术界的杰出人士也常怀谦卑之情。

要解开视觉之谜，并不仅仅是理解“人类如何看见事物”这么简单。视觉问题并不是简单的关于颜色或形状的问题，也不仅仅是在更大级别上进行数字运算的问题。视觉研究是对人类认知中一个核心现象的探索。视觉在很大程度上是人类身份和独特性的基础，无论是在生物学上、人际关系方面，还是在文化层面。研究视觉是通往我们体验最基础层面的旅程。很多时候，“所见即所知”，因此，了解我们如何看见，就是了解我们自己。

在研究生生涯伊始，我买了一本巨大的教科书。这本书在我入学前一年刚刚出版，装帧新颖，内容也极为领先。书很重，封面厚实，边角尖锐，第一次打开时，书页之间分离发出的声音清晰可闻。这本书将我的学术旅程的所有脉络都汇聚在一起，编织成一件艺术品，每次看到它的封面都会让我倍感振奋。

书名为visionscience（《视觉科学》），封面上的这两个词仿佛是专门为我选定的，描绘的是自加州大学伯克利分校的实验以来，我一直在努力追寻的道路。稍下2.5厘米处是斜体的副标题，更是激起了我的好奇心：photonstophenomenology（从光子到现象学）。在标题的正上方，凡·高《星月夜》的全彩画作占据了三分之二的封面。这本书内容翔实，阐述全面，注定要成为未来几十年的标准。我渴望学习书中涵盖的一切内容。

在黑暗实验室的时刻改变了我的一生，当时那些噼里啪啦的声音让我第一次瞥见了其他生物大脑的内部运作机制。如今已经过去了两年。两年的追求才刚刚开始。我对工程学这门充满挑战性的艺术很感兴趣，但我不想成为单纯的工程师。尽管我被神经科学的奥秘所吸引，但我也不想成为纯粹的神经科学家。我想不受约束，对两者兼而用之。

感谢命运之神的偶然眷顾，我遇到了再好不过的时机。当时的我还不知道，视觉研究是人工智能本身的产物。曾几何时，在人工智能大旗的感召下，各个领域的研究人员团结一致，共同努力推动这个领域不断发展，然而，随着旗帜的撕裂，不同的研究领域也四分五裂，各自为营，进入了持续十年的低迷期。神经网络和专家系统等设想一度令人兴奋，但最终的研发并未成功，初创企业关门大吉，学术界的兴趣也不断消退，又造成了一轮疏离。人工智能的发展再次遭遇寒冬，而我正身处其中。但冬天正在迅速离去，冰雪即将消融。