我看见的世界：李飞飞自传 12 下一颗北极星

“你知道吗，”我开始说道，“我当学生也不是太久以前的事，但那会儿，让计算机区分辨小猫和小狗都几乎还是科幻小说的情节。然后，深度学习在一夜之间改变了一切，我们的算法被用于我们曾经认为还需要几十年才能实现的领域。想想看，我们现在有多少人在谈论面部识别。记者、政客、活动家……突然之间，他们都提出了问题，而且都是好问题！这一切会导致更多的监控吗？会带来更有偏见的算法吗？甚至会导致人工智能武器的问世吗？一切都来得太快了。”

我们到了实验室。我在读卡器上刷了一下门卡，我们推开双扇门走了进去。

“我想说的是，”我总结道，“事情的变化可能会比你想象的要快得多。”

我知道我没有说服他，或者说没有完全说服他。虽然他心存疑虑，但还是很关注这个问题，一直在听我讲。愿意倾听就是一个好的起点。

新入行的人产生怀疑情绪是很正常的。但在实验室里，以人为本的精神随处可见，白板上还留着前一天晚上的项目笔记，这个项目的目标是在保护信息所有者隐私的同时，利用敏感信息对神经网络进行训练；另一个类似的项目则是在不影响最终模型有效性的前提下，将图像数据集中的人脸进行模糊处理。

我们甚至也开始用批判的眼光审视自己的研究成果。imagenet包含了我们最初从互联网上搜罗的数百万张照片，我们通过研究，对数据集吸收的偏见（包括种族、性别和性取向）进行量化。在研究结果的指导下，我们替换了大量图片，以更加平衡地展现人类群体的全貌，并删除了具有冒犯性的类别标签。

也许最鼓舞人心的——至少对我来说——是我们的工作从未如此贴近现实世界。一位初级研究员的机器夹不起吐司固然令人遗憾，但除此之外，这十年来，机器感知领域的复兴已经从根本上改变了机器人技术，现在已经很难将其与人工智能本身区分开来。仿佛是为了说明这一点，金属长凳上摆了两条光滑的机械手臂，它们的名字非常亲切，一个叫作“查理”，一个叫作“艾达”，正在耐心地等待下一次训练。如今，它们就像任何算法一样，已经成为我们实验室工作不可或缺的一部分。

当然，硬件再先进、再亮眼，也只是达到目的的一种工具。因此，我们工作的指导原则依然关注人类的福祉，而不仅仅是追求程序的效率。这就是我们与数字经济实验室合作背后的理念。数字经济实验室是斯坦福hai下属的成立不久的研究小组，这个小组利用美国劳动局的调查结果，以更好地了解人们对于自身工作价值的看法：他们在哪些方面欢迎自动化带来的便利，在哪些方面认为自动化的渗透具有威胁性，甚至是非人性化的。我首次意识到这种区别，是在跟阿尼一起研究环境智能的时候。我认识到，人工智能应始终致力于提高人类的能力，而不是与人类竞争。现在，这一理念成为我们实验室的基本价值观。这种价值观究竟意味着什么，这是每个研究人员都要自己回答的问题，但令人振奋的例子比比皆是。例如，我们实验室最重要的工作之一，就是对住宅、办公室和医院等日常空间进行极其细致的三维建模，而每个空间都有各种不同的种类、平面图和风格。我们努力让算法沉浸在人们生活和工作的环境中，沉浸在智能机器可能发挥最大作用的应用场景中，尤其是帮助身患疾病和残疾的人群。一个相关项目通过使用虚拟现实头盔和运动跟踪手套，帮助研究人员捕捉有形、有意义的任务（如叠衣服、准备食物等），并对动作进行数字编码，由此创建评估机器人性能的基准。还有一项研究探索了新的机器学习方法。研究人员设计出了具有天生好奇心的数字代理机器，并将其置于鼓励它们玩耍的虚拟环境中，因为玩耍是儿童与周围环境建立直觉联系的重要方式。

每一个故事都代表着一个变化——我们对数据的看法发生了变化，对数据的期望也发生了变化。我们曾经试图给算法类似百科全书式的意识，希望算法可以识别所有的类别和事物，而现在，我们的目标更为广泛。我们想对万事万物所蕴含的空间、时间甚至意义有更深入的了解。我们的目标不仅仅是数量上的增加，还有细节和细微差别的扩展。新的数据处理方法不仅仅是简单的整理和编目，而是要模拟整个环境，模拟在环境中展开的行动。这就是为什么随着技术复杂性出现爆炸式增长，我们研究背后的人本主义也在不断发展。要形成对现实生活的整体观，为了创造比以往任何时候都更加真实的世界表征，我们需要深度和保真度，而在我看来，即使目前最先进的技术也达不到这种需求。因此，我们再次热血沸腾，迎接挑战。我们再次需要进化。

当然，进化的确切形式仍是个谜，但耐人寻味的蛛丝马迹已经初露端倪。随着进化所需的数据集规模日益增长，组织足够的人力所涉及的成本、时间甚至伦理问题不断增加。近年来，更具影响力的发展之一是出现了越来越多的模型训练新方法，这些方法可以突破人工整理数据集出现的瓶颈。模型的数据处理能力主要包括模型规模、并行操作的能力，以及自主识别有用模式的能力（文献中称之为“注意力”）等方面。模型在数据处理方面的进展使得用大规模数据集进行训练成为可能。有时，数据集的规模甚至构成了互联网的很大一部分。以文本为例，训练数据通常包括整个维基百科、各大图书馆的书籍和学术期刊，甚至是像reddit这类在线论坛的历史帖子。在对每个单词、空格和标点符号进行分析之后，就可以生成人类语言的统计模型。这个模型是如此庞大，却又如此浓缩，只需要简短的提示，就可以让想法的种子变成茂密的参天大树，将一句话（无论是问句、陈述句还是对话）扩展成一篇洋洋洒洒的生动散文。这些模型现在通常被称为“大型语言模型”（largelanguagemodel，llm），其所呈现的语句极为流畅，与人类的语言能力惊人地接近，让读者很容易忘记自己阅读的文字其实并不是真人写的。

经过多年的计算机视觉研究突破，大型语言模型正在推动自然语言处理的复兴，也很可能预示着人工智能的下一个伟大时代即将来临。具体而言，一种称为transformer的新型机器学习模型成为自2012年的alexnet以来神经网络设计中最大的进化飞跃。transformer具备了所有让大型语言模型成为可能的必要特性：规模庞大，通过处理大量并行数据块来加速训练，并拥有极其复杂的注意力机制。不管怎么看，transformer都是一个里程碑，甚至可以说是一个转折点；它一经发布，就立刻展示出了惊人的能力，甚至连其背后的专家们都感到震惊，而这些进展至今都没有放缓。

初次接触到由大型语言模型生成的文本时，我感到非常超现实，不禁想起了当年与安德烈合作开展的研究。当时，我们看到人工智能写出一个完整的句子来描述自己看到的东西（尽管措辞略显笨拙），是多么兴奋啊。而仅仅几年后，算法已经成为文笔流畅的文字大师，可以回答问题、编写故事，甚至还能解释笑话。更重要的是，新兴的“多模态”网络不仅限于在文本上进行训练，还可以利用照片、音频、录音甚至视频进行训练，从而学会了生成不同形式的媒体内容。这种进展常常让人感觉比计划提前了一两代；在短短十年左右的时间里，算法已经从难以识别照片内容，发展到以超人水平进行识别，现在甚至可以创造全新的图片——这些图片看起来跟真实的摄影作品无异，但完全是合成的，并且往往具有惊人的逼真度和细节。看起来，深度学习时代似乎已经让位于一场新的革命，生成式人工智能时代即将来临。

即使对我来说，生成式人工智能也经常看起来就像魔法一样。而这项技术的核心再次展现了大规模数据的力量。可以肯定的是，“规模”是其中的关键词。alexnet首次亮相时，网络参数为6000万个，刚好足以对imagenet数据集进行合理解释，至少可以解释部分子集。相比之下，transformer的参数已经增长到数千亿个，足以利用文本、照片、视频等形式的数据进行训练。这无疑带来了无尽的工程挑战，但其中所体现的科学性却出奇的优雅。从杨立昆的邮编阅读器、福岛的新认知机，甚至罗森布拉特的感知机时代开始，这些可能性似乎就一直在等待着我们的发现。从imagenet时代开始，所有这一切都存在于某个地方，蕴藏着巨大的潜力。我们要做的，只是把一个简单的想法变得足够宏大而已。

然而，我越来越感觉到，这样的解释只触及了技术细节，并没有回答更本质的问题。大型语言模型，即使是多模态的大型语言模型，可能也并不具备真正意义上的“思考”能力。看看就知道了：大型语言模型很容易出现荒谬的概念性失误，也乐于编造听起来合理但实际上毫无意义的胡言乱语。了解这些事实有助于我们避免过分迷恋模型的能力。然而，随着大型语言模型生成的文本、图像、语音和视频越来越复杂，真与假之间的界限愈加模糊。越来越多的评论家开始质疑，为我们敲响警钟：作为个人、机构，甚至社会，我们究竟有没有能力区分真实和虚构？当人们意识到这一切还只是1.0版本时，这种发问尤其令人警醒。

就这样，科技不断发展。算法语言表达的高级程度已逼近人类水平。机器人正在逐渐学会应对真实的环境。视觉模型不仅可以通过照片进行训练，还可以在全三维世界中进行沉浸式实时训练。人工智能能够像识别内容一样流畅地生成内容。与此同时，伦理问题在我们周围不断涌现，与人类经济社会发展的关联也日益紧密。但这就是科学一直以来的样子。随着旅程的展开，前路只会变得更漫长、更复杂。无穷无尽的分叉、不断扩大的视野、新的发现、新的危机、新的争论，故事永远处于第一幕。

曾经，我做出决定，要把自己的一生奉献给这个鲜为人知的领域；因为这个决定，我比想象中走得更远。因为历史的偶然，我这一代人亲眼见证了人工智能从学术奥秘转变为头条新闻。我因此有机会周游世界，与全球的领导者同聚一堂，并在最近几年中站在最大的平台上发表演讲。耀眼的灯光、绚丽的色彩、一排排的观众似乎可以无限延伸到地平线，这些都是难得的特权，每一个都是意想不到的荣誉。

但实验室仍然是我最喜欢的地方：荧光灯管嗡嗡作响，座椅硬邦邦的，咖啡早就不新鲜了，没完没了地点鼠标、敲键盘，记号笔在白板上发出吱吱声。自从2012年alexnet诞生，自从2006年我和邓嘉创建imagenet，自从彼得罗把西蒙·索普的脑电图研究报告打印稿放在我桌上，发生了太多事情。“相信我，这是你想读的内容。”即使是现在，北极星依然照耀着我前行的道路。旅程仍在召唤，还有更多的目标等待我去追逐。

我时常回想起与彼得罗和克里斯托夫初次见面的情景，当时他们在我心中就是学术巨人。我很难想象有人会把我也看成是那样的人——单凭我的身材，就可能让我失去“巨人”的资格。但在某种程度上，我确实有一点儿权威人物的气场。我的导师们教会了我如何善用威严：要将其作为一种感召，而不是障碍。对于每一个愿意通过个人努力来到这里的学生，我想告诉你们：如果你真的对这些事物充满热情，无论你是谁，无论你来自哪里，你都属于这里。让我们共同创造未来！

午后阳光明媚，太阳渐渐西斜，但空气依然暖和，我们躲在凉亭的树荫下，享受着宁静的时刻。母亲静静地坐着，满心欢喜地看着外孙外孙女在草坪上踢足球，他们奔跑着，笑声、尖叫声回荡。父亲尽力跟上他们的脚步，和他们一起欢笑，看着就像个年轻人。对以“玩”为毕生追求的父亲来说，成为外祖父后，他终于找到了适合自己的节奏——这个角色对他没有任何要求，他只需要做爱玩的自己就好。

手机震动，我低头看了一眼，发现是斯坦福hai的政策主管发来的信息。

国家研究云刚刚在参议院获得通过

这是一个更大法案的一部分

即将提交总统

一分钟后，我又收到一条信息，是琼·萨贝拉发来的，还附带了一段视频。我点击播放按钮，看到两双热切的小手撕开了配套的包装纸，露出两套《星球大战》乐高套装，我听到了兴奋的尖叫声。

“孩子们，你们应该说什么呢？”我听到琼在镜头外问道，“谢谢飞飞阿姨和西尔维奥叔叔！”两个声音高兴地齐声回答。

镜头里是鲍勃的两个孙子。他的书呆子气和想象力显然延续到了他的孙辈身上。但两个小家伙毫无掩饰的喜悦告诉我，鲍勃的内向性格已经消失无踪。我能想象到，如果鲍勃听到这样的话，脸上会露出怎样的笑容。

挂断视频后，我回到了群聊，里面有琼、她的儿子马克，还有我。几年来，我们在群里分享着个人的生活和成就：重要的里程碑、生日庆祝、膝关节置换手术后的恢复情况、新工作、新宠物、喜悦的消息、悲伤的消息，以及生命岁月中的点点滴滴。

在帕西帕尼高中的数学课上，我不安地向鲍勃求助，从此我们的生命开始相交，我的移民生活得以改变。现在，我们两个家庭横跨美国，三代人之间依然保持着紧密的联系。鲍勃是我的老师、我的知己、我的朋友；在我几乎无法表达自己的时候，他是我的救命稻草。萨贝拉一家的餐桌上总是摆着自制的布朗尼蛋糕，时至今日，这仍是我受到过最好的同理心教育。萨贝拉一家无疑是我自己家庭的延伸。我无法想象没有他们的生活，就像我无法想象没有父母的生活一样。这就是为什么十多年后，鲍勃的离去仍然让我感到心痛。但我们的对话从未停止过，他的记忆仍在倾听，我仍在向他倾吐心声。

关于这个国家，让我学到最多的就是与萨贝拉一家的交往。爱国主义教育从高中就开始了，历史课上的宏大叙事令人崇敬，却与移民群体真实生活的凄凉现状，甚至遭受的暴力形成了鲜明对比，所以这些课程从来没有真正触及我的内心深处。几十年来，我和其他人一样沉浸在紧张的局势中，面临党派纷争、文化断层、选举周期以及其他一切。我对这个国家最深刻的理解不是来自新闻，也不是来自某个论战家的专栏文章，甚至不是来自教科书，而是源于有幸结识萨贝拉一家。他们是我在这片土地上最珍视的人道主义典范，他们闪耀着人性的光辉，在我看来，这才是真正的美国精神。

推拉玻璃门发出橡胶摩擦般的吱吱声，我转过身来。西尔维奥朝我们走来，手里空空如也。

“午餐呢？”我半开玩笑地问道，肚子已经饿得咕咕叫了。

“答辩进行了很长时间。”他叹了口气，露出毫无歉意的微笑。他知道，我既能分享他的快乐，也能理解他的疲惫。

在过去的几个小时里，他在仔细剖析他最新的博士候选人的论文，质疑她的观点，听取她的解释，并最终授予她学位。不难想象，整个过程远远超出了预定的时间，西尔维奥被那种熟悉的激情紧紧抓住了。我们两个都是这样，一旦激情沸腾，就会久久难以平息。

我又看了一眼手机，发消息的都是熟悉的名字。最近的聊天记录里有奥尔佳和邓嘉，两人现在都在普林斯顿大学任教，依然活跃在计算机视觉研究的最前沿。尤其是奥尔佳，她是人工智能领域公平和透明的坚定倡导者，还把ai4all带到了自己的新校园。仍在加州理工学院任教的彼得罗也给我发来了信息，向我介绍他的博士生利用计算机视觉支持全球保护和可持续发展的工作。还有一条来自我十几年来的研究伙伴和朋友阿尼，他跟我分享了环境智能的最新进展。

无论我如何界定自己的身份——是华人、美国人，还是名誉上的意大利人——我早已摆脱了对“格格不入”的恐惧，因为我一路上遇到太多真诚的人，他们给了我太多善意。移民之路并不平坦，但我始终心存感激。

即使是母亲持续多年的健康问题，也不能简单地用幸运与不幸来衡量，其背后的故事要复杂得多。不可避免的事情还能拖延多久，才能让人觉得不再那么不可避免？近30年的旅程虽然坎坷，但我不得不承认，以不幸家庭的标准来看，我们家是幸运的。生活虽然艰辛，但我们并没有失去亲人，没有经历悲伤和哀悼，我们在一起度过了所有的时光，我不禁对此也深怀感恩。

这些天来，我发现自己时常陷入沉思。我经常想起父母的成长岁月，母亲被困在自我吞噬的文化中，而父亲则迷失在悲剧里，从来没有完全解脱。我还记得，当我们登上飞机离开我们熟悉的生活时，我看到母亲的双手颤抖不止；当我们在肯尼迪机场行李提取处等待时，夜幕降临，我和母亲被困机场，父亲却迟迟未到，我们的内心充满了恐惧；我想起干洗店里闷热的气息和嗡嗡的机械声；我想起第一次看到普林斯顿大学的情景。

回顾我的职业生涯，我相信，这段漂洋过海的经历给我留下了深刻的烙印。然而，直到现在我才意识到，这种烙印将继续影响我的研究和思考。我想到母亲，是什么样的紧张局势促使她孤注一掷、远走他乡？而如今，她竟然在位于帕洛阿尔托的自家后院里安度晚年。科学家的生活与移民的生活和冒险家的生活一样，对他们来说，“家”从来都不是个明确的概念。最好的作品总是在边界上诞生，在那里，思想永远被困在来去之间，由陌生土地上的陌生人探索，既是局内人又是局外人。但这正是我们如此强大的原因。独特的身份让我们保持独特的视角，赋予我们自由挑战现状的能力。

人工智能的未来仍然充满不确定性，我们有很多理由保持乐观，也同样有很多理由感到担忧。但一切都源于比单纯的技术更深层次、更有影响的问题：在我们创造的过程中，是什么在激励着我们的心灵和思想？我相信，这个问题的答案也许比其他任何问题的答案都更能决定我们的未来。很多事情都取决于问题由谁来回答。随着人工智能领域逐渐变得更加多元、更加包容、对其他学科的专业知识更加开放，我也越来越有信心：我们能正确回答这个问题。

在现实世界中，存在着一颗北极星，那是小熊星座中最明亮的恒星。而在思想的世界里，却存在无数个类似的导航指引。每一种新的追求，每一个新的痴迷，都悬挂在黑暗的地平线上，闪烁着耀眼的光芒，向不懈追寻的人们招手致意。这就是为什么我最大的快乐在于知道旅程永远不会结束，我也永远不会停歇。总会有新的事物等着我去追逐探索。对科学家而言，想象力就如同布满北极星的璀璨天空。