我看见的世界：李飞飞自传 09 万物以外是什么

“西尔维奥在……呃，厨房里有很多蒸汽……”

“你这也说不过去呀！”西尔维奥笑着，小声跟我说。

“别傻笑了！”我一边回击，一边把门开了个小缝，刚好能一个人溜出去。我努力表现得很自然，但从母亲怅然的目光中，我知道我还是失败了。

读了沃尔夫的论文后，“要点”这个概念一直萦绕在我的脑海里，让我深受鼓舞，因此，在加州理工学院的大部分时间里，我都在自行探索“要点”的本质。这方面的研究与计算机科学或人工智能没有明确的联系，但它直面了一个问题，即人类在看到现实世界时，究竟能感知到什么。虽然我和彼得罗以及克里斯托夫都认为，这种细致入微的感知对计算机视觉来说是个遥不可及的梦想，但我们坚信，只有更好地理解人类的行为，才能开启追逐梦想的旅程，于是我们设计了方法进行相关探索。2007年，我们将研究成果发表在以神经科学为重点的《视觉杂志》（journalofvision）上。

在实验中，我们向22名实验对象展示了一组照片，共90张，每张照片的曝光时间从500毫秒（半秒）到27毫秒（大约是电影胶片单帧可见时间的一半）不等。这些照片都是简单的日常场景，但细节丰富，包含多个人物、多种事物和多项活动，有室内和室外，有自然环境，也有人工环境。实验对象的任务是尽可能详细地描述他们所看到的内容，准确来说是根据他们的记忆描述自己所看到的内容。

像所有的实验一样，这个实验开始时也是赌博，其中一半的乐趣来自不知道会发现什么的兴奋（虽然可能一无所获）。但努力最终得到了回报，我到现在都觉得我们收集到的反应非常了不起。例如，我们向实验对象展示了一张维多利亚时期的住宅内部照片，持续500毫秒。一个实验对象写道：“19世纪的豪华客厅，装饰华丽的单人座椅，墙上挂着一些肖像。”

在短短半秒时间里，他们就看到了足够多的信息，能够对场景进行简单但基本完美的描述，对照片所代表的世纪、墙面装饰的性质和单件家具的结构进行了合理的推断。即使是在27毫秒的时间里，真正的认知也仍然存在（27毫秒大约是1/40秒，短到实验对象几乎没有机会进行深度细致的观察）：看不太清；大部分是黑暗的，有一些方形的物体，可能是家具。

“可能是家具”这几个字透露了很多信息。家具不是形状，不是颜色，甚至不是某种深植于我们基因中的自然现象，而是人类主观创造出来的现代物品。在如此短暂的时间内，就能记住一个如此复杂的概念，这多么令人惊叹啊。

不管有没有时间的限制，我都觉得这种能力太强大了。照片可能是静止的，但我们善于提取凝固在照片中的运动状态，从幅度很大的动作到几乎无法察觉的微小动作，我们都能敏锐地观察到。我们会自然而然地注意到身体、手臂和腿的角度，并立即感觉到它们从哪里来，要到哪里去，以及速度和力量、重量和平衡、动能和势能。我们可以想象画面捕捉到的瞬间所处的环境，以及可能产生的结果，比如滑板运动员从路边一跃而起之后的一刹那，或是年轻夫妇交换婚礼誓言后的一生。

我们甚至可以从照片中推断出意图。我们可以从一个人的姿势感受到紧张的情绪、一个人与另一个人的亲密程度，甚至能从像眉毛的角度这样简单的事情中获取大量信息。这些信息足以让我们判断出自己看到的是什么人，他们之间的关系如何，以及他们的意图是什么。一个不耐烦的老板在过度劳累的员工面前晃来晃去；富有同情心的家长帮助孩子解决问题；亲密的朋友；完全陌生的人；喜爱或愤怒；工作或娱乐；安全或危险。

关于自己身上的这个能力，我的感知也越来越强烈。每天晚上，我下班回到家，关上房门，甚至还没来得及放下包，就会做一件事。不算一种仪式，因为没有什么刻意的安排，却在每天的同一时间以同样的方式展开。这是任何病人家属都熟知的时刻：我会先找到母亲，无论她在家里的哪个角落——厨房、客厅，也许是后院——只需看她一眼，我就知道自己是不是应该担心，知道她这一天过得好不好。如果她状态良好，我就可以深深呼出一口气；如果不好，那就另当别论。

就是这么简单。这是我能做出的最重要的判断，一切都迅速而自然，仿佛认知魔法在自动完成，即使对我这样研究视觉的人来说，这一过程也几乎是不可察觉的。有时候我回到家，妈妈正在水槽边削土豆。爸爸系着围裙，正在往炉子上的炒锅里倒橄榄油，好像还有一碗准备下锅的鸡丁。两个人看起来都很满足，谁也没有抬头看我一眼，没有困惑或担忧的表情。谢天谢地，我可以舒口气了。这将是个美好的夜晚，至少此时是这样。

但也有一些时候并不美好。妈妈在沙发上，坐也不是，躺也不是，看起来很不舒服。她一手扶额，眉毛拧在一起。猫蜷缩在她身旁，她的另一只手只是无力地搭在猫背上，并没有在抚摸。

情况不妙。需要量一下血压，测一下体温和脉搏，然后可能要给医生打个电话。

这种能力迅速而强大。在我的记忆中，我很少有意识地去列举周围的单个物体——一屋子的家具、我的父母、他们穿的衣服、厨房用具、未开封的包裹或信封、西尔维奥的咖啡机、家里的猫等等。我们花了很多精力来教机器对物体进行分类，但分类所依靠的似乎不仅仅是视觉敏锐度。在这样的时刻，发生了一些更深层级的事情：我不仅仅是看到了母亲的本体，而且是在了解她的状态，评估她的姿势，揣摩她的态度，从她眉间的皱纹或靠在柜台上时身体的角度等无形的东西中，得出生死攸关的推论。

即使是最先进的算法，也会立刻被人类这种能力所折服。我们能想象出的最肤浅的感知成就，就是可以识别物体。只要算法的分类错误率稍有降低，我们便大肆庆祝，觉得取得了了不起的进展。与此同时，我们的大脑每时每刻都对世界充满了无比流畅的感知，以至周围环境的无限生机对我们来说几乎就是无意识的存在。早在20世纪70年代，研究员兼数学家阿纳托尔·霍尔特（anatolholt）就总结过在研究领域这种小成即满的短视现象。他说，人工智能这种技术，就算房间着火也会不管不顾，完美地走出下一步棋。即使是现在，这一论断依然非常贴切。现代人工智能的表现就像玩游戏的天才，可以熟练应对孤立的任务，应对“错误率”等狭隘指标，却无法注意到落在棋盘上的余烬正在燃烧。

人类的感知力虽然有种种局限，但与机器截然相反。我们从整体上看待世界，不仅能识别世界的内容，更可以进一步理解不同事物之间的关系、意义、过去和未来。这就是“要点”。我们不仅是见证者，更是故事讲述者。是时候让算法也学习一下这种本领了。

“给你，读读这个。”我把自己发表在《视觉杂志》上的论文打印出来，放到安德烈·卡尔帕西（andrejkarpathy）的桌子上。安德烈是一名二年级博士研究生，刚刚加入实验室，前途无量。他出生于斯洛伐克，在加拿大长大，身材修长，语速飞快。他热衷于解决复杂的问题，并具有将想法付诸实践的技术天赋。和我实验室里的许多学生一样，他具备工程师的胆识和韧劲，拆卸起晶体管收音机就像在白板上写方程式一样轻松自如。如果说爱因斯坦、玻尔和惠勒是宇宙梦想家，那么像安德烈这样的学生或许与爱迪生或莱特兄弟是同类。外界几乎看不到这两种人的区别，但在我们实验室里，梦想家和实干家的区别无处不在，从每次交谈中都能看出来。两种风格截然相反，但又相辅相成，每一种风格都注定要挑战对方、吸引对方，甚至轻微地激怒对方。但在尝试新事物时（尤其是实验室经常会尝试难度很大的新事物），两者的组合就会产生强大的力量。

“这是什么？”他一边问，一边拿起来浏览摘要。

“我们的下一个挑战。”

自此以后，和安德烈的会面便成了我的固定日程。我们的目标是设计一种新的算法，不只是能简单地标记任何出现在前景中的物体，更可以描述整个场景。即使按照我们实验室设定的高标准，这种新算法也感觉像是我们研究的未来，甚至可能是整个领域的未来。但是我的激情让我成为极其严苛的批评者。

“好吧，安德烈，这看起来很不错。”

“但是……？”他犹豫了一下，笑着说。他知道这句话后面跟的是什么。

他工作站上的显示屏似乎展现了我们的想法：只需输入一张图片，就能输出一句图片描述。

他的算法很聪明，在某些方面甚至极其聪明；尽管如此，我知道我们还有更长的路要走。这只是解决方案的一个片段，而不是整体。“但是，我们还没有实现目标。”

他无力地坐在座位上。

方法问题非常微妙。在担任教授的这些年里，我已经敏锐地注意到了与此相关的现象。学生们往往会疯狂地专注于自己的模型是否有效，以至“模型如何运作”的问题被抛到了一边，安德烈就是这种情况。不可否认，他的模型乍一看的确有效，但通过定期的交流，我对他的思路已经非常了解。虽然他的方法有理有据，提供的图片说明也很有文采，但最终得出的模型只是某种图片说明匹配系统。

简单来说，他的计算机屏幕上显示的描述似乎过多来自某种形式的训练数据，就好像他的算法是在某种精心设计的数据库中搜索合适的描述一样。我们的最终目标是让算法可以完全从头开始生成图片说明，而在我看来，他的模型无法实现这个目标。我确信他的模型在实践中无法泛化：尽管在测试时表现良好，但它会被训练集之外的图片所迷惑，导致图片说明出现描述错误或语法错误，或二者兼有。但真正的问题在于科学性。模型提供输出图片说明的方式是通过检索，这并不属于真正的创作。

安德烈叹了口气，充分认识到我给他增加了多么大的工作量。他显然很气恼，但我知道他能认识到，这道鸿沟是值得跨越的。

“好吧，让我重新思考一下。”他说，“我明白了，图片说明需要逐字逐句地书写。这就产生了很多问题，比如我们怎样才能遵循图像的视觉特征，写出语法正确的内容，但是……我会想办法的。”

我笑了笑。他没有掩饰自己的沮丧，但他的思路是对的。作为一名科学家，我拒绝接受任何折中方案，他很清楚这一点。至于他如何实现，谁也说不准，但我知道，他骨子里和我一样不屈不挠。我相信他会成功的。

语言文字和视觉图像是两个完全不同的领域。图像的基本单位是“像素”，这个术语最初是“图像元素”的缩写，现在已经很常用。像素是一个几乎无法察觉的点，捕捉了场景中单个小点的颜色。要描绘出有意义的画面，可能需要数百甚至数千个像素，或者更多。我们口袋里的手机可以捕捉到由数千万个像素点组成的细节丰富的图像。但是，在单独评估图像时，像素本身基本上不能提供任何信息。无论是我们大脑中的灰质还是机器中的硅，视觉算法的工作就是将这些像素组合成越来越大的二维图像区域，然后以某种方式扫描其中与现实世界的三维特征相对应的模式：空间、体积、表面、纹理等等。

相比之下，英语等语言的基本单位是单词，至少在日常口语和书写中是如此。与像素不同的是，单词通常表达独特的含义，独立存在时同样可以表意。单词的范围虽然很大，但数量是有限的。尽管如此，当我们把单词组合在一起之后，它们的含义就会受到影响，甚至完全改变，比如“rockbottom”（最低点）、“rockfragment”（岩石碎片）和“rockmusic”（摇滚乐），这几对单词都含有rock一词，意思却完全不同。当更多的单词串联起来构成更长的句子时，这种现象就会变得更加复杂，更不用说段落、文章和书籍了。总之，单词表达思想的组合潜力是无穷无尽的。

虽然新时代早期的头条新闻主要是计算机视觉的突破，但在同一时期，自然语言处理技术也取得了丰硕成果。其中一颗早期的明珠就是递归神经网络（recurrentneuralnetwork，rnn）。递归神经网络是一组专门为处理线性单词序列而设计的算法，能够快速推断文本的基本属性，就像alexnet这类卷积神经网络处理图像的方式一样。和卷积神经网络一样，递归神经网络也已经存在了几十年，但直到现在，人们才意识到它们的真正威力。

然而，比任何一个领域的进展都更具吸引力的，或许是人工智能的众多子领域之间开始出现交叉融合。不断壮大的神经网络家族为视觉、语言、语音和其他形式的感知提供了一个共同的算法框架，激励着像我们这样的实验室去模糊它们之间的界限，以实现更综合、更像人类的能力。

“我想我有办法了。”安德烈隔着我办公室的门说。距离我们上次谈话已经过去了几天，这次他显得没那么沮丧了。我甚至看得出他有了好点子。“想象一下，把卷积神经网络和递归神经网络进行配对，”他一边说一边进屋坐到沙发上，“一个负责对视觉信息进行编码，同时将它跟单词配对，另一个负责生成语言。然后我们以成对出现的图像和人类文字描述为基础，来训练我们的模型。”

现在总算有些眉目了，我边琢磨边点头。

“继续。”我好奇他还有什么想法，“然后呢？”

“肯定还有一些未知的东西需要解决，但我认为递归神经网络会根据语库中已有的单词，有条件地生成图片描述中的每个新单词。这样，我们在描述图像内容的同时，也能遵循从训练数据中推断出的语法模式。至少从理论上来讲，结果应该是一个完全新颖的描述，或多或少是使用自然语言来呈现的。”

我很难不被这个想法打动。哪怕这招儿只有一半管用，他也能从我给他留下的困境中脱身。我迫不及待地想知道接下来会发生什么。

我们的谷歌街景汽车项目已经完成，收集到的数据深度极为惊人。我们的分类器处理了来自200多个城市的5000多万张图片，覆盖了3000多个邮政编码和近4万个选区。总的来说，算法识别了2200多万辆汽车，几乎占全美汽车总量的10%。从统计学上看，我们的观察结果具有非凡的意义，其中一些证实了人们的刻板印象，特别有意思。比如我们对城市轿车和皮卡比例的研究发现：当轿车比例较高时，这个城市88%的人可能投票给民主党；当皮卡车比例较高时，82%的人可能投票给共和党。但这仅仅是个开始。

例如，在我们的研究结果中，车主的种族和他们喜欢的品牌之间具有极强的相关性，几乎与美国社区调查关于同一社区种族构成的数据完全一致。同样，根据汽车数据，也可以对某个地区的平均教育水平和收入水平做出准确的预测。我们的模型一次又一次地生成了整个城市的彩色编码地图，追踪从一端到另一端的社会经济和政治指标的波动，所有数据都与人口调查局使用传统方法收集的数据惊人地相似。而所有这些，仅仅通过观察街道上的汽车就能实现。

不过，我们真正的发现，是我们所展示的流程有潜力发展成为一种速度快、可扩展、成本相对较低的人工调查替代方法（仅在美国，每年的人工调查费用就超过2.5亿美元）。这是我们实验室历史上规模最大、目标最高的项目之一，我们的论文发表在《美国国家科学院院刊》（proceedingsofthenationalacademyofsciences，pnas）上，蒂姆尼特作为第一作者，因其出色的贡献而实至名归。从技术层面来说，我为这项工作感到骄傲，但最让我兴奋的是，这项工作揭示了人工智能可以用全新的方式向我们展示世界。

我手里拿着钱包、手机，还端着半杯星巴克咖啡，侧身用肩膀推开了实验室的门。这是个典型的上午，我的日程安排得满满当当，但有些心神恍惚，正匆匆忙忙地从一个会议赶往下一个会议，边赶路边熟悉议程。当我经过安德烈的办公室时，他向我招了招手。

“看看这个。”他说着，朝自己的工作站点了点头。这次他脸上的表情明显自信多了。

我匆匆走了进去，兴奋地想看看最新的消息，几乎忘了自己要去哪里。屏幕上是一张少年和滑板的照片，两者都在半空中，背景是蓝天和远处的灌木丛。在图像下方的一个小命令行窗口中，显示着一句话：

一个滑板上的人。

我还没反应过来，就已经笑了出来。安德烈让这个瞬间停留了一秒钟，然后按下按键。另一张图片出现了，图片上是一个杂乱的建筑工地，两个穿着橙色背心的工人正在浇灌水泥。一两秒后，出现了另一句话：

建筑工人在路边施工。

他又按了一次键。另一张图片出现，又是一个新的图片说明。然后接连不断地出现。场景的数量和多样性清楚地表明，这些句子并不是从某个训练语料库中提取出来的，而是模型自己写的。

安德烈也喜笑颜开。不过，和其他优秀的科学家一样，自豪之余，他也不忘告诫自己：“当然，还有一些问题需要解决，比如……”

他又点击了一下，一张新的图片出现了，是一位游客在西班牙乡村风格的广场上拍摄的，后来我才知道，这是特鲁希略的市政广场，这座城市以其丰富的文艺复兴时期建筑而闻名。我正沉浸在这幅画面中，图片说明出现了：

一名男子骑马经过建筑物旁边的街道。

我们俩都被逗笑了——算法描述得近乎完美，却遗漏了关键的信息：人和马都是青铜做的雕塑。有趣的失误还在继续。在算法看来，睡在沙发上的宠物海豹是一只猫，一个拿着牙刷玩耍的婴儿是一个拿着棒球棒的小男孩。算法完美描述了在草原上吃草的斑马，只是完全没有注意到它们身后那道惊艳的彩虹。算法的错误往往带有一种孩子般的笨拙，而这种笨拙却出奇地可爱，温馨地提示着我们：我们还有很多东西要学，我们的机器也一样。不过，安德烈的成就（虽有瑕疵）才是最令人难忘的。

“我们得把这个写出来发表。”我说。

“真的吗？”他问，“现在就开始写？”

“是的，当然。”我急切地回答，急切的程度连我自己都感到吃惊。不知何故，我突然很焦虑。也许是媒体对我们领域的狂热影响到了我，也许是作为实验室主任的自豪感涌上心头。不管是什么原因，焦虑感并未消退。

“越快越好。”我说。

“你是说和一台机器约会吗？就像电影《她》一样？”

学生的话引起了全场的笑声。斯派克·琼斯（spikejonze）的电影《她》讲述一个男人爱上了人工智能伴侣的故事，大多数人都对这部电影记忆犹新。

“为什么不行呢？”另一位学生回答道，“如果机器有足够的智能，能够像我们人类一样进行真正的对话，就像我们现在的对话方式一样，那么谁又能说人和机器之间不会有恋爱的可能性呢？”

“我不知道……对我来说，这听起来有些荒诞。”

“但原则上没有任何障碍，对吧？我们至少能在这一点上达成一致吧？”

那是寒假前的最后一个周五，我正在参加我最喜欢的活动：斯坦福大学人工智能实验室师生每月两次的闭门聚会“人工智能沙龙”，讨论人工智能领域的热门话题。自首次会议以来，我们已经探讨了各种各样的话题，有电影和电视中对人工智能的描述等文化问题，也有哲学辩论，比如范畴和符号结构究竟是语言的基本事实，还是如那次尖锐的讨论题目所示，属于“语言学家的幻想”。

今天我们讨论的是《超级智能》，这本书是牛津大学哲学家尼克·博斯特罗姆（nickbostrom）探索人工智能未来的一本颇具争议性的巨著。比尔·盖茨和埃隆·马斯克等人都在推特上对这本书大加赞赏，同时也表达了对其影响的担忧；在他们的推荐下，这本书在大众市场获得了意想不到的成功，重新引发了人们对科幻小说中人类与机器之间即将决一胜负的讨论。我们的谈话不拘一格，涉及机器人杀手、算法中主观意识的潜力，最后还谈到了与电脑相爱的想法。不过，就连那天下午最刺激的漫无边际的讨论，也承载着我在往年不曾预料到的分量。当未来突然如此迅速地来临时，我们很难不去谈论未来。

2012年imagenet挑战赛的冲击波仍在回荡。对像我们这样痴迷于计算机视觉的人来说，这是一个分水岭，全世界都开始认识到，比赛结果不仅仅是对图片理解的转折点，更是对一切事物理解的转折点。在这个曾经鲜为人知的竞赛中，alexnet展示了大规模数据集、高速图形处理器和深度分层神经网络三者近乎神奇的组合。这种组合是一幅蓝图，其应用范围注定要远远超出计算机视觉领域。世界各地的实验室都在构建更加丰富的分层网络，与此相对应的，一个新的名字正在流行——这不仅仅是机器学习的时代，更是深度学习的时代。

一种全新的范式正在诞生，一如20世纪初物理学的崛起。这让我回想起十几岁时那些激发我想象力的故事，我幻想着，在那些激情燃烧的岁月里，物理学家们过着怎样的人生。这些早期先驱一定感受到了无限的神秘和深深的敬畏，量子世界的奥秘和宇宙相对论的威严唤醒了他们，他们对现实的看法发生了翻天覆地的变化，这种变化来得如此彻底、如此突然，让人很难不心生羡慕。他们在正确的时间出生在正确的地点，接受了历史最令人惊叹的礼物之一。我们不禁要问，神经网络这一现代化身是否就是我们这一代人的使命和召唤？

即便如此，我们也有理由承认，未来不会只有诗意。与人工智能相关的学术会议正在发生转变，这是更令人不安的变化预兆之一。几十年来，这些活动都很低调，只有教授、研究人员和学生参加，幸免于媒体的关注，同时经费也相当紧张。企业赞助商很少，通常仅限于施普林格（springer）这样的学术出版商，而且只能在展厅角落里摆几张长板凳。但在alexnet发布之后的几年里，来自《财富》世界500强的全球顶尖企业把学术活动变成了一场场盛宴，每一次新的聚会都更像是拉斯维加斯大道上的行业博览会。在短短几年内，沐浴在彩色灯光下的展台变得司空见惯，这些展台规模宏大，上面的企业标志十分醒目。谷歌和微软等公司还为正在选择职业的研究生举办了奢华的聚会。

随着更多需求的涌现，一种饥饿感笼罩了整个领域。更多的层级使神经网络更深入、更强大。更多的硬件可以加快训练过程，实现更大规模的网络部署。当然，还有更多的数据：更多的图像，更多的视频，更多的音频，更多的文本以及其他任何可能训练网络理解的内容。更多的一切。

想到新组织的数据可能带来的能力，除了兴奋，我也不禁感到忧虑。在我自己的实验室里，我们已经看到，数据中隐藏的东西远超出我们意识到的范围。数据从来都不仅仅是图像、音频或文本。只有通过数据，模型才能对世界形成表征，而更大的数据意味着更强大、更细致的表征；意味着关系、联系和想法；意味着真理与谬误；意味着洞察和偏见；意味着新的理解，同时也伴随着新的陷阱。深度学习革命已经到来，而我们还没有做好准备。

与此同时，我们实验室的研究议程也显示出了自身的贪婪。无论我们取得了多大的成果，每一篇新发表的论文似乎都会孕育出10个新的后续想法，无论是博士后还是一年级的研究生，总有人愿意接手，继续深入研究。这正是我喜欢的工作方式，尽管我常常感到力不从心、不堪重负。

事实上，我在想，以北极星来比喻理想，其真正的价值不仅仅在于北极星可以指引方向，更在于无论怎样努力，到达北极星的距离永远是无限的。我们可以为之苦苦追求，可以为之痴迷一生，却永远无法抵达。北极星象征着科学家最独特的品质：充满永不停歇、永无止境的好奇心，这份好奇心跟满足感永远同极相斥。夜空中的一颗星，远方的海市蜃楼，没有尽头的道路。我意识到，这就是人工智能对我的影响。imagenet是一个转折点，当然值得庆祝，但它并不是旅程的终点。如果说有什么特别的意义，那么转折点只是一段更伟大旅程的开始。除此之外，我现在可以肯定，等待探索的事物还有太多太多，一个人穷尽职业生涯，甚至一生，都无法抵达终点。

随着我们图片说明生成技术日臻成熟完善，成果发布指日可待。在接下来的几周里，我和安德烈不断改进方法、记录成果。我们的策略带来了我期望的结果：虽然句子仍然简单扼要，但用词准确、表述相对自然。用杰里米·沃尔夫的话说，这确实是一种能够捕捉所见“要点”的算法。

是时候和全世界分享了。这意味着我们已经吸引了学术界的关注，我们的研究成果已被几周后召开的2014年神经信息处理系统大会（neuralinformationprocessingsystemsconference，neurips）采纳。与此同时，我受邀在湾区另一边阿拉梅达的ibm研讨会上发表演讲，忍不住提前透露了成果。

分享尚未发表的工作成果并不符合传统做法。但随后的一通电话证明我的选择是正确的。电话来自《纽约时报》的技术记者约翰·马尔科夫（johnmarkoff），当时我还坐在回斯坦福大学的优步车后座上。我一直对约翰很有好感，因为他是在imagenet早期就意识到其重要性的少数几个媒体人之一，几年前，他还在《纽约时报》上报道过imagenet。不过，这次他没有事先跟我沟通，就直接打来电话，这个举动很不寻常。

“喂，约翰，你好啊。”

“你好，你好，猜猜今天上午ibm的听众里有谁？”

我没想到会有记者出席，感到事情有些蹊跷。

“你的这个能生成图片说明的算法，你说它还没有发表，是吗？”

“没错。但我们会在12月的神经信息处理系统大会上正式展示。”

“啊，那真是太好了。”约翰腼腆地说，然后切入正题，“是这样的，我想让你知道，我手里有一些关于另一个研究小组的材料。当然是保密的，我不能告诉你是谁，但他们声称他们已经建立了首个可以——”他尴尬地笑了笑，“生成描述图像的句子的算法。”

什么？

这说不通啊。我和安德烈都不知道还有其他人在研究这个问题。但约翰说得没错。几天后，《纽约时报》就刊登了他的文章，题为《研究人员宣布图像识别软件取得进展》。他写道：“两组科学家独立工作，分别创造出了新型人工智能软件，能够以前所未有的准确性，识别和描述照片和视频内容。”

学术竞争并不罕见，而研究人员之间的竞争一直是推动科研创新的关键因素。不过，奇怪的是，我对此完全始料未及。研究领域一直以来都以开放著称，有时甚至达到了极致；除了率先发现某样东西的炫耀权，我们的工作通常不被视为知识产权，更不用说像商业秘密那样的保密内容了。我们的工作是要与全世界分享的，包括我们最强劲的竞争对手，而且在成果发表之前，我们通常至少能知道谁在研究什么。我带着满腹狐疑继续读了下去，然后一切都变得清晰起来。

多年来，我和同事们一直对媒体夸大人工智能进步的报道嗤之以鼻。但这一次，报纸上的一篇文章让我看到了世界变化之快。我们的对手不是其他大学的某个神秘研究团队，而是谷歌。