07 一个假设

ahypothesis

imagenet不仅是一个数据集,它是一个假设、一个赌注,即实现真正机器智能的第一步,是沉浸在完整的视觉世界中。这个赌注无论被证明是对是错,我都做好了准备。但我没想到,它被忽视了。

我开车沿着206号公路疾驰,阳光透过绿荫的缝隙洒落下来,闪烁着一个个刺眼的光点。这条蜿蜒曲折的双车道公路很好开,两旁是高大的乔木,透过树冠的缝隙,会不时露出地平线上的小镇。但我却无暇留意这些美景。我的思绪完全沉浸在另外一个世界。我能集中注意力不至开错车道,但也仅此而已。

此时,我从加州理工学院博士毕业刚刚一年,但生活已经发生了翻天覆地的变化。母亲又病了,这次的病情比以往任何时候都严重,然后又突然稳定下来。我也找到了第一份真正的工作,成为伊利诺伊大学厄巴纳-香槟分校的助理教授,并获得了相应的医疗保险。我和西尔维奥结婚了。他也找到了一份工作,不过是在密歇根州。值得感恩的事有很多,但我确实是刚刚开启学术生涯、个人生活动荡不安的典型代表——我结婚了,但却是分居两地,而且仍然和父母住在一起。

对视觉分类本质的研究仍然是我世界的中心。我受邀回到普林斯顿大学,向计算机科学系介绍自己最新的研究成果。对我来说,做讲座已经驾轻就熟,但我感觉到这次邀请另有深意——这是招聘程序的第一步,可能会给我带来在普林斯顿大学的教职。我还不习惯这么大的利害关系,也很庆幸自己养成了每次回到新泽西就先拜访萨贝拉夫妇的习惯。从他们家到母校的蜿蜒道路给了我足够的时间来思考。

不过,我想得最多的并不是讲座,甚至不是我的职业生涯。比德曼估计,要为理解视觉世界提供一个完整的基础,大约需要3万个独立的概念。自从我偶然知道这个数字后,我的生活就完全改变了。这个不起眼的五位数成了我脑海中的黑洞,几乎每时每刻都占据着我的思维。

一方面,我的直觉与比德曼的一致,我能感觉到他的数字就是对的。“3万”看上去就像一个证据,是我能以某种方式使用的数据。不过,很明显,他从来没有把“3万”当作源于经验的确切数量。这是一个典型的估算,与其说是个假设,不如说是举例说明。然而,出于某种原因,这个数字多年来始终萦绕在我的脑海中。

这个数字启发了我的思维,让我对以前从未想象过的规模有了新的认识,但除此之外,它并没有给我带来什么解决之道。3万这个数字当然很有吸引力,但到底是3万个什么呢?我相信,肯定不是将101变成3万、创建包含3万个随机选择类别的数据库这么简单。这样的数据库肯定不仅仅是词典里的一套图解概念。它甚至可能不仅仅是对世界特征的描述,而是对世界进行整体建模的起点,可以逐个描绘出完整的地球生活图景,并暗含事物之间的关系,这样才可以反映整个世界的真正意义。不过这仍然只是我的猜测。

车辆疾驶,时间流逝,我又开始陷入白日梦。太阳石油公司加油站黄蓝相间的标志映入我的眼帘,引发了一连串回忆:以前驾车时沿途的印象不断闪现,色彩和情绪交织在一起,有的细节清晰,有的细节模糊,所有的记忆都被朦胧的色调包围,内容丰富,令人回味,却永远无法聚焦。然后,我不由自主地露出了微笑,因为我的脑海中浮现出一些具体的事物:萨贝拉先生提到他每天从巴德湖的家到帕西帕尼高中都要走这条路,还有他总是一丝不苟地跟踪油价——公立学校教师的工资微薄,他要尽量减少油价对钱包的影响。

正是这些看似再平常不过的时空场景激发了我的执着。这才是视觉的真正意义所在。视觉不仅仅是一种“感觉”,至少不是那种可以用温度计或盖革计数器测量的“感觉”,而是一种体验的催化剂。加油站的招牌在我每小时80千米的车速下一闪而过,它的颜色让我的大脑释放出了大量信息和情感。视觉是定义人类思维情感最为重要的能力之一,是通往整个记忆、联想、概念和推理世界的入口,所有这些都交织在我们与周围环境的视觉联系中。

我的思绪回到了在普林斯顿大学的演讲。至少,这是一个我有机会解决的问题。

“我不知道一个语言学家为什么去听一个计算机视觉讲座,飞飞,但我很高兴他去了。”

坐在我对面的是克里斯蒂安·费尔鲍姆(christianefellbaum)。她是一位计算语言学家,也是我在演讲结束后的几天里遇到的众多普林斯顿大学的教师之一。她本人并没有出席讲座,但她的一位同事刚好在听众席上。这位同事觉得克里斯蒂安会对我的研究感兴趣,于是在我的演讲结束后立即介绍我们两个认识。

克里斯蒂安在语言学领域的工作与我的工作几乎没什么关联,但我们的工作有一个关键的共同点:我们都深受认知科学的影响,也都对理解(甚至绘制)大脑如何对世界进行概念化有着极大的兴趣。在研究人类视觉的过程中,对感知的内容进行分类的方式深深吸引着我,而这也是她工作中的核心部分,我们的研究内容非常相似。我们都相信类别是视觉(我们看到的事物)和语言(我们描述事物的方式)之间的交叉点。与她交谈了20分钟后,我突然意识到,我甚至不知道是否应该讨论一下工作机会的事。但不管怎样,这件事已经不是关注重点了,因为她接下来问的问题将永远改变我的职业生涯和人生。

“你听说过一个叫wordnet的项目吗?”

我随后了解到,wordnet是心理学和认知科学领域的传奇人物乔治·阿米蒂奇·米勒(georgearmitagemiller)的杰作。乔治出生于1920年,是当代最具影响力的心理学家之一。他与其他心理学家一同致力于超越人类行为的表象,建立起驱动人类行为的心理过程模型。因此,他自然而然地就对语言结构及其在思维中的作用产生了兴趣。他想通过wordnet以极其庞大的规模绘制出语言结构图。

这个项目的灵感源于两个同样雄心勃勃的问题:如果我们能够将人类通过语言表达的每一个概念都组织到一个庞大的单词数据库中,会发生什么?如果这些单词不是像词典中那样按照字母顺序排列,而是根据它们之间的意义联系进行连接,会造成什么影响呢?例如,我们不因为拼写接近而把“apple”(苹果)这个词与“appliance”(器具)进行关联,而是将它与“food”(食物)、“fruit”(水果)、“tree”(树)等一系列相关的词汇进行集群配对。这样形成的词汇数据库就像一张地图,将人类所珍视的一切(也就是我们用词汇描述的一切)排列在一个相连的空间里。简而言之,这就是wordnet。

1985年启动以来,wordnet已经发展到极其庞大的规模,收录了超过14万个英文单词,并迅速扩展到新的语言。对时任全球wordnet协会(globalwordnetassociation)主席的克里斯蒂安来说,这几乎成了一份全职工作。wordnet数据库范围极广,耗时甚久,而且为了精确指导其发展,多年来克里斯蒂安投入了繁重的协调工作,让我深感敬畏。一想到自己只是花了几个月时间,找了几个本科生来给caltech101搜集图像,我就感到相当惭愧——caltech101的分类深度还不到wordnet的千分之一。此时此刻,我也受到了wordnet的鼓舞,这种感觉久违了。

wordnet是一个启示。自从大约四年前偶然发现比德曼的数字,只要我醒着,就几乎无时无刻不在思考这个问题。而wordnet给了我答案,或者至少是启发。wordnet是人类意义的地图,在覆盖范围和内容真实性方面都很出色,虽然我还不知道计算机视觉如何才能达到比德曼所设想的规模,但至少我现在有了证据,证明这种努力是可行的。我的眼前第一次出现了一条道路,我看到了前行的下一步。

为了帮助我加深理解,克里斯蒂安又提到了一个相关的项目,旨在用视觉示例(如照片或图表)来阐释wordnet包含的每一个概念。虽然这个计划后来被搁置了,但我对它很感兴趣。就连它的名字imagenet也似乎在向我传递某种信息。命运又把我往前推了一把,这一次力度更大了。

那天离开校园之前,既往的点点滴滴开始串联起来。首先是wordnet,一个目标无比宏大的词汇数据库,几乎捕捉了世界上所有的概念,并以人类意义的自然层次组织起来。然后是imagenet,它致力于为每个概念配上一张图片。比德曼的数字在我的脑海里创造了一个深不可测的神秘空间,而这两个项目似乎是对空间的回应。

我问了自己一个既荒谬又显而易见的问题:如果以wordnet的规模打造类似caltech101的数据集,会发生什么呢?抛开项目带来的海量工作不谈(事实上,我的脑子里只闪现出一个词:不可能),这个想法太有吸引力了,我无法抗拒。数据集必然会达到天文数字的规模,但这不仅仅是规模的问题。规模只是副产品,我们将有更深层次的收获,那就是前所未有的多样性,如同其所反映的世界一样混乱而不可预测。

多年来,我一直沉浸在计算机视觉领域,与彼得罗和克里斯托夫一起研究了数十年的历史。计算机视觉的谜团日日困扰着我,让我食不甘味、夜不能寐。而打造巨型图片数据集的想法让我感觉眼前一亮,它与众不同,甚至具有颠覆性,可以成为我解开谜团的下一步。哪怕有一丝让我更接近新发现的可能性(无论会发现什么),我都必须加以考虑。

我的思绪翻腾不休,想象着如果以庞大的数据集来训练算法,那么算法就可以将丰富的视觉线索内化:塑料的坚硬边缘、漆木的光泽、动物皮毛的纹理、眼球表面的反射等等——也许算法可以内化一切事物。我设想着我们将设计出更加灵活的算法,它能够区分前景和背景,辨别不同物体的边界,将实体的表面和体积与光影效果区分开来。

也许存在这样的可能性:让算法能够识别出任何东西的秘诀,就在于打造一个无所不包的数据训练集。

在我成为伊利诺伊大学厄巴纳-香槟分校的助理教授一年后,普林斯顿大学向我发出工作邀约。这是我职业生涯中最大的突破,我接受了。我终于又回到了新泽西,萨贝拉夫妇非常高兴,全家人都特意赶来帮我收拾住所。在我到达的那天,萨贝拉先生、琼和他们的二儿子马克(如今已大学毕业)都在普林斯顿大学教工住宅区的入口处迎接我。我的住处就在卡内基湖畔,景色美不胜收,三居室的布局与我们全家来到美国后住过的宿舍大小的房子相比,简直如宫殿般豪华。我们的居住面积实现巨大的飞跃,我们很快就意识到,这么大的房子对搬家三人组来说真是大材小用了。西尔维奥还在安阿伯,而我的父母习惯了狭小的住所,所以我们带的家具还不够填满房子的。不过,能跟萨贝拉一家团聚,我感到特别快乐,因为他们已经像我的家人一样重要了。

“对了,我一直想问你一件事。你什么时候才能开始叫我鲍勃?毕竟这些年来你一直管我的妻子叫琼。是时候改口了,你不觉得吗?”当我朝车子走去,准备搬最后一个箱子时,萨贝拉先生从后面追上来问道。

我愣了一秒才明白他的意思。这么久以来,他一直是我的良师益友,就像我的第二个父亲,直呼其名感觉很奇怪,叫他“鲍勃”就好像他只是我认识的某个普通朋友。“飞飞,我已经不是你老师了。”他笑着说,“我们还是别这么正式了,除非你想让我叫你李博士。”

回到普林斯顿大学几周后,我去找了克里斯蒂安,因为我特别想让她知道我们上次的见面对我产生了多么重大的影响。wordnet和imagenet,还有这两个项目给我带来的看似荒谬却挥之不去的灵感,这就是所谓的命中注定吧。现在,我自己也加入了普林斯顿大学的教师队伍,我备受鼓舞,渴望再向前一步,将想法变为现实,变成大胆甚至疯狂的项目。

无论等待我的是突破还是失败,我都感到激昂振奋。科学的追求可能是循序渐进的,但其突破却是由突如其来的巨变推动的,而这样巨变的引发者,不是某一个孤军奋战、雄心勃勃的天才,而是很多人的贡献被幸运之手汇聚在一起。回想起激发这个想法的种种线索,我不禁感觉即将到来的时刻便是如此。

在离开克里斯蒂安办公室的路上,我的心中只有一个想法。

“你知道吗,我一直在想imagenet,你之前说这个项目最后没能完成。”

“对,挺遗憾的,因为我们招募的本科生觉得项目太无聊了,博士生也不愿意碰,因为这算不上什么意义重大的研究。”

我笑了笑,脑海中闪过为我和彼得罗策划的数据集下载图像的记忆。但这不是我提到这件事的原因。

“那么……我可以用imagenet这个名字吗?它听起来挺完美的。”我略带尴尬地笑着问。

西尔维奥跪在dvd播放机前,把碟片推了进去,我听到机器发出嗡嗡声。

“今天看哪部电影?”我坐在沙发上问。

“《野草莓》,别担心,你肯定喜欢,这个电影很经典。”

我们两个人的职业生涯刚刚起步,压力都很大,来到安阿伯的校园看西尔维奥,对我们两个人来说都是一种短暂的解脱。他会亲自下厨做饭,也会拉着我一起欣赏他喜欢的电影,跟我分享相关的背景故事。最重要的是,我们可以聊一聊工作以外的事,把大脑暂时从几乎占据我们全部生活的工作中抽离出来。看完电影后,我说:“我得跟你说件事,是一个有关研究项目的想法。我过去几周一直在盘算这件事。”

“所以你根本没在看电影。”他会意地笑着说。

我哈哈大笑,他也没说错。

“我从来没有对什么事这么坚定过。”

“那不好吗?有什么问题呢?”

“是好事,只是……”我重重地叹了口气,“怎么说呢,这将是一场赌博。”

事实证明,西尔维奥是我无与伦比的知己。我们都是年轻的助理教授,所处的院系竞争激烈,在事业起步的那几年里,我们都面临着“要么发表论文,要么完蛋走人”的局面。压力之下,我们必须马不停蹄、保质保量地完成工作,因为我们知道,稍有懈怠就可能与终身教授的职位说再见,一同失去的还有获得稳定生计的最佳机会。他比我生命中的其他任何人都更清楚其中的利害。

我从头开始跟他讲清楚了事情的原委——虽然过去几年我一直念叨的就是这些事,他的耳朵都快起茧子了,比德曼的数字、wordnet、imagenet,还有我的梦想——理论上很完美,要实现很疯狂。

“飞飞,你现在拥有的一切都是你多年的努力换来的。你拿到了学位,找到了工作,听起来你还有些灵感,而且你丈夫生活在960多千米之外,所以你肯定也有时间。”

我咯咯笑了起来,他能如此轻描淡写,真好。

“是啊,但你不觉得这一切都……太出格了吗?”我问。

他想了一会儿才回答:“你不是一直在追寻出格的想法吗?”

有上万个类别的数据集有什么用?大部分模型连一两个类别都识别不准!

你知道用这么多图像训练一个模型要花多长时间吗?飞飞,这个时间可是用“年”来计算的。

别人要怎么下载呢?你这个图像总量比大多数硬盘的存储量还要大。

具体怎么做,你有计划了吗?几百万张图谁来做标注?要花多长时间?怎么验证所有内容的准确性呢?

不好意思,我真的感觉这个项目没法做。

每当我与同事们讨论imagenet的想法,我就越发感到孤独。虽然有西尔维奥的鼓励,但这么庞大的工程刚刚起步,就遭到了几乎所有人的一致反对,真是不祥之兆。我需要一群志同道合的伙伴,但现在似乎一个队友都找不到。最糟糕的是,不管我是否同意,我都无法否认他们批评的合理性。

毫无疑问,在2006年,算法是计算机视觉的中心,而数据这个话题并不十分吸引人。如果把机器智能与生物智能做类比,那么算法就相当于机器的突触,或者说是大脑中错综复杂的神经回路。有什么比让这些回路变得更好、更快、更强大还要重要的呢?我回想起我们那篇关于单样本学习的论文所受到的关注——只需要推出一个闪亮的新算法,装饰以华丽的数学公式,就可以立刻引发关注。而数据生活在算法的阴影之下,仅仅被视为训练工具,就像成长中的孩子玩的玩具一样。

但恰恰因为如此,我才认为数据值得更多关注。毕竟生物智能与算法存在区别——前者是进化而来的,而进化的本质是环境对生物产生影响。世世代代的祖先在地球上生存繁衍,适应环境,即使在今天,我们的认知也带有祖先所处世界的印记。正是出于这个原因,索普和比德曼的发现,甚至我们在加州理工学院实验室的发现才如此引人注目:我们发现,人类几乎瞬间就能识别出自然图像,因为正是这种感官刺激——或者说正是数据——塑造了我们。imagenet将为我们的算法提供同样的体验:同样的广度,同样的深度,同样的错综复杂,同样的壮观。

我听到的劝阻之声已经多得够我用一辈子了(可能下辈子也够了),最后我终于遇到了第一位支持者。李凯教授是微处理器架构领域的领军人物。微处理器架构是一门将数百万纳米级晶体管排列到世界上最复杂的设备中的艺术,因此他比大多数人都更了解指数思维的力量。他相信我的方向是正确的。尽管我们都在计算机科学领域,但领域之间没有太多交集,所以他无法直接为我做出贡献,但他知道我们需要强大的计算能力才能启动。他毫不犹豫地为我们的研究捐赠了一套工作站。这正是我所需要的支持。

我和李凯是普林斯顿大学计算机科学系教师中仅有的两位中国移民。他出生于20世纪50年代,是中国恢复高考后第一批上大学的人,80年代来到美国攻读研究生。在那个时代,像他这样的移民寥寥可数,他也很难找到有共鸣的同龄人。这段经历塑造了他活泼随和的个性,从他身上,我既能看到我母亲的聪明睿智,又能看到我父亲的谦逊幽默。李凯看起来就是个普通的教授,黑头发,大偏分,衣着朴素。但他笑容温暖,为人慷慨。我们很快成了朋友。

随着我对李凯的了解日益加深,我越来越明白他为什么比其他人更看好我的想法。他是高效连接微处理器和巨大内存存储的先驱,与他人共同创办了一家公司,把自己的研究成果商业化,最终以20多亿美元的价格售出。他不仅是大规模数据威力的早期信徒,也是利用大规模数据的专家。不巧的是,他即将休长假,这缩短了我作为他的年轻同事的时间。不过,他的离开也不完全是坏事。他有一个极聪明的一年级研究生叫邓嘉,他要给邓嘉找个新导师。据李凯介绍,邓嘉是一个完美的合作者,他年轻有为,工程天赋出众,对新的挑战充满渴望。

李凯和邓嘉在很多方面都截然相反。李凯开朗外向,邓嘉则内敛稳重。李凯激情四射,邓嘉则显得冷漠沉静。因此我担心自己难以判断他对我们的工作是否有兴趣。我们进行了几次交流,我能看出他非常出色,就算没有李凯的推荐,这一点也是显而易见的,但我从来没见过像他那样大智若愚、不露锋芒的人。

除了聪颖过人,我也注意到,邓嘉是计算机视觉领域的新人。他的背景与众不同,因此他不仅具备一般计算机视觉专业学生难以拥有的工程技能,同时还完全没有背负期望的包袱。这个项目不同于传统的研究项目,甚至可以说充满风险,与当时的领域潮流格格不入。对于这一切,邓嘉并不知情。

于是,我们两人组成团队,开启了这个似乎需要成千上万甚至更多贡献者的项目。大多数同事对我的假设都不屑一顾。单从理论上讲,这一切确实说不通,但这是我人生中第一次感受到一种毋庸置疑的自信。无论需要多长时间,我确信我们正在做一件大事,一件也许具有历史意义的大事。

我的新办公室位于普林斯顿大学的计算机科学大楼,虽然已经搬过来快四个月了,但地上依然堆满了半开的纸箱,墙壁上也空空如也。我靠在扶手椅背上,大声呼出一口气,转了转椅子。邓嘉坐在我对面的沙发上——这是我到目前为止为办公室添置的唯一家具。

“好吧,看看我们能不能弄清楚项目规模究竟有多大。”

我们以wordnet为起点,开始进行删减。虽然wordnet的卖点是规模巨大、细节丰富,但我们知道,其中的大部分内容对我们来说并不必要。imagenet的目的是捕捉事物的世界,而不涉及动作或描述,因此我们明确了第一批要删除的内容:所有的动词和形容词。但就算只剩下名词,处理起来也很复杂。像“真相”或“意识”这样的抽象概念是没有办法用影像记录的,只有指代实体对象的名词才会被纳入数据库。一般来说,我们需要的是有形、可数的物体。其他词汇都被删除了。

总的来说,wordnet中的14万个条目大部分都被我们删除了,只剩下可以用图像表示且可以计数的一小部分,约有2.2万个,虽然这个数量仍比我听说过的任何机器学习训练图像集都要大很多倍,但与初始的词汇量相比,已经大幅减少,而且跟比德曼估算的3万个种类非常接近。

邓嘉问道:“那多样性要怎么处理?每个类别需要多少张不同的图片呢?”

啊,我心想:现在终于有点儿眉目了。

我说:“那我们从生物学的角度思考吧。孩子是怎么长大的?我们的物种是怎么进化的?现实世界非常复杂,对不对?没有什么是非黑即白的,一切都在不断变化,但是我们依然学会了如何理解世界。我们生活在所有这些细节当中,自然而然地就成了专家。”我拿起桌上的马克杯,“但你问到了数字。那你告诉我,这个杯子在照片里有多少种不同的外观呢?”

邓嘉想了一会儿,回答道:“首先是尺寸不同。杯子在照片里可能会显得很大,也可能会显得很小,这取决于它跟相机之间的距离。”

“你说的没错,但我想要一个具体的数字。有多少个不同的尺寸呢?”

他又想了一下,然后耸了耸肩:“那可能是无限多的,对吧?没有办法给出具体的数字。”

“又说对了。”我狡黠一笑。邓嘉完全知道我说这些话是什么意思,但他愿意听我细细道来,得出结论。“所以尺寸是无限的。还有什么?”

“光线?杯子可能在明亮的光线底下,也可能在阴影中。还有颜色的区别。什么颜色的杯子都有,有些杯子上面还有图案或者文字。”

“很好,很好,那每一个条件会有多少种变化呢?”

“一样的,这两种情况都是无限的。”

“我们这才刚刚开始。那角度呢?杯子的把手朝向哪边?是从上方看还是从正面看?还有遮挡物。杯子前面有什么东西吗?是一摞书,还是猫的尾巴?或者是另一个杯子?还有背景。杯子后面是一面墙,还是一扇窗?杯子是在柜子里吗?”

“无限,无限,无限,无限。”邓嘉总结得相当准确。

我越想越觉得我们的研究具有发展潜力——我们正在尝试以数据的形式来复制儿童认知的形成阶段。我想象着孩子玩东西的方式,他们伸出手去抓、戳、摸索、拨弄。他们把东西拿起来,翻来覆去,从不同的角度观察,适应光线和视角的变化。他们玩躲猫猫游戏,了解到即使物体被暂时隐藏起来,它们也依然存在。这些都是我们的算法非常缺乏的本能。

“你说得对,但我们还是没有确切的数字。”邓嘉边想边说,“到目前为止,我们一直在用无穷大乘以无穷大。到底该怎么办呢?”

我回答道:“我要说的就是这个,再多的图像也不够。不管我们想到一个多大的数字,我们都应该想到它还可以更大,然后还要更大。反正怎么着都是在猜,那就不如往大里猜吧。”

于是我们确定了一个目标,为每个物品类别搜集1000张不同的照片:1000张不同的小提琴照片、1000张不同的德国牧羊犬照片、1000张不同的抱枕照片,直到涵盖全部2.2万个类别,也就是一共需要大约2000万张图片。但即便是这个数字,也只是最终成品数据库的情况。我们可能需要从数亿张照片,甚至10亿张照片中筛选,才能达到目标。

邓嘉面露疑色。“我从理论上能理解,但这个工作量也太大了,属于天文数字,可不是谷歌搜索几次就能完成的。”

他说的当然没错,但是我们需要拥抱现实,而不是逃避现实。我们的目标是捕捉完整的现实世界。如果这个总数不能吓到我们,那才奇怪呢。

“邓嘉,我们希望算法能够看到的一切事物都存在于这个世界的某个地方。在我们说话的这一刻,就有人在拍摄这所有的细节。现在人人都有翻盖手机,每个人的圣诞节礼物都是数码相机。想象一下,如果把所有这些照片都放在一起,我们会看到什么,我们会看到整个世界的缩影啊!那就是从世界一头到另一头的日常生活的全部。”

“就算我们想办法组织好了图片,”他补充说,“这些图像本身也没有任何作用,对吧?它们需要先标注,才能用于模型训练,而且每一个标签都必须是准确的。”邓嘉暂停了一下,好像才感受到自己说的话有多么重要,“听上去又是一个浩大的工程。”

“是啊,是啊。”我回答说,“让我们一次只创造一个奇迹吧。”

我和邓嘉在实验室一角,看着一排本科生不断地点击鼠标、敲击键盘。本周早些时候,我们发出了邮件,招募愿意帮忙从网上下载和标注图片的本科生,工作时间灵活,每小时10美元。我们很快就收到了一些回复。这看起来很公平:我们朝着机器智能的新时代迈进了一步,而大学生也能赚到一些啤酒钱。一时间,我们感到心满意足,但没过多久,现实就给我上了一课。

“邓嘉,是我的错觉吗,还是进展确实有点儿太慢了?”

“对,我也很担心。我对他们的速度做了几分钟计时,计算了一下。”

不妙。

“按照目前的速度,预计imagenet的完工时间是……”

我用力咽了一下口水。他注意到了。

“没错,差不多要19年吧。飞飞,我很看好这个项目,真的,只是我不能等那么久才拿到博士学位。”

有道理,邓嘉。

“那我们该怎么办呢?”他问,“再多找些本科生?”

“这当然是一种选择,但是得花不少钱。如果真要19年的话,我觉得我们实验室的预算也是不够用的。”

不管怎样,显然我们需要更多的大学生。当年做caltech101的时候,招募的大学生勉强够用,而那次的工作量不过是imagenet的零头。看来,我们必须采取新的策略了。

我想到邓嘉在加入我的实验室之前,一直在跟李凯研究各种极其复杂的系统,在工作中遵循效率为先的原则,以实现更高的性能、更低的成本、最短的路径。作为世界上最重要的微处理器设计师之一的门徒,他肯定能想到办法提高这些大学生的生产力。

“等等,邓嘉。”我指了指那些大学生,“这是一个流程,对不对?我的意思是,在某种程度上,这不就是一个工程问题吗?”

他沉思了片刻,然后看了看我,眼神里流露出准备撸起袖子大干一场的坚定。

“好吧。”他微微一笑,“那咱们就看看怎样优化吧。”

接下来的几个月有了一种节奏感,虽然这节奏感无法用优雅来形容。imagenet是一只拒绝被驯服的野兽,每当我们靠得太近时,它就会猛烈反击。在不懈努力下,我们终于取得了一些胜利——至少是小小的胜利,同时也累积了更多的擦伤和瘀青。但每当我们以为终于把它逼到墙角的时候,它就会发出一声更低沉、更嘶哑的咆哮,把我们吓得四下奔逃。

我很幸运,遇到了邓嘉这样一个愈挫愈勇的伙伴,他在面临难题时会加倍开动脑筋。在我们的流程中,人工参与是成本最高的部分,包括时间成本和金钱成本。所以他从成本入手,以“将成本降到最低”为个人使命。例如,当我们的标注员开始为特定类别整理照片时(比如“彭布罗克威尔士柯基犬”),最初我们预计每个步骤都需要手动完成:在谷歌图片等搜索引擎中输入关键字进行查询;梳理结果,找到清晰的例子;对每个例子进行标注;将最终选择的照片放在适当的目录中。但这些步骤大部分并不需要人类的智慧。

邓嘉实现自动化的第一个环节就是下载。之前下载图片,需要标注员手动在图片搜索引擎输入wordnet中的每个类别,现在邓嘉编写了自动化程序。但由于搜索引擎是为人类用户而不是为机器服务的,所以不会直接返回一组图像,而是以滚动缩略图网格的形式呈现在页面上。这时,邓嘉设计的程序就会解析网页的源代码,找到链接,并下载原图。尽管这个解决方案有些混乱,但可以让我们以最快的速度日夜不停地下载候选图片。我们想要下载多久,就可以下载多久,如果需要的话,连续几个月都行。下载的图片会自动整理在我们自己的机器上。

我们的资料库开始像变魔术一般被图片填满。诚然,我们这种广撒网的方式也捞回了很多垃圾,比如低质量的照片、剪贴画等,但也积累了大量高清图片。我们迅速填满了大量硬盘,现实世界的影像逐渐在图片中成形,虽然还很粗糙,却让我们第一次看到了对整个视觉世界的真实描绘。至少有一段时间是这样的。