“糟糕。”我听到邓嘉在实验室的另一边说。
“怎么了?”
“看上去出了点儿小问题。呃……没错,我们被谷歌封禁了。”“什么?封禁了吗?为什么?”
“显然是他们限制了单个用户在特定时间段内可以提交的请求数量。据我所知,大约在1000个左右。”
“特定时间段是多久?”
“24小时。午夜开始重置。这算是个好消息。”
“好吧,那我们每天多久会达到请求数量的上限?”
“嗯,这就是坏消息了。”邓嘉拿出日志文件,心算了一下,“大约9分钟。”
大事不妙。
图片存储库的增长停滞了。但我们的问题不止于此。整个流程的上下游极不平衡,甚至有些可笑。我们搜集的原始图片呈爆炸式增长,在遭到谷歌屏蔽之前,每天都有数以千计的新图片添加进来,但其中只有一小部分得到了准确的标注和整理。虽然我们从一开始就知道标注流程将会是一个瓶颈,但随着时间一周周地过去,这一环节给我们造成的负担还是让我们感到气馁。
我跟邓嘉在校园的马太餐厅讨论了这个问题。自从imagenet占据我的大脑,我甚至觉得做饭都是浪费时间,于是对校园餐厅的依赖与日俱增。此外,没日没夜地在实验室工作,我也很想换个环境。餐厅的天花板很高,吊灯简朴,彩色玻璃赏心悦目,让我们觉得仿佛在修道院里找到了避难所。
我们详细讨论了标注员在识别、分类和标注每张图片时所遵循的每个步骤,并尽可能使用快捷方式和定制工具来对它们进行简化。如果一个流程需要点击三次鼠标,邓嘉会想办法实现只需一次点击。减少打字次数,缩短鼠标移动距离,提高所有操作的速度。在我们交谈的时候,我不禁开始仔细观察桌上的物品,默默猜想它们是否属于我们那2.2万个类别。“餐巾”这一条目自然在列,但我们区分布餐巾和纸餐巾了吗?那是一把什么刀?除了“牛排刀”和“黄油刀”,还有多少种刀呢?“切肉刀”,我猜。“面包刀”?也许吧。仔细一想,确实有很多。这些我们都涵盖了吗?我在心里默默记下,打算回到实验室后再确认。
“对了,飞飞,你知道什么是动态ip吗?”邓嘉又拿出一个锦囊妙计。
“可以把动态ip看作是我们的机器连接谷歌服务器的中间环节。我们的实验室计算机保持不变,但动态ip会将我们与不断变化的中间商连接起来,这样谷歌就会认为那些搜索请求来自不同的用户。”
“这样我们就不会超过限额了?”
“远远不会。”
我们重整旗鼓,至少在一定程度上恢复了工作。标注依然是个问题,但看到备选的图库规模持续增加,我还是长舒了一口气。现在,就算是小小的胜利也值得庆祝。
几个月过去了,imagenet已深深植根于我的内心,成为我观察一切事物的镜头。无论是在实验室工作,还是在院子里散步,我都偷偷玩着视觉识别游戏。如果有人在遛一种我不认识的狗,我会想,是不是应该专门为这种狗建立一个子类别?骑独轮车的学生可能让我想到数据库里是不是没有“独轮车”这个词,更不用说不同种类的独轮车了——说到这个,有不同种类的独轮车吗?父亲喜欢的车库市场经历成了我的世界。一切都被放大到难以理解的程度,但其精神是一脉相承的——永不满足的好奇心,对新奇事物的渴望。我好奇我们家族是不是有这种基因。
奋斗继续,每走一步都是为了应对新的难题。我们发现特定类别的搜索结果过于相似,无法满足我们多样性的目标。于是,我们使用wordnet的国际翻译来提交不同语言的查询,希望来自世界各地的图像能够带来更大的差异。当找不到足够的图片时,我们就会在搜索词中添加相关术语,比如,不是搜索“柯基”,而是搜索“柯基小狗”或“柯基犬公园”。后来,搜索引擎巧妙地重新设计了搜索结果页面的布局,改变了每个图片链接的位置,导致邓嘉的一个自动下载程序无法继续使用,于是我们重新编写了与之匹配的程序,并开始定期检查是否发生了类似变化。
对一年前还在设计微处理器架构的邓嘉来说,这些都是非常平淡无奇的工程挑战。尽管如此,我们两个都知道努力是有意义的。它们可能只是权宜之计,过于简单,甚至粗糙,但每解决一个问题,我们都离自己的愿景更近一步,这个愿景就是让机器看到一个完整的世界;我希望在不久之后,机器甚至可以理解这个世界。
“斜管面吗?”我问。
“说对了!”西尔维奥把一碗热气腾腾的意大利面放在我的面前,高兴地回答道。
“等等,我们上周吃的那种叫什么?也是管状的,但更大,而且边缘不是斜切的。”
“那是粗通心面。”
“没错!粗通心面。那个我也喜欢。”
“你这么问,是因为你真的对我们国家的食物感兴趣,还是因为你在想imagenet里的意大利面的类型够不够多?”
我赶紧吃了一口面,对他的问题避而不答。而他则坐下来,双臂交叉,显然对自己的侦探技巧颇感自豪。
“不能两者兼有吗?”我最终回答道。
做imagenet已有一年时间,我感觉我们已经步入正轨。有了标注团队的工作,还有邓嘉在不断努力优化标注流程,我确信我们已经有所突破。我很好奇进展如何,而邓嘉知道我的想法(他经常能知道我在想什么)。
“你在想我们多久能完成imagenet?我已经重新预估时间了。”
我正准备问他这个问题。于是我兴奋地跑到他的办公桌前。
“好的,如果我们把所有因素都考虑在内:我们所有的优化和快捷方式,再加上已经标注的图片,我们已经设法将19年的预计时间缩短到……”
我突然失去了勇气,因为我预感结果会很糟糕。
“……大约18年。”
邓嘉虽然才华横溢,但巧妙地传达坏消息、减轻它对人的打击并不是他的技能之一。这么久以来,我第一次不知道接下来该怎么办了。
绝望激发了一种巴洛克式的创造力——当处境之惨淡变得越来越难以忽视时,我们想出了各种各样的点子,确实显得有些慌不择路。我们甚至想用机器来辅助我们的人工标注员。当然,这里涉及一些循环论证:如果算法能够足够准确地识别物体、帮助我们进行标注,那么我们压根儿就不需要imagenet了。然而,我们也想知道如果让机器扮演辅助角色,是否会带来一些便利。例如,我们可以让机器利用我和彼得罗开发的单样本学习技术,粗略但快速地标注大量图像,这样人工团队就可以更多地扮演编辑或校对的角色。这样做虽然有一定的道理(道理不多,且有待商榷),但我们始终未能找到合适的平衡点。
更重要的是,反对标签过程自动化的真正原因并不是在技术层面,而是在哲学层面。我们意识到,即使是微妙的算法捷径,也与imagenet的使命背道而驰。我们的目标是在每幅图像中都嵌入纯粹的人类感知,希望在整个图像集上训练出来的计算机视觉模型也能迸发出类似人类的智慧火花。使用机器可能会削弱这一点。
如果人力是瓶颈,而我们又无法再继续减少人工参与,那么我们剩下的唯一选择似乎就是蛮干:扩大我们的标注员团队,把预计完成时间从近20年缩至更短的期限。也许只需要增加10倍的人手——考虑到已经完成的工作,这样可能在一年半内就能达到目标。然而,我们的资金根本就不够。在投入了如此多的感情之后,最后竟然因为钱的问题而做不成,想想就令人愤懑。
“嗯。”我说,身体向后一靠,抬头盯着实验室的天花板。我突然有了一个想法。一个奇怪的想法。
“怎么了?”邓嘉从他的工作台上抬起头。
“我也说不准。我倒是能想到怎么可以筹到一些额外的资金,虽然不多,但聊胜于无。这绝对是万不得已的办法。”
“我听着呢。”邓嘉说着,凑近了一点儿。
我深深地陷进椅子里,缓缓地呼出一口气。我简直不敢相信自己即将说出口的话。
“你对干洗了解多少?”
我把遮光板翻下来,眯起眼睛看着夕阳。当车辆以每小时110千米的速度行驶时,视野会有些模糊,但看到的东西依然非常丰富。反光柱和里程标从我们的右侧飞速闪过,周围是沥青路面上的裂缝、岩石碎片,偶尔还有塑料瓶或皱巴巴的快餐袋。各种各样的标志呼啸而过,提醒我们注意限速、高速公路出口快到了,或者感谢一神论教堂的当地分会对下一千米道路的维护。车牌和保险杠贴纸。一只狗坐在副驾驶座上。
我们正在前往明尼阿波利斯的路上,2007年的计算机视觉与模式识别大会(conferenceoncomputervisionandpatternrecognition,cvpr)就在那里举行。随着我们的现金储备不断减少,imagenet已经岌岌可危,但有传言称实验室之外的世界依然存在,人间已是美丽盛夏。这次会议给我提供了一个完美的逃避借口。我租了一辆厢式车,载着实验室的几个学生前往参会。我期待着在这近2000千米单调而幸福的旅途中,可以暂时把工作放到一边,思考一些其他事情,任何事情都好。在接下来的几天里,我们唯一需要关心的事情就是吃饭、上厕所,还有听哪个电台。
可惜,没有什么能够阻止我对视觉世界的痴迷。我们开车穿过森林,我就忍不住好奇我们路过的是什么树,是枫树、白蜡树,还是白桦树?我们看到了麦迪逊这样的大学城,霓虹灯招牌闪烁,人行道繁忙,一个戴墨镜的学生躺在长凳上,三人乐队正在卖艺,一个弹木吉他,一个弹立式贝斯,还有一个在吹口琴。我们穿过熙熙攘攘的城市,几何造型的摩天大楼高耸入云,外墙反射着太阳的光芒。我们沿着五大湖行驶,不知道眼前这个是伊利湖还是密歇根湖,太阳照在水面上,浮光跃金,浪花拍打着岸边,孩子们追逐着潮水来回嬉闹,一对夫妇在沙滩上玩飞盘。
我再次想起了父亲。最近我常常想到他。他会在旧货摊之间徘徊,仔细检查二手面包机或录像机,他的痴迷没有止境,他的喜悦充满感染力。我不禁好奇自己的脸上是否也有同样的表情。
我想,生活中需要了解的东西太多了。很多东西都是通过眼睛看到的,但我的直觉和内心也都感受到了。imagenet可能注定要失败,但无论结果如何,这个项目的目标都是值得追求的。迟早会有人破解难题。当他们成功的时候,当整个世界连同它所有的色彩、混乱和世俗的魔法都涌进我们机器的思想中时,一切都将改变。
“飞飞,你现在有自己的实验室了,最近在忙什么呢?”
这是我最害怕听到的问题,但这个问题来自吉滕德拉——彼得罗的导师,也是我的“师爷”,他是我此行最想遇到的人。我们已经好几年没有面对面交流了,我知道他会出席计算机视觉与模式识别大会这样的活动。imagenet项目停滞不前,我的学术生涯前途渺茫,我需要见见熟人。他也不是第一次在这种场合鼓舞我的斗志了。
“说实话,吉滕德拉,这个话题有点儿让人郁闷。”
“哎呀。”
我把一切都如实告诉了他:我和克里斯蒂安的谈话,第一次见到wordnet时的情景,我和邓嘉所做的决定——每个决定都比上一个更艰难,以及这一年来我们为实现一个不可能实现的目标所经历的苦苦挣扎。
“还真曲折呀。”他回答道,语气一反常态地平淡。如果他对我目前介绍的进展情况有什么意见的话,他会选择闭口不谈。
“是的。最糟糕的是,这一切归根结底是个后勤问题,而不是科学问题。我始终确信,imagenet正是计算机视觉所需要的,要是我们能把这玩意儿搞出来就好了。”
“飞飞……”他开始小心翼翼地组织语言,“当然,没有人会不认同数据起着一定的作用,但是……”他停顿了片刻,然后继续说道,“坦率地说,我觉得你们在这个想法上投入得过多了。”
我浅浅地吸了一口气。
“科学的诀窍是跟随着你的领域一起成长。不要太超前。”
这真是出乎我的意料。吉滕德拉竟然站在反对者的一边,让我深受打击。这种打击不仅仅是在个人层面:等到我将来需要请人写终身教职推荐信的时候,我原本计划请他做我的推荐人之一(虽然在这样巨大失败的阴影笼罩下,能获得终身教职的可能性已经变得非常渺茫)。出于多方面的原因,他的观点很重要。
我几乎可以看到我的北极星在逐渐暗淡下来,我的道路又陷入了黑暗之中。一个可怕的想法开始在我心头升起:我承担的风险比我意识到的更大,而现在回头已经为时太晚。
在计算机视觉与模式识别大会之后的几个月里,我都不知道应该如何处理imagenet。要担心的事情有很多,但我总会想起邓嘉。他进入计算机视觉领域时才气过人却又稚气未脱,他信任我,让我担任他的导师。现在,我能感觉到他的挫败感越来越强,我知道他在担心自己的博士之路,我完全能理解他。我还记得自己在研究生时期的种种挣扎,一想到现在要把自己的学生引入歧途了,我的胃里就阵阵难受。
当然,科学研究上的挫败也同样令人痛苦。在经历了如此漫长的旅程之后,我无法接受我的直觉居然导致了错误的道路。我们突然失去了方向,仿佛头顶上是一片空荡荡的天空,在黑色波浪中漂泊。
然而,一切都还没有结束。
“打扰一下,飞飞。”
我正在赶去教职工会议的路上,马上就要迟到了,一个叫孙民的研究生突然出现在我面前。他能看出我在赶时间,但他看上去非常想要跟我聊聊,说话的时候甚至显得有些不安。
“请问你现在有空吗?”
他没等我回答。我对他比较了解,知道他说话时一般都是轻声细语的。看他今天的表现,显然是有大事压在心头。
“昨天我跟邓嘉在一起,”他继续说,“他跟我说了你们在项目标注问题上遇到的麻烦。我有一个你俩还没试过的办法,真的可以帮你们提高速度。”
我立刻忘记了自己还在赶时间,耳朵竖了起来。邓嘉还有社交生活?
孙民问道:“你听说过众包吗?”
他解释说,在线平台可以将任务分配和结果收集过程自动化,有效组织远程的临时工作团队,规模小到个人,大到数百万人的团队。“如果你感兴趣的话,亚马逊就在提供这种服务,叫作‘土耳其机器人’。”
这个名字很妙,源于18世纪的一种会下国际象棋的自动机器“土耳其机器人”。当时,这个机器人在世界各地巡回展出,被视为一个工程奇迹。它棋艺高超,就连国际象棋高手也甘拜下风。但实际上这个装置纯属骗局:在机器人底座里就藏着一个人类国际象棋大师,正是这个人在操控机器,让观众既兴奋又困惑。
几个世纪后,新兴的众包实践基于同样的理念:真正的智能自动化仍然最适合由人类来完成。亚马逊土耳其机器人(amazonmechanicalturk,amt)围绕这个概念建立了一个市场,“请求者”可以发布“人类智能任务”,由贡献者完成,这些贡献者被称为“土耳其人”(turker),他们可能来自世界上的任何地方。从理论上讲,这个模式很合理,似乎可以提供我们想要的一切:既有人工标注图片带来的智慧成分,又有与自动化相当的速度与规模。有趣的是,亚马逊称之为“人工人工智能”,这个名字相当贴切。
我急匆匆地穿过走廊找到了邓嘉,但他并没有像我这般兴奋。在经历了种种挫折之后,他有充分的理由对再次碰运气保持警惕。但在经历了这一切之后,他可以看到,这真的可能是我们一直在等待的救命稻草。他看起来既犹豫又宽慰。最终他同意了:亚马逊土耳其机器人值得我们再试一次。
我的北极星开始重新闪耀,我不禁再次感叹时机的重要性。imagenet之所以能够存在,要归功于互联网、数码相机和搜索引擎等众多技术的融合。现在,一个一年前还几乎不存在的平台提供的众包服务,成为让我们的项目臻于圆满的关键因素。这件事就是最好的例证,它让我深刻了解到,任何一个科学家的默认立场都应该是绝对谦卑,他们应该明白,没有哪个个体的智慧能有意外之力的一半强大。
亚马逊土耳其机器人改变了一切。它把我们起初的大学生标注员队伍变成了一个由数十人、数百人、数千人组成的国际团队。随着我们获得的支持不断扩大,邓嘉给出的预计完成时间急剧缩短,先是15年,然后是10年、5年、2年,最后不到1年。这为我们提供了全新的视角来看待预算,彻底颠覆了imagenet的成本效益。曾几何时,我们的预算只能招到几个标注员,连一个房间都站不满,而现在足以聘请一支遍布全球并通过互联网连接的众包团队。
在这个过程中,我开始越来越多地利用我在实验心理学方面的经验,帮助邓嘉创建一套系统,既可以最大限度地利用标注员的时间和注意力,又能尽可能地减少他们被误导、困惑或被操纵系统的机会。有时,土耳其机器人感觉就像我和克里斯托夫在加州理工学院做的人类心理物理学实验,目标是从陌生人的感知中提取微妙但重要的信息,只不过现在将范围扩大到了全球。在某些方面,工作难度降低了:我不需要去阅读别人的想法,而只需要把正确的标注应用到我们批量下载的图片上。然而,与此同时,工作也复杂多了:标注图片看似简单,但在实际操作上,却需要从数以万计的预定义列表中精确选出正确的类别。
然而,并非所有挑战都是技术性的。还有一些人文问题,比如人们对众包可能具有剥削性的担忧。虽然这种可能性直到多年后才引发广泛讨论,但即使在当时,也很难避免这种思考。这种反思促使我们在资金允许的情况下,为每张图像支付尽可能多的费用。imagenet是一项纯粹的科学研究项目,无须考虑利润问题,这让我们做决定变得容易很多。
对相关问题的研究也令人振奋,至少在当时是这样。2007年亚马逊土耳其机器人的一项人口统计发现,大多数贡献者将这项服务视为一种爱好或副业收入,而不是谋生的主要手段。当然,随着零工经济在后来几年的兴起,情况变得复杂很多。如今,已经很难将大数据的力量与其人力成本分离开来。
就这样,每天都有成千上万张新图像被标注出来。在imagenet发展的高峰期,我们是土耳其机器人平台上最大的雇主之一,这一点从我们每月的服务账单上也能看出。成本的确很高,但效果也很显著。
然而,我们的预算困境还没有结束。虽然土耳其机器人价格合理,但imagenet规模实在太大,所以我们很快发现自己再一次接近预算极限。从严格意义上讲,我们知道我们有能力完成这项工作,但我们不能排除可能发生的附带损失。imagenet可能是我们最大、最昂贵的单个项目,但它远不是唯一的项目;我们同时还在继续研究算法,研究生和博士后都在探索识别照片中物体,甚至是在视频中识别人类动作的新技术。每位研究人员都享有生活津贴,我们在提供津贴的同时,还为每个实验室都准备了额外的现金,以备不时之需。imagenet比以往任何时候都更接近完成的目标,但在这个过程中,它也把其他项目都推向了边缘。
在两年多的时间里,我们的财务状况一直岌岌可危,那是一段痛苦的日子,哪怕是路途中的一个小颠簸,都有可能让我们人仰马翻、一蹶不振,但imagenet日臻完善,终于成为我和邓嘉一直憧憬的研究工具。我们实验室自然是第一个将其投入使用的。即使是在未完成的状态下,它的影响力也让我们备受鼓舞。完工在即,我们不再需要依靠想象力;大家第一次清楚地意识到,我们正在创造一个值得与全世界分享的东西。
在那段时间里,我工作之外的生活异常稳定。母亲的健康状况如预期中一样继续恶化,但自她从干洗店退休后,就再也没有遇到过我们一直担心的那种令人心惊肉跳的危机。她甚至还培养了业余爱好,对摄影产生了浓厚的兴趣。父亲的生活方式也变得更加休闲,多年来第一次可以自由地享受烹饪的简单乐趣。我和西尔维奥之间的距离仍然让我们感到困扰,但我们在安阿伯和普林斯顿之间已经往返太多次,几乎形成条件反射了。事实上,由于西尔维奥每次来看我都是同一个路线,后来连飞行员都认得他了。
我还开始不定期地前往旧金山湾区,拜访斯坦福大学的机器学习和计算机视觉先驱,其中包括吴恩达(andrewng)、达夫妮·科勒(daphnekoller)和塞巴斯蒂安·特龙(sebastianthrun)。我们见面时会先进行友好的思想交流,他们会对imagenet给予肯定(这类对话为数不多)。不过,就像几年前在普林斯顿大学时那样,对话很快就会变得更加正式。最后,我接到了计算机科学系主任比尔·达利(billdally)的电话,他代表了官方的意见,询问我是否有兴趣把实验室搬到加州。
我在普林斯顿大学做教师尚不到三年,无法想象在此时另谋职业。但我从来没有亲身体验过斯坦福这样的大学,也没有经历过硅谷这样的地方。我在新泽西州的一个移民社区长大,之后几年一直隐居在学术界,除了中餐馆和干洗店,我对商业世界知之甚少。相比之下,斯坦福大学处于科技行业的核心地带,我们研究探索的想法在这里得到了全球范围的实践。虽然我个人对进入这个世界并不渴望,但斯坦福大学给这个世界带来的影响力给我留下了深刻的印象,惠普、思科、太阳微系统、谷歌等众多公司都与这所学校有着千丝万缕的联系。我在这里遇到的每个人似乎都被触及真实人类生活的可能性激励着。
尽管如此,对于搬到湾区这件事,我的内心还是非常矛盾。普林斯顿大学对我的职业生涯的帮助比其他任何学校都要大。在我高中毕业时,普林斯顿大学通过一揽子经济援助计划,在一个下午就改变了我的人生,每次回想起来都让我感动不已;然后它又给了我第二次机会,让经验尚浅的我担任助理教授,还为我提供了自己的第一个实验室和第一个博士生,让我有机会与我热爱和敬重的同事们一起成长。
我还要考虑一些人,而且比以前考虑得更多。父母的需求把我推向了一个方向,因为在帕萨迪纳的生活表明,西海岸的气候对母亲来说更为温和。但对萨贝拉一家的思念又把我推向了另一个方向。他们不再是我的“美国”家人,而是我真正的家人。一想到我们又要远隔几千千米(这次也许是永远分开了),我就非常心痛。西尔维奥介于两者之间,不管怎样,他都会留在密歇根,只是我搬到加州会让我们异地婚姻的距离更远。
然而,如果仅是以一名科学家的身份来做决定,那就简单多了。我处于迅猛发展的年轻领域,这个领域有希望在我的有生之年改变世界。我在斯坦福大学遇到的人同我一样,由衷地相信这一点。普林斯顿大学让我有家的感觉,但我不能否认,斯坦福大学似乎更适合我的研究。事实上,我想得越多,就越担心像“家”一样舒适的地方在这种时候可能会过于安逸。搬到一个新地方之所以吸引我,正是因为那里不舒适。它会让我感到不确定,甚至可能有些冒险,而我就需要这种感觉。
于是,在2009年,我决定再次前往西部,邓嘉和我的大多数学生也跟随我转学。斯坦福大学成了我们新的学术家园,它的面积之大足以让普林斯顿大学和加州理工学院相形见绌。由砂岩、拱门和自行车道构成的独特建筑风格非常引人注目,校园几乎终年都沐浴在阳光下。在这一切的背后隐藏着一个历史悠久、根基深厚的世界,虽然当时很少有人提及,但与我的工作息息相关,甚至连我自己都尚未完全领会。这个世界比机器学习更重要,比计算机视觉更宏大。这是一个几乎被人遗忘的世界,曾经囊括了机器学习、计算机视觉以及众多其他领域,它就是“人工智能”。
作为斯坦福大学的新教授,我遇到了很多人,其中就有当时的大学教务长约翰·埃切门迪(johnetchemendy)。当时我已经认识了很多管理者,但我一眼就看出约翰与众不同。他是一位哲学家和逻辑学家,在加入管理部门之前,已经担任教授数十年,讲授符号学、逻辑真理和语言哲学等课题。他极其聪明,似乎不经意间就能散发出智慧的光芒,同时也很友善,是个出色的倾听者。当他随口提到约翰·麦卡锡时,我的心跳漏了一拍——约翰·麦卡锡是人工智能的奠基人之一,也是达特茅斯暑期项目的主要组织者,“人工智能”一词就是从这个项目而来。
他说:“你知道,约翰是我的一个朋友。”
我不确定哪个更离奇:是我的新教务长与这样一位传奇人物私交甚笃,还是他如此淡然地提及此事。无论是哪一个,我都觉得自己来对了地方。
2009年6月,imagenet的初始版本终于完成了,这在很大程度上得益于斯坦福大学提供的新研究资金。尽管我们一路上遇到了许多挑战,但我们最终成功达成了目标:收集了1500万张图片,涵盖了2.2万个不同类别。这些图片筛选自近10亿张候选图片,并由来自167个国家的4.8万多名全球贡献者进行了标注。imagenet不仅在规模和多样性上达到了我们多年来梦寐以求的水平,还保持了一致的精确度:每张图片都经过了手工标注,并在层次结构中进行了组织,经过了三重验证。
从数量上看,我们已经实现了既定目标,建立起了当时人工智能史上最大的人工编辑数据集。但在这些数字之外,最让我感动的成就是我们所构建的真实世界本体。这个本体是人类从零开始策划的,既包含视觉图像,又能传达逻辑概念,其唯一的目的就是教导机器。
2009年的计算机视觉与模式识别大会在迈阿密举行,我们不仅是参会者,也是演讲者。迈阿密热浪袭人、色彩绚丽,从我们踏出行李提取区的那一刻起,就发现这座城市果真名副其实——霓虹色泳装、锃亮的跑车、高楼大厦在绿树蓝天的背景下交相辉映,周围的声音充满了节奏感。外部环境的活力反映了我们内心的急不可耐;在经历了近三年的跌宕之后,我和邓嘉都迫不及待地想向世界展示imagenet。
我们已经准备就绪。这个项目的孕育过程异常漫长,给了我们充足的时间来磨炼我们讨论项目的能力,我们急切地想把这项技能付诸实践。长久以来,即使简单提及我们的工作,也会引发极端化的听众反应,因此,无论听众的反应是好奇、困惑,还是抵触,我们都早已习以为常。我们做了相应的准备,反复练习如何慷慨激昂地为自己的目标辩护,并准备好了最佳回答来应对最常见的批评意见。虽然我们意识到自己可能已经在风口浪尖上,但我们还是想挥霍项目预算的最后一点儿钱,进一步自我宣传。
“这是什么?”当我把一个白色纸箱递给邓嘉时,他问道。
“打开看看!”我说。
他撬开固定盖板,往里面看了看。“呃……是笔吗?”
“是印有imagenet标志的笔!我在网上定做的。”
“我的意思是,看着挺酷的,但这些笔是做什么用的?”
“我们可以在会议上发放!所有的科技公司都是这么做的。商品推介都是采用这种方式。我们需要人们记住我们。”
邓嘉的表情不知为何比平时更加茫然。但我毫不气馁。
作为一个过度劳累的书呆子团队,我们拿出所有自信来到会场,然而气氛从一开始就显得怪异。我们遇到了第一个也是最严重的挫折:imagenet被降级为“海报展示”。所谓的“海报展示”是一个学术术语,意味着我们将不能按照预定的时间在演讲厅内向听众展示我们的工作,只能在会场的指定区域里摆放一幅印有项目摘要的大幅海报,希望能引起路人的兴趣。当然,在计算机视觉与模式识别大会这样的顶级盛会上,就连海报展示的机会也非常难得,我们能够参与其中就已经很幸运了,但我们还是渴望有机会能够充分展示我们的愿景,而不仅仅是简单介绍。经过这么多年的努力,却只有一个这么潦草的环节,不禁让人感觉高开低走,大失所望。
我们回答了一些常见问题,也进行了几次愉快的交谈,但最终的成果却微乎其微。我们很快就明白了,无论imagenet的前景如何(是被当作丰富无比的资源受到欢迎,还是被当作愚蠢的项目弃之不用),在这个大会上都无法得到推动。但好的一面是,这些定制的笔似乎还挺受欢迎。
与此同时,当我重新适应了没有imagenet挑战的生活时,我多年来一直拒绝承认的疑虑比以往任何时候都更加真实。那些反对者是对的吗?这一切真的是在浪费时间吗?imagenet不仅仅是一个数据集,甚至也不仅仅是一个视觉类别的层次结构。它是一个假设、一个赌注,它受到我们自身生物学起源的启发,即实现真正机器智能的第一步,是沉浸在完整的视觉世界中。与我们自身进化过程中的混乱和复杂性相称的体验,可能会对我们的算法产生类似的影响。这个赌注既可能被证明是对的,也可能被证明是错的,对于这两种可能性,我都做好了准备。无论是哪种结果,都会是一个学习的机会。然而,我万万没想到,它被忽视了。
我错过了什么?