experimentation
在imagenet的帮助下,alexnet焕发生机,它贪婪地吸收着imagenet的内容,在imagenet规模和多样性的土壤中生根发芽,茁壮成长。
秋色已尽染日本京都。午后的阳光明媚,从子弹头列车的车窗向外望去,绿色、橙色和红色飞掠而过,如同一幅幅生动的画作。列车以每小时320千米的速度飞驰着,窗外的乡村树木葱郁,景色绚丽。然而,美景当前,我却无心欣赏。这段旅程漫长而艰辛,焦虑如影随形。在之前的计算机视觉与模式识别大会上,imagenet三流水准的初次亮相令人失望,此后的几个月更是连遭挫败。我们的批评者依然对这个数据集不屑一顾,其他研究实验室也对其兴趣寥寥,imagenet走向无人问津似乎已经不可避免。为了力挽颓势,我临时决定去尽可能多的大学做现场讲解,尽管听众席上坐的往往是持怀疑态度的研究生和博士后。我能做的不多,但仅仅是让这个不可避免的结局推迟出现,也感觉像是一场小小的胜利。
现在,提高我们知名度的又一个大好机会就在眼前,今年的国际计算机视觉会议即将在京都召开。与我同行的是亚历克斯·伯格(alexberg),他是纽约州立大学石溪分校的助理教授,也是跟我志同道合的计算机视觉研究者,他的研究生导师是吉滕德拉。亚历克斯极具天赋,他本着与我和彼得罗协作时相似的精神,致力于探索“物体识别”的挑战。他在博士论文中使用了caltech101,对数据集的价值非常认同,也成为imagenet为数不多的支持者之一。能与同道中人共勉固然让人振奋,但也凸显了前路之孤寂和艰辛。
眼下的一切与我们刚搬到斯坦福大学的实验室时的兴奋之情形成了鲜明对比。彼时的我们坚定地认为,我们所掌握的不仅仅是一个数据集,更是一个测试平台,可以把我们的想法与整个视觉世界联系起来,拓宽我们算法的感知能力,同时用比以往更严格的方式对算法进行测试。如果说可以把图像数据集视为计算机视觉研究的语言(也就是算法及其开发人员可以探索的概念集合),那么imagenet就是词汇量的突然爆发性增长。
我们实验室所做的每一件事都充满了活力。有一次,我们利用imagenet快速训练了数百个图像分类算法的实例,让它们识别一组日常事物,然后将所有实例应用在一张照片上。实验目的并不是简单地检测单个物体的存在,而是通过寻找物体组合来诠释整个场景。例如,如果检测算法发现了一个人、一艘船、一只桨和一片水域,它就会将照片作为一个整体归类为“划船”。这是一种更深层次的理解,可以说接近于原始的视觉推理。
就像我们那个时代的许多实验一样,我们使用的算法准确性很不稳定,还有很大的改善空间。毕竟,就连简单的图像识别也仍处于起步阶段。但困难只会进一步激发我们的冒险精神。我们的研究大胆且具有前瞻性,虽然并不完备,但能引发思考,其中很多在概念上也很简单。但直到imagenet出现,一切才变得切实可行起来。
与此同时,邓嘉也开始在学术领域崭露头角。在imagenet发布后一年左右,他发表了题为《对超过10000个图像进行分类能告诉我们什么》的论文,总结了imagenet出现后图像识别领域发生的根本性变化。尽管论文技术性很强,但其中所蕴含的哲学思想使它有别于一般的学术论文。这篇论文宛如一个预言,甚至触及了存在的本质。邓嘉认为,imagenet不仅代表了规模的扩大,还代表了分类逻辑的转变,类似于物理学领域的“相变”,在这种转变中,甚至现象的最基本属性也会发生变化。imagenet极大地拓宽了算法面临的可能性,但因为规模太大,也给算法造成了挑战(相比而言,小型数据集就不会有这个问题)。
说得更专业一些,imagenet所提供的“语义空间”在不断扩大的同时,也变得更加密集,导致正确答案与错误答案之间的差距越来越小。在实际应用中,这通常意味着那些在区分少量差异较大的类别时运行出色的技术,在处理imagenet的上万个类别时会表现不佳,因为很多类别之间的差别都非常细微。有些技术甚至会完全失效。这种现象刚开始时令人羞愧,但最终会催人振奋,因为它表明未来的算法不仅是当前算法的改进,而且会以一种我们预料不到的方式,从根本上发生变化。
“你知道我最喜欢caltech101哪一点吗?”亚历克斯的话把我拉回了现实,“除了里面的训练数据,它还让我有机会用完全相同的图像,把我的研究结果和你的进行比较,做同类对比。”
“相当于一个基准。”我回答道。
“没错,这样就很容易衡量进展。还有什么比这更能激励研究人员呢?就像是发起了一个挑战,就像打赌一样。”
就像打赌一样,我喜欢这个说法。
“那么……如果我们用imagenet做同样的事呢?”我问道,边思考边说,“或者,干脆我们就用imagenet搞一个完整的竞赛怎么样?”
“你是说像pascal那样的吗?”
pascal视觉对象类别数据集(通常称为pascalvoc)是一个欧洲研究团队汇编的数据集,包含大约1万张图片,分为20个类别。pascalvoc与caltech101类似,但有一个重要区别:pascalvoc是年度计算机视觉大赛的基础数据集。该大赛始于2005年,每年都有来自世界各地的参赛者提交经过pascalvoc训练的算法,然后用这些算法去识别一组以前没有见过的新图片,最后根据分类的准确度对算法进行排名,错误率最低的即为获胜算法。比赛既具有协作性,又具有竞争性,吸引了各方对计算机视觉领域最新进展的关注。而参赛者所使用的数据集仅有imagenet的千分之一大小。
“那就有意思了。”亚历克斯回答道,“我都可以想象研究人员在互相交流新想法的时候问:‘它在imagenet上的表现怎么样?’”
这样一来,imagenet也成了计算机视觉领域的北极星了,我想。
如果邓嘉论文的核心思想是正确的,如果imagenet真的会引起一场大洗牌,带来新的规则、新的直觉,甚至全新的范式,那么还有什么比通过比赛来探索这个数据集更好的方式呢?激烈的竞争压力可以激发合作的集体力量。比赛要遵循一定的规则,但又要有探索性。即使经过多年的努力创建了imagenet,仅仅是想像着把它做成比赛,也为它注入了新的生机。
这也意味着将imagenet推向世界的工作尚未结束。
一回到美国,我就开始了比赛的筹备工作。乍看之下,比赛规程似乎简单明了:使用imagenet来训练算法,用一组算法从未见过的图像对其进行测试,评估算法对图像标注的准确率,以此计算排名,总错误率最低的算法胜出。然而,从实际操作上看,将数据集转化为竞赛本身就是一项科学挑战。
在象棋、扑克或篮球等比赛中,胜负的概念简单明了。然而,在科学竞赛中宣布获胜者类似于做出了一项承诺:承诺不仅参赛算法在某些方面表现优异,而且算法设计对整个领域做出了贡献;承诺获胜算法能给我们带来全新的启示、深刻的见解,甚至变革性的成就;承诺比赛结果就是迈向北极星的下一步。这是一个重要而庄严的声明,发表的时候必须充满信心。
在这种情况下,竞赛的严谨性和透明度都至关重要。为了实现这两大目标,我们起草了大量文件,详细解释算法的分析方法,解读对算法性能进行量化的精确公式。除此之外,灵活性也很重要。毕竟,当给照片分配标签时,就算是人类,也可能会对哪个物体最相关产生分歧。例如,想象在一张水果摆盘的图片里,草莓和苹果都非常显眼,因此都可以被视为照片的核心特征。如果给这张图片标注“草莓”而不是“苹果”,算“错误”吗?
为了避免误判表现优异的算法,我们允许算法给每个条目添加五个标签,标签以相关性排序。比如,在上面的例子中,“草莓”和“苹果”这两个标签都算正确答案。我们把这种评估标准叫作“五大标签错误率”。这种标准可以鼓励参赛者明智地分散识别风险,确保他们的能力得到最充分、最公正的展现。
就像imagenet本身的创建过程一样,比赛带来了一连串意料之外的挑战。我们花了数周时间研究与参赛者共享数据集的统筹问题,最终选择分发一个精简的子集:比赛所用数据库约占imagenet图像总量的十分之一、总类别数的二十分之一,共包含约140万张图片,涵盖1000种日常物品、植物和动物。为了确保为算法提供新颖的测试,我们再现了imagenet的大部分开发过程——我们重新下载并标注了数十万张新图片,又进行了一轮众包标注。总之,我们花了几个月的时间来筹备比赛。
在筹备过程中,邓嘉的支持团队不断壮大,其中就有像奥尔佳·鲁萨科夫斯基(olgarussakovsky)这样的新人。奥尔佳是一位聪明且充满活力的研究生,一直在寻找有意思的项目来贡献自己的力量。她双眼有神,卷发及肩,说起话来很有感染力,在人群中非常显眼。从我们第一次见面开始,我就很喜欢她,尤其让我印象深刻的是她身上那种不着痕迹的反差:她性格活泼,很容易被误认为是土生土长的加州人,但事实上,她出生在乌克兰,经常谈起她还住在哈尔科夫的祖母。她不仅智商高,也是我们系里少有的社交能手。我知道她有足够的才智在幕后为项目做出贡献,但我也暗自揣测,也许有一天,她可以利用自己天生的才智成为代表项目的公众人物。
“激动吗?”奥尔佳问道。
我确实很激动。网站第二天就要正式上线了,竞赛消息也会同时公布。团队正在实验室里熬夜做收尾工作。
“告诉我,”邓嘉说,“你在这里的终极目标是什么?”
imagenet项目进入最黑暗的日子以来,我几乎再也没有思考过其他问题。考虑到我们所做的一切工作,我发现仅仅将imagenet视为一个数据集就过于狭隘了。即使到了现在——尤其是现在,在比赛近在眼前的时刻——imagenet仍然只是一个假设、一个赌注,赌的是计算机视觉领域最需要的东西,是获得长久以来哺育着人类感知能力的多样性和变化性。
我乐观地认为突破就在眼前,但又担心通往突破的道路崎岖难行,毕竟imagenet体量庞大,对任何一种算法来说都是难以驾驭的。我们讨论了目前流行的各种算法,如支持向量机(supportvectormachine,svm)、随机森林(randomforest)、自适应提升(boosting),甚至是我和彼得罗在单样本学习论文中使用的贝叶斯网络,都会不堪重负,这迫使我们去创造一些真正的新算法。
“我不认为imagenet会把现有的算法变得更好。”我说,“我认为它会让它们过时。”
比赛的正式名称为“imagenet大型视觉识别挑战赛”(imagenetlargescalevisualrecognitionchallenge,ilsvrc),对所有人开放,获胜者会即刻获得认可。首届比赛将于2010年举行,5月开放报名,9月统计结果,同年晚些时候,会在克里特岛举行的欧洲计算机视觉大会(europeanconferenceoncomputervision,eccv)研讨会上公布获胜者。在研究界看来,赛事的准备工作似乎进行得天衣无缝,但其实这多亏了幕后一些外界力量的帮助。
考虑到我们缺乏办赛经验,再加上imagenet的知名度还很低,我们联系了pascalvoc的创始组织者马克·埃弗林厄姆(markeveringham)。马克是牛津大学的研究员,也是计算机视觉领域冉冉升起的新星。当时pascalvoc已经进入第六个年头,而imagenet才刚刚起步。马克非常热心,同意把imagenet作为pascalvoc竞赛的一个新赛道。这一举动非常慷慨,让我们有机会在已经建立起来的框架中学习相关技巧。
当时与计算机视觉相关的竞赛相对较少,因此创办新竞赛足以激起不小的水花,吸引一些早期的关注。我们一开始就收到了150份报名表,最终共有11个团队提交了35个参赛作品。虽然参赛算法不是很多,但我们终于迈出了第一步。
在某种程度上,在首届imagenet挑战赛前夕,我们的心情甚至比一年前imagenet发布的时候还要激动。发布产品是我们向世界展示自己创造的东西;而现在,世界将向我们展示他们用imagenet创造的东西。我们整个项目都是以生物视觉原理为基础,而挑战赛就是对相关生物影响的有力延续。imagenet的基本理念是算法需要直面其所处环境的全部复杂性和不可预测性,也就是真实世界的本质。竞赛将使算法面对的环境充满真正的竞争压力。
就像我们的三叶虫祖先漂流在古老海洋中一样,现代世界的计算机视觉算法即将坠入自己的进化熔炉,接受严峻的考验。提交的作品代表了使用imagenet完成的第一代研究成果。手握这些作品,我不禁想,这是否就是答案了?我们即将瞥见某个新的前沿了吗?
然而,现实却与我们的期望背道而驰。
获胜算法来自一个由nec实验室、罗格斯大学和伊利诺伊大学的研究人员组成的联合团队。他们采用的是支持向量机算法,这也是我此前认为无法驾驭imagenet的一种算法。支持向量机这个名字听上去相当晦涩,取自该算法利用的高维几何的一个特征,象征着其抽象本质。支持向量机在过去几年非常流行,到2010年,它似乎已经成为物体识别的实际标准。这个参赛算法的表现确实可圈可点,我们对每位参赛者的努力表示赞赏。不过,与计算机视觉领域其他方面的前沿工作相比,这些算法只能算略有改进,很难说开启了新的时代。
在imagenet的发展历程中,有很多令人泄气的时刻,这次就是其中之一。如果说2010年的比赛虎头蛇尾的话,那么2011年的比赛则给人一种末日之感。2011年的获胜算法来自法国施乐研究中心,也是一种支持向量机算法,识别表现虽然比前一年有所提高,但也只是将准确率提高了2个百分点左右。
我开始意识到自己可能误判了。正如我猜测的那样,大多数算法都难以应对imagenet,但支持向量机比我想象的要强大,它为参赛者提供了安全的避风港,阻碍了我梦寐以求的激进创新。连续两年,司空见惯的算法都只是在能力上略有提升,几乎没有任何真正的进步。最糟糕的是,参赛人数也出现急剧下降:第二年的报名人数从150人减少到96人,参赛算法也从35个减少到15个。愿意为此付出努力的人似乎越来越少,也许这并不奇怪。
说这种经历“让人羞愧”已经远远不足以描述我们的心情了。为了推动imagenet的发展,我们倾注了多年的心血,搜集的图片数量远远超过以往的任何数据集,还精心策划了一场国际竞赛来探索它的能力,但结果却只是简单地重复了现状。如果说imagenet是一场赌注,是时候开始思考我们是不是已经输了。
“西尔维奥!快看!我刚才就想给你看!”
我听到父亲在走廊那头得意地喊道,让西尔维奥过去看他在车库市场中的最新收获。我们居住的加州郊区面积大,全年气候宜人,尤其适合进行车库市场。搬到这里后,父亲依然对他最大的爱好充满热情。他还是对那些带有一丝意大利血统的物品情有独钟,尤其引以为豪的是最近买的一条腰带,上面盖着他最喜欢的印章:“意大利制造”。我不禁想,这么多年过去了,他是否意识到,他的女儿其实比他更胜一筹:不仅找到了意大利制造的稀世珍品——一个好男人,还跟他成了夫妻。父亲正拿着一条腰带给这个男人看。
“啊。”我听到西尔维奥回应道。我暗自发笑,他的汉语词汇量屈指可数,这个音节就是其中之一。
现在,我和父母住在校外教工区的一栋联排别墅里。这里非常舒适,我们心怀感激,但我觉得自己的生活依然七零八落。我和西尔维奥还是两地分居,一有时间就去探望彼此,所以很少跟身边人打交道。跨国飞行仍是家常便饭,大部分时间都用来打包行李、往返机场、协调通勤。我们感觉自己就像是空中居民,并没有生活在陆地上。
尽管如此,在喧嚣的背后,仍能找到一种异常的平静。母亲的病情相对稳定。尽管异地婚姻带来了很多麻烦,但西尔维奥经常过来看我,跟我父母的关系也日渐紧密。每次过来,他都会亲自下厨,想用美食俘虏我父母的胃;而他们也报之以李,每次西尔维奥来到后的第一顿晚餐,他们都会亲手准备丰盛的家常菜。这总会让我想起小时候在成都的日子,每逢周末都会到外祖父母家,品尝他们精心准备的炖肉、炒菜、凉拌菜、米饭和汤。
作为晚饭现场的唯一翻译,我的任务就是帮助他们交流,主要的聊天内容就是中国美食。在西尔维奥眼里,中国美食文化博大精深,让他深感好奇。他的钦佩之情发自内心,并不是为了讨岳父母欢心。父母做的中餐非常地道,并没有照顾西方人的口味,反而让西尔维奥更加喜欢。吃晚饭的四个人都是移民,但在这张餐桌上,国界似乎消失了。
一切都很美好,只可惜,这种美好太过短暂。
仅仅几个月后,我就动弹不得了,无形的疲惫感深入骨髓。我步伐沉重,抬不起胳膊,睁不开眼睛,好像有千钧重负压在身上。我和西尔维奥非但没有解决异地婚姻的任何问题,反而做出了一个极其理性的决定,让问题变得更加复杂:我们决定要孩子了。我的孕期反应非常大。
特别是到了孕晚期,我感觉度日如年。除了常见的孕期反应,我还出现了一些找不到原因的症状,医生告诫我,在分娩之前,不可以再出行。但是,世界并没有放慢脚步,时代的洪流继续冲刷着我——学生、研究、教职员工和正在进行的imagenet项目。我每天都盯着电脑办公,手机震动个不停。
有一次,手机突然在半夜震动起来。我拿起手机,发现是琼·萨贝拉打来的。我觉得有些不对劲。
“琼,怎么了?”
电话那边停顿了片刻。“飞飞,鲍勃摔倒了。”
“什么?什么意思?他受伤了吗?”
“不是,不是。我的意思是,问题挺严重的,他好像失去平衡能力了,感觉很不正常。”
我还是没明白。琼听起来像是在描述别人的祖父,而不是鲍勃。鲍勃还年轻,不可能发生这种事。
“你带他去医院了吗?”
“我现在就是在医院给你打的电话。医生做了快速脑部扫描,我们还在等详细结果,但是……”她慢慢地叹了口气,“飞飞,情况看起来很不好。”
我使劲咽了咽口水,坐直了身子。我说想跟鲍勃通话。我听到琼把电话递了过去,用我几乎听不清的声音说:“是飞飞的电话。”
“喂?”
这不是鲍勃的语气。
“是鲍勃吗?呃……琼说你摔倒了。你还好吗?现在感觉怎么样?”
我本来想跟他说说话,确认他没事,但他的声音听起来很遥远,似乎说话很费力气。
“鲍勃,”我意识到问题的严重性,声音越来越轻,“你想让我飞过去吗?我可以马上过去。”
鲍勃在电话那头沉默了片刻,这时我才意识到,我的话让他始料未及。他知道我的预产期还有几个月就到了,也知道医生禁止我出行。在这种情况下,我还提议去看他,已经能够说明事情的严重性了——直到把话说出口,我自己才意识到这一点。
沉默。然后是一阵急促的呼吸声。微弱、嘶哑、颤抖。不可能是我想的那样。他……在哭吗?鲍勃从来没有在我面前哭过。我听到了激动的摸索声,琼又拿回了电话。
“怎么了?飞飞,你对他说了什么?!”
在接下来的24小时里,我坐立不安,焦急地等待着琼的消息。
终于有信儿了——胶质母细胞瘤。晚期。无法手术。
鲍勃要死了。
我不敢相信。我开始给我认识的每个人打电话,迫切地寻找可以提供帮助的人。在我家多次出现健康危机时,他一直是我们的救命恩人,我也一定要尽全力帮他。一个偶然的机会,我通过一个奖学金项目联系上了附近一所大学医院的神经生物学部门。第二天,他被转到最先进的护理病房。
鲍勃对我太重要了,我尽了自己最大的努力,却无法控制病情的发展。他的身体状况急剧恶化,在发现肿瘤短短几天后就完全失去了意识。医生们竭尽所能,但他再也没有醒过来。不到三周,那个从高中起就一直是我的第三位家长、如同我家人一样的人,就这样与世长辞了。
我们全家人都沉浸在极大的悲痛之中。父亲一听到这个消息就泪流满面。母亲依旧沉默寡言,但我知道她和父亲的心情是一样的。他们也和这位“大胡子数学老师”有着特殊的情谊,多年来,他们一起帮助我这个容易陷入痴迷的移民女孩度过了艰难的青春期。就连西尔维奥也受到了影响,他只见过鲍勃几次,但已经逐渐明白他在我生命中独一无二的重要性。此外,鲍勃的家人跟西尔维奥一样来自意大利那不勒斯。西尔维奥知道依照医嘱,我不能去参加葬礼,但他担心我会因此遗憾终身,于是他放下手头的一切,从西海岸到东海岸,飞越整个美国,代表我参加了葬礼。
我仍然记得鲍勃在帕西帕尼高中的办公室“数学实验室”,墙上的书脊如彩虹一般。我还记得,我们的谈话为我提供了每日的避风港。我还记得,如果我考试成绩不好,他会严肃地批评我。在加州理工学院读书的时候,他告诉我研究生宿舍房间应该怎么选,对各种大小事情,他都像慈父一样给我建议。我还记得,我们每周都会打电话,这些通话在我的生活中勾勒出一条连续的轨迹。我还记得,他慷慨解囊,借钱帮我家开干洗店,把我们从绝境边缘拉了回来。我还记得,不到一年前,我最后一次去新泽西是参加鲍勃的退休聚会;他站起来发表演讲,毫不隐晦地说,他为“他的两个儿子……和他的女儿”感到骄傲,听到这样的话,我一时不能自已。
斯人已去,但足迹不灭,思想不朽。鲍勃的梦想是出版自己的科幻作品,虽然这个梦想没能实现,但他始终笔耕不辍,也总会在每个月底把自己的日记通过电子邮件发送给我。我们成了数字笔友,像往昔年代的人一样通过长篇通信保持联系。这些邮件成为我所认识的那个人的最后遗存:每一个黑白网页都记录着他的所思所感,有的深刻,有的平淡。时至今日,这些文字仍让我时而莞尔,时而捧腹,偶尔还会翻白眼,但总能引发我的思考。我的职业生涯致力于理解人类心灵的本质,而我此生最大的荣耀之一就是有机会更好地了解鲍勃的本性。
生活的脚步并没有放慢的迹象。我缅怀着鲍勃,忍受着让我动弹不得的大肚子,也无时无刻不在惦记着imagenet。这三重思绪构成了生活的主旋律,因此每当西尔维奥过来看我,我都特别感恩。
有一次晚餐时,氛围异常安静。他问道:“你在想什么?是鲍勃吗?”