我看见的世界：李飞飞自传 11 无人可控

noone’stocontrol

此时，我们都处在一场全球风暴之中，我们要从根本上重新构想人工智能，使其成为以人为本的实践，这个共同的目标就是下一颗北极星。

“嗨，你是飞飞，对吧？”

我转身去看问话的人，他礼貌地做了个手势。

“我叫戴夫，”他伸出手和我握手，“前几天听到你在播客上的节目，忘了是哪一期了。你知道吗，我们风险投资公司一直在谈论人工智能，简直就是一刻不停。”他接着说，“就在过去的几个月里，我们已经完成了四个a轮融资，都是在这个领域。”

我笑了笑，不知道还能作何反应。那是2014年，风险投资的术语让我在自己的领域里感觉像个局外人。

“嘿，你见过杰弗里了吗？”他转过身向对面的另一个人招手，那个人穿的牛仔裤和羊毛套头衫看起来跟他的一模一样。

“杰弗里，过来过来，我想介绍你认识一个人！杰弗里是负责产品开发的副总裁，在……”

“好了，各位，请注意，我们可以开始了。”谢天谢地，一个声音从房间那头传来，打断了他，“我要感谢大家今晚的到来。学前班是孩子们人生的重要一步，今年我们为他们做了非常棒的规划。”

“一会儿再聊！”他挤坐在仓鼠笼旁边的小木椅上，低声说。

无论我们学术界如何看待人工智能，或者对其未来作何预测，有一点是不可否认的：人工智能已经不再由我们掌控了。十多年来，我对人工智能一直痴迷不已，它就像一层思想的外壳，悄然叠加在我的世界观之上。然而，到了2010年代中期，相关话题已经获得极大的公众关注，各种讨论铺天盖地、震耳欲聋。加州硅谷101号公路沿线的广告牌宣告着人工智能初创公司的招聘狂潮；在我的牙医候诊室里的杂志封面上，有关于人工智能的报道；开车换台时，还能从汽车收音机的谈话片段中听到关于人工智能的讨论；显然，在幼儿园家长会上，它也成了热门话题。

世界正在变得超现实。我和同事们穷尽职业生涯探索人工智能科学，但我们现在突然面对着“人工智能现象”（我还没有找到更确切的说法）。人工智能本身就充满了难以解开的谜团，现在，这项技术与各行各业、政府、记者、评论员甚至广大公众之间的互动突然激增，千丝万缕的关系与技术本身一样错综复杂。经过几十年的模拟环境开发和测试，人工智能已经进入现实世界的应用阶段。在人工智能的发展史上，充满了对其拟人化的尝试，但这些尝试带来的更多是误导，而非深刻的洞见。虽然我也不太愿意把人工智能明确地比作活的有机体，但不可否认，它已经进化出新的形态，躁动不安，嗷嗷待哺，渴望探索。

不到一年前，在我和安德烈的研究领域，谷歌迎头赶上的消息让我震惊不已，但如今却感觉已像陈年旧事。作为曾经的人工智能研究主力军，大学实验室现在已不是推动前沿发展的唯一机构。这已成为不争的事实。无论是在github等平台上分享代码，还是在reddit等论坛上讨论最新进展，我们都与谷歌、微软和脸书等科技巨头、遍布全球的初创企业、贪婪的风险投资人网络，甚至开源社区的软件开发人员共享繁荣热闹的景象。

有太多话题可以探讨。

2015年，邓嘉和奥尔佳发表文章，回顾了imagenet比赛迄今为止的影响，并分享了安德烈的研究成果：他估计人类在标注1000幅图像时的错误率约为5.1%。虽然安德烈只是出于好奇才做的研究，但其结果却大大增加了比赛的刺激性。突然之间，算法不仅相互竞争，还开始与人类一决高下。2014年，谷歌的神经网络分类器googlenet的错误率仅为6.67%，达到创纪录的最低水平，人类几乎要失去榜首地位了。

尽管alexnet和googlenet是计算机视觉领域的真正飞跃，但我们还远远未能了解其全部潜力。举例来说，我们确信网络深度是决定性能的关键因素，而gpu优惠的价格意味着我们终于有足够的处理能力，让深度达到前所未有的水平。然而，简单增加神经网络层数并不是万能之策。在初始阶段，网络深度的增加会提高图像识别准确率，但很快就会到达临界点，此后就是收益递减。我们怀揣着远大抱负，构建的神经网络越来越大，却在不经意间将网络变成了迷宫。过多的分层会破坏信号传递，导致训练过程停滞不前，使系统失去效果。

显而易见，要实现宏伟的目标难度很大，与投入多少硅片并没有直接关联。这意味着即使在现在，我们的网络也无法吸收和消化imagenet等大型数据集，没有充分利用其潜力。我们需要改变现状，不断进化，不仅在规模上，更在创新上。这正是我期望imagenet挑战赛能带来的激励和感召。

我终于如愿以偿。2015年，由微软的年轻研究员何恺明带头研发的深度残差网络（deepresidualnetwork，resnet）再次改变了比赛格局。resnet达到了惊人的152层，但对网络架构进行了扭曲，允许在训练阶段绕过其中的某些层，使得不同的图像对网络中较小的子区域产生影响。

虽然经过全面训练的系统最终会充分利用其深度，但在训练阶段，没有任何一个图片示例必须覆盖整个系统。这样的架构带来了两全其美的结果。一方面，增加层数可以提高性能，吸收更多数据——resnet使用的imagenet数据量超过了当时其他所有的参赛算法；另一方面，在不降低性能的前提下，保持了信号自由流动所需的简洁性。resnet是教科书式的范例，充分说明了在人工智能领域，创造力是推动着辉煌时刻出现的力量。

然而，resnet的设计只是故事的一半。resnet的最终效果甚至远远超出了设计者本人的预期，还因惊人的性能而登上了《纽约时报》等主流媒体的头条。resnet获得全球关注是意料之中的事：它的识别错误率仅为4.5%，远远低于安德烈估算的人类错误率。简而言之，视觉分类的挑战似乎已经迎刃而解，机器轻而易举地超越了它们的创作者，完成了几年前还几乎不可能完成的任务。多么令人惊叹的里程碑啊。然而，没过多久，我们就意识到这只是开始，更多的里程碑将会陆续出现。

嘿，你在关注alphago吗？

你知道哪边能赢吗？

我该不该赌一把？哈哈！

我的第二个孩子刚刚出生，如果有什么能让我与外界隔绝至少一两个星期，那应该就是生孩子这件事了。但我才出院几天，信息就如潮水般涌来，手机一直嗡嗡作响，提醒着我，我并没有偷得浮生半日闲的好运气。

2016年年初，媒体对deepmind的关注不断升温。deepmind是一家总部位于伦敦的初创公司，正在筹备一场围棋大赛，参赛双方分别是围棋大师李世石和一台机器。在此之前，这家科技公司一直名不见经传（甚至我对它的了解也只是皮毛），而现在似乎变得家喻户晓。此前一年，谷歌大举收购各类人工智能初创公司，deepmind以超过5亿美元的高价成为其中最昂贵的交易。但比价格更令人难忘的是它的使命。“他们声称正在研究agi。”我记得有同事带着学者特有的世事洞明的笑意告诉我。

我完全能理解同事的厌倦之情。agi指的是“通用人工智能”（artificialgeneralintelligence），是一种极其复杂、灵活的人工智能，不仅能完成图像分类或跨语种文本翻译等狭隘任务，还能模拟人类一切认知能力，如分析、创造等。虽然我无法确定这个词是何时成为专业术语的，但计算机科学领域以前肯定没用过它。毕竟，“通用”智能从一开始就是人工智能的全部意义所在，前路虽长，但这并不意味着我们可以降低目标。对我们这些研究人员来说，agi这个新词听起来有些多余。但它读起来朗朗上口，可以让外界清楚地了解我们这个领域的终极目标，也让deepmind在已经竞争激烈的生态系统中显得胆识非同一般。

我被各种问题狂轰滥炸——学生、好友，甚至一些交情不深的朋友都给我发来消息，问我有没有什么预测可以分享。我确实没有，但当家里另一位人工智能教授突然拿着一瓶刚冲好的奶走进房间时，我忍不住也向他请教。

西尔维奥说：“嗯，两种可能性都有。早在20年前，深蓝就在国际象棋比赛中战胜了人类，”他似乎在心里算了一会，“准确地说，是19年前。”

书呆子就是书呆子。

“不管怎么说，”他继续说，“虽然围棋比国际象棋难很多，但仍然属于棋盘游戏。规则虽然复杂，但都非常直接明确，至少从数学角度来看是这样。”

他意识到自己越说越有教授的腔调了——虽然我们说好了在家里不能这样，但经常做不到。他一边笑着，一边小心翼翼地把奶瓶放进热奶器里。我们几乎同时说出了接下来的话：“跟冲奶完全相反！”

他说得没错。围棋策略的组合数量大到无法想象，关于如何就此建模，我们俩可以侃侃而谈，但像准备一瓶婴儿配方奶，再把奶瓶放到热奶器里这样简单的事情，却依然是机器人专家的“圣杯”——尽管在严格控制的实验室条件下，冲调完美配方奶粉的问题已经得到解决，但在实验室之外，依然存在巨大挑战。

1997年，国际象棋大师加里·卡斯帕罗夫（garrykasparov）与ibm的超级计算机深蓝（deepblue）进行国际象棋比赛，计算机正式打败了人类，消息一出，轰动一时。但是，相对于国际象棋，围棋的复杂性不仅体现在规则上，还体现在策略组合的可能性范围上。事实上，围棋的规则决定了棋子所产生的可能性范围极大：棋盘上19×19的格子可以带来的组合总量多达10的360次方。这个巨大的数字超过了宇宙中的粒子数量，且超过许多个量级。要下好围棋，人类需要通过毕生的实践不断培养直觉能力，在每个回合都要把理论上的无数种选择缩减为可操作性的若干种落子选择。而就算是最先进的人工智能，其认知深度也不足以复制这种能力。

的确，寻找最佳落子方法所需的计算量是巨大的，因此使用计算机下围棋难，难于上青天。尽管如此，我们仍有理由保持轻松乐观，因为围棋遵循一套明确而客观的有限规则，胜负的标准就是看哪一方的棋子在棋盘上占的地盘更大。所以与真正的登月相比，围棋可以说是相对简单的。

“即使它赢了，”西尔维奥补充道，“要想做意大利千层面的功夫超过人类，机器还需要一段时间。”

就这样一个简单的回答，西尔维奥让我对现代人工智能有了更深刻的认识，同时也让我感到饥肠辘辘。

事实上，alphago确实赢了，全球媒体纷纷报道，关注度达到了巅峰。整个世界为之沸腾，而亚洲的反应尤其狂热。对我来说，体现热度的最直接指标出现在个人生活层面。

“飞飞，我的老同学们问我你知道ai下围棋是怎么回事吗？”爸爸给我转了一大堆他国内的朋友发来的微信，最近这样的信息感觉没完没了。“他们听说我女儿是ai教授，都在问我呢！”新闻头条是一回事，但当父母和他们在国内圈子的同龄人都在讨论人工智能时，说明世界真的变了。

在这个时期，人工智能领域的转折点层出不穷。即便是最引人注目的突破，我们也不陌生，因为我们为人工智能技术奉献了一生，现在是开花结果的时候了。resnet和alphago等的故事激发了各界的对话和讨论，也激励我们在自己的研究中更进一步。我意识到，人工智能的新时代不仅仅是一种现象，因此我忍不住借用了硅谷最喜欢的一个词，因为正如他们所言，这是一场“颠覆”。

我办公室里的那个小小的红色沙发，曾经见证了我们实验室众多声誉卓著的项目的诞生，如今它成为我敦促年轻人多读文献的地方。我经常要求他们，在进行研究的同时，务必为人工智能科学赖以建立的基础文献留出空间。时代不断加速发展，每个人的注意力都集中在了更热门的信息来源上，而传统文献却一直被忽视。我注意到了这个问题，起初感到恼火，后来又心生担忧。

“请大家不要每天只从arxiv下载最新的预印本作品了。去读一读拉塞尔和诺维格的著作，去读明斯基、麦卡锡和威诺格拉德的书，读哈特利和西塞曼的作品，读一读帕尔默写的东西。不要因为这些材料距离现在时间久就忽略它们。我们就是要多读一些以前的东西，他们的理念经得起时间的考验，依然非常重要。”

arxiv是涵盖物理学和工程学等领域学术文章的在线资料库，其中的文章尚未在学术期刊上正式发表，但会提前以未经编辑的预印本形式提供给对内容感兴趣的读者。几十年来，预印本一直是大学文化的固定部分。然而近些年来，人工智能发展极其迅速，每周都在发生变化，甚至整个领域会在一夜之间被颠覆。为了保持与时代同步，预印本已成为重要的资料来源。如果说要学生们等上几个月去读通过同行评议的论文都是过分的要求，那么几年前编写的教科书，甚至是整整几代人之前编写的教科书被束之高阁，又有什么好奇怪的呢？

太多事情在抢占学生的注意力，文献只是个开始。科技巨头争相组建人工智能团队，公开大肆招揽人才，承诺的起薪高达六位数，有时甚至更高，还提供丰厚的股权待遇。机器学习先驱一个接一个离开了斯坦福大学，到了2010年代中期，连博士后都成了抢手人选。希望推出自动驾驶汽车的优步迈出了大胆的一步，从卡内基梅隆大学挖走了40名机器人专家，数量之多堪创纪录，几乎摧毁了这所大学的机器人研究体系。对我和同事们来说，光是目睹优步事件，就已经够难受的了，而对我的学生们来说，这件事似乎从根本上扭曲了他们对教育之意义的认识，因为他们年龄尚小、充满渴望，而且仍在寻求自己的身份和认同感。最终，这种趋势达到了顶峰——至少对我个人来说是这样——非常出乎我的意料。

“你真的要拒绝他们吗？安德烈，那可是全球最顶尖的学府之一啊！”

“我知道。但是我不能错过这个机会。真的很特别。”

安德烈已经完成了博士学业，即将进入人工智能史上最有前景的就业市场，即使对一个有志成为教授的人来说也是如此。普林斯顿大学给他提供了教职机会，这是我们任何一个同龄人都梦寐以求的职业快车道。然而，他却决定彻底离开学术界，加入一个没人听说过的私人研究实验室。

安德烈即将加入openai的核心工程师团队。openai由硅谷巨头萨姆·奥特曼（samaltman）、埃隆·马斯克和领英首席执行官里德·霍夫曼（reidhoffman）共同创立，初始投资高达10亿美元，这充分证明硅谷对人工智能的突然崛起是多么重视，硅谷的杰出人物多么渴望在人工智能领域站稳脚跟。

openai推出后不久，我在当地的聚会上遇到了几位创始成员，其中一位举杯祝酒，但他的欢迎词颇有几分告诫的意味：“每个从事人工智能研究的人，都应该认真思考自己今后在学术界的角色。”他说这番话时没有一丝笑意，言辞中透露出明确而冷酷的信息：人工智能的未来将由那些拥有企业资源的人书写。在学术界受训多年的我想习惯性地反唇相讥，但我没有。老实说，我甚至都不确定自己是否反对他的观点。

谁也无法预测一切会走向何方。与大多数领域相比，我们的领域经历了太多起起伏伏，虽看似前程远大，但数度出师不利，“人工智能寒冬”一词就反映了其多舛的命运。但这次感觉不一样了。随着越来越多学者的深入分析，科技界、金融界和其他领域逐渐认可了一个术语：“第四次工业革命”。虽然流行语背后通常存在着夸张成分，但这个词的确名副其实，足以让决策者们铭记于心。无论是源于内心真正的热情，还是来自外部的压力，抑或是两者兼有，硅谷的高管层都在采取比以往更迅速、更大胆甚至更冒险的举动。我们即将见证这种企业理念将会带来何种结果。

“猿。”我的天哪。

这是雅虎图片托管服务flickr在2015年5月自动生成的一个标签，用来描述56岁黑人男子威廉的单色肖像。雅虎的新技术立刻引发了各方强烈愤慨，可谓自取其祸。此后，这项技术接二连三出现失误：将达豪集中营大门的照片标记为攀爬架，把一位脸上涂有彩色粉末的白人妇女贴上了“猿”的标签。雅虎flickr一经推出，即麻烦缠身。不仅是雅虎，到了6月，谷歌也陷入了类似的争议，因为谷歌照片服务将两个黑人青少年错误地标记为“大猩猩”。图像分类本已是老生常谈的成功技术，却在短短几周内变得非常复杂。

即使不是这些公司的员工，我们也很难不感到一丝罪恶感。虽然事故并非恶意，但这并不能让人感到宽慰。相反，无心之失所揭示的问题才更加令人不安：包括imagenet在内的数据集由于缺乏多样性，导致了一系列意料之外的结果；未经充分测试的算法和存疑的决策又进一步加剧了负面影响。当互联网呈现的是以白人、西方人和男性为主的日常生活画面时，我们的技术就很难理解其他人群了。

有果必有因，正如记者兼评论员杰克·克拉克（jackclark）所言，问题的根源在于人工智能“男性之海”问题：科技行业的代表性不足，导致算法无意中带有偏见，在非白人、非男性用户身上表现不佳。这篇文章于2016年发表在彭博社网站上，是对人工智能伦理问题的最早一批讨论之一。此后，相关对话日益激烈。人们担心人工智能在做好事的同时（如支持残障人士、追踪森林砍伐、以各种新方式保护人类生命等），也有可能产生危害。

我想到了为打造imagenet而挣扎奋斗的那些年——即使在我们最具创造力和即兴能力的时候，也没有考虑到伦理问题。十年前，由谷歌和维基百科等组织的内容呈爆炸式增长，似乎极大地拓宽了电视和报纸等传统媒体提供的狭隘视角，为我们提供了一扇了解人类生活真实面貌的窗口。从某种程度上来说，它们确实做到了。然而，虽然一切看起来很生动，虽然我们的期望是如此热切，但所形成的图景还远远不够完整。

这个问题早就应该面对，但对话并不足以安慰我内心深处的工程师。显然，数据集不平衡是造成问题的重要原因，但还有无数其他因素值得我们考虑。模型本身是否存在问题？在依赖所有数据的算法架构中，是否隐藏着未被发现的弱点？可以促进训练过程的学习技术有问题吗？问题的数量超过了答案，而且这个差距越来越大。

这些问题也压在奥尔佳的心头。人工智能是以男性为主导的领域，作为少数女性，我们两个人多年来一直惺惺相惜，彼此分享着身为女性在人工智能领域的经历，也沮丧地发现，我们的经历非常相似。到了2010年代中期，奥尔佳忍无可忍，她下定决心，要么采取行动改变现状，要么离开学术界。她选择了前者，我们决定一起努力。

我们认为，从代表性问题的出现，到问题被大众真切地感受到，中间往往需要几年的时间。因此，我们向九年级和十年级的女生开放了斯坦福大学人工智能实验室课程。所有参与的学生都是经过精挑细选的，为期两周的人工智能速成课程虽然紧张，但实践证明，只需要一点点努力，就可以让每个一直被历史排除在外的参与者相信，她们同样属于这个时代、这个领域。邀请少数人群参加人工智能课程的想法非常受欢迎，我们的项目很快就像滚雪球一样发展成为全国性的非营利组织，遍布北美各地校园，使命范围也不断扩大。很快，我们也开始向有色人种学生和经济困难学生等边缘群体提供类似项目。

在短短几年后，我们的项目就正式命名为ai4all，甚至吸引了一些资金，梅琳达·弗伦奇·盖茨（melindafrenchgates）的pivotalventures创投公司和英伟达创始人黄仁勋提供了一轮融资，让项目改头换面。这个旅程可能需要几代人才能完成，现在只是迈出了一小步，但我们实现了从无到有的跨越。此外，项目还能带来一丝安慰——在业界追逐人工智能未来时，往往肆意而为，缺乏自省，而我们的努力能够保证，至少有一小部分人在逆向而行。

雅虎和谷歌等公司在全球的注视和评判下得到了惨痛的教训。亲眼看到这些事件提醒我们，仅仅对下一代技术进行投资，然后期望一切顺利是不够的。普林斯顿大学向奥尔佳提供了教授职位，她接受之后，开始着手扩展自己新实验室的研究议程，不仅包括机器感知的机械原理，还涵盖更广泛的计算公平性问题，尤其强调要“去偏见”。“去偏见”是遵循严格数学要求的正式操作，旨在对潜伏在数据中的偏差进行量化和中和。这种理念体现了对社会福祉议题的深切关注，有奥尔佳这样的人据此展开研究，我对未来的希望又开始增加了。

我全心全意地相信人工智能技术的价值，它具有揭示智能奥秘的潜力，也可以带来我和阿尼在医院工作时目睹的种种实际的益处。但是，哪怕是片刻的过度自信，付出的代价也会急剧上升。更糟糕的是，这个代价将由其他人承担，很可能是最脆弱的人群。人工智能已经走出了实验室，基本脱离了我们的控制。虽然新思想、新面孔和新机构的旋风令人振奋，但也带来许多新的担忧。对我们这样经费极其紧张的研究人员来说，对人工智能领域进行商业投资的承诺似乎是天赐之物；但商业资金以巨大的力量冲刷着一切，好像一场豪赌，让人感到的不是幸运，而是不祥和担忧。

词不达意的问题依然存在。使用“现象”一词太过被动，“破坏”显得粗鲁，“革命”过于自我陶醉。现代人工智能面纱揭开，我们看到的是一个纷繁复杂的迷局。令人不安的危险感日益增长，但这种危险感是科学家天生能够识别和理解的。我产生了新的好奇心，虽然令人不适，却具有强大的吸引力。我只需要一种近距离观察危险的方式。

“到目前为止，结果令人鼓舞。在我们的测试中，由‘神经架构搜索’设计的分类器经过imagenet训练后，性能超过了人类设计的同类分类器；所有工作都是靠计算机自己完成的。”

那是2018年，在加州山景城的谷歌总部中心googleplex，我坐在谷歌大脑（googlebrain）的长会议桌一端。谷歌大脑是谷歌最著名的人工智能研究机构之一。此次会议的主题是“神经架构搜索”（neuralarchitecturesearch，nas），这是一种可以自动搜索神经网络的优化架构。神经架构搜索的发展成果特别令人激动，几个月来在谷歌内部持续引发热议。

此类模型的行为方式是由一系列参数决定的，这些参数在速度与准确性、内存与效率以及其他关注点之间进行权衡。对一两个参数进行微调非常容易，但要实现所有参数之间的平衡，往往是一项考验人类能力的任务，即使是专家也很难把每个参数都调整到最佳状态。如果能实现自动化调节，将会带来极大的便利，显然是值得追求的目标。自动化还能降低人工智能的使用难度，让越来越多的非技术用户在没有专家指导的情况下，使用人工智能构建自己的模型。此外，用机器学习模型来设计机器学习模型，并且能够迅速超越人类的能力，的确非常富有诗意。

但所有功能都是有代价的。单个模型的训练成本依然很高，只有资金最雄厚的实验室和公司才负担得起，而神经网络架构搜索则需要训练数千个模型。这项创新很了不起，但从算力的角度来看，造价也极其昂贵。成本问题是会议讨论的重点之一。

一位研究人员问道：“这是在什么样的硬件上运行的？”

“在整个过程中的任何时刻，我们都在同时测试100种不同的配置，每种配置训练8个特性略有不同的模型，所以共有800个模型在同时训练，每个模型都分配了独立的gpu。”

“这么说，我们大约要……”

“800个gpu，没错。”

800个gpu！2012年，alexnet只需要两个gpu就能改变世界，现在的需求却飞速增加，其速度之快令人目眩，以后更会有增无减。根据我自己实验室的预算，英伟达最强大的gpu成本约为1000美元（这也解释了为什么我们自己只有十几个gpu）。此外，还需要把这么多高性能处理器连接到一起，确保所有芯片昼夜不停地模拟运算，同时设备可以维持在可接受的温度范围内，这些都需要花费时间和人力。此外还要选择合适的地点。网络硬件占据大量的物理空间，耗电量巨大，因此不可能在普通车库或卧室中搭建。即使是像我们这样的大学实验室，也很难建造出如此庞大的网络。我靠在椅背上，环视了一下房间，想知道是否还有其他人和我一样对此感到沮丧。

2016年，我即将迎来21个月的学术休假，暂时离开教授职位。我的收件箱被来自英伟达、优步和谷歌等公司的邀请信息淹没了。我保持着一种久经磨炼的本能，对这些信息一概不予理睬，却越来越多地发现自己停下来片刻，关注这些信息。我叹了口气，跟以前相比，现在去科技公司工作也许会更有意义，哪怕只是一点点。

我不得不承认，进入私营企业工作的想法不再像从前那样陌生。身边已经有数不清的同事实现了转型，就连我的学生也纷纷放下学业，到世界各地的科技公司进行高薪实习，有的更是一去不复返。如今，一切变化如此之快，我不得不怀疑，我对加入企业的厌恶是不是已经过时了？我想看看斯坦福大学和科学期刊之外的现代人工智能是什么样子。也许，眼下正是好机会，至少可以让我暂时体验一番。

经过再三考虑，我最终决定接受谷歌云的人工智能首席科学家一职。虽然此时的谷歌是一家有近20年历史的大公司，但云计算部门才成立一年左右，我觉得这是帮助谷歌从头开始打造人工智能的好机会。我还碰巧认识公司新任命的谷歌云首席执行官黛安娜·格林（dianegreene）。她曾是虚拟化巨头vmware的联合创始人，是为数不多征服硅谷的女性，我期待着在性别比例极不平衡的行业里与她并肩工作。

这不像我本科时得到的那份看似光鲜亮丽的华尔街工作，也不像我在加州理工学院得到的麦肯锡快车道职位（当时我还因为要不要接受这个职位纠结了很久）。我一度把企业的工作当成是具有嘲讽意味的贿赂，目的是让我放弃实验室，但现在，我无法再继续假装它是一种贿赂。这是一份邀请，让我可以运营规模更大的实验室。其能力远超我的想象，我可以使用任何规模的高性能算力，由博士组成的研究团队比我在斯坦福大学能召集到的任何团队都要大几个数量级。最吸引我的是，我可以获得我以前做梦都无法想象的海量数据。当然，我的工作会受到公司产品路线图的驱动，至少是间接驱动，但这些产品始终是基础研究的下游，正是基础研究让它们成为可能。

最重要的是，谷歌云意味着我看到的不是一个，而是成千上万个人工智能的应用案例。随着云服务在人们能想象的几乎任何行业找到立足点，谷歌和其他云服务提供商也成了各行各业的固定伙伴。我有机会看到人工智能在制造业、农业、保险业、运输和物流业、零售业、金融服务业甚至政府部门的应用情况，以及为其提供支持的数据。其规模之大、种类之多，是任何一所大学都无法同时提供的。

我并不打算完全离开斯坦福大学，即使在学术休假期间也是如此，所以我花了一些时间来敲定细节。我会继续每周在校园里待一天，这样我就可以与实验室保持联系，并跟学生们见面。显然，后勤工作将是个挑战，但我已经做出决定。

我在大学这些年的所见所闻也不少，但谷歌云幕后的一切仍然出乎我的意料。科技行业的财富、权力和雄心向来名声在外。在亲身经历后，我觉得实际情况比传闻有过之而无不及。我看到的一切都比我所习惯的更大、更快、更精密、更复杂。

光是食物的丰富程度就令人咋舌。休息室里的零食、饮料和专业级意式咖啡机比我在斯坦福大学或普林斯顿大学见到的要多得多。几乎每栋大楼的每一层都设有这样的休息室。而这一切，都还只是我在进入自助餐厅之前所看到的。

其次就是科技。这么多年来，我们一直用的是2000年代的投影仪和视频会议设备，故障频发，性能很不稳定，经常让人大为恼火。相比之下，谷歌的会议现场就像科幻小说里的场景。无论是可容纳50人的高管会议室，还是供一人使用的衣柜大小的会议箱，每个房间都配备了最先进的远程呈现技术，只需轻点触摸屏，就能启动一切。

还有就是人才。谷歌人才济济，令人叹为观止。回想起自己花了两年时间才招募到三位合作者来帮助建立医院环境智能，我不禁自愧不如。在谷歌，15人的团队已经准备就绪，只等我立即加入。而这仅仅是个开始——在短短18个月内，我们的规模扩大了20倍。拥有优秀资历的博士似乎随处可见，让我觉得一切皆有可能。无论人工智能的未来会怎样，谷歌云都是我了解世界的窗口，而世界正以最快的速度向未来迈进。

我在斯坦福大学度过的每个周五更是突显了大学与企业之间的差异。随着我就任新职的消息不胫而走，我每天都能接到实习申请。这在某种程度上是可以理解的，因为我的学生（偶尔还有教授）只是在尽力建立人际关系网。不过，让我担忧的是，我和他们的每一次谈话，无一例外都以同样的请求结束：在他们看来，最有趣的研究是不可能在私营实验室之外实现的。即使在斯坦福大学这样的地方，预算也不够多。事实上，预算往往还差得远。企业研究不仅是更有利可图的选择，而且正在越来越成为唯一的选择。

最后就是数据。数据是谷歌整个品牌建立的基石。imagenet让我第一次看到了大规模数据的惊人潜力，也奠定了我此后几乎所有研究的理念基础。我和乔恩一起研究了几十年以来的汽车模型，和安德烈一起研究了大量图片和相关说明，和蒂姆尼特一起研究了整个美国的街景图像和人口普查局的记录——数据量不断增长，人工智能的能力也与日俱增。现在，我被数据环绕了，不仅丰富程度难以言表，所涵盖的类别也超乎我的想象：来自农业企业的数据，他们希望可以更好地了解植物和土壤；来自媒体行业客户的数据，他们希望谷歌可以帮助他们整理内容库；来自制造商的数据，目的是减少产品缺陷；等等。几个月过去了，我穿行于两家最有能力为人工智能的未来做出贡献的机构之间。这两家机构都人才辈出，极富创造力和远见卓识。两家机构都在科技史上有着深厚的根基。它们甚至可以从同一条高速公路进出，在国道101上只相隔几个出口。然而，行业准入壁垒宛如一座大山高耸在地平线上，峰顶远高于云层，在知名高校和顶级私企之间，似乎只有一方拥有足够的资源来适应这个时代。

我的思绪不断地回到那800个gpu上，它们在应对一个教授和她的学生们无法想象的计算任务。如此多的晶体管，如此巨大的热量，如此巨额的资金。“疑惑”这样的字眼并不能表达我逐渐感到的惊惧。

人工智能正在成为一种特权，一种排他性极强的特权。

从imagenet时代开始，规模的重要性就已经显而易见，但近年来，“越大越好”的观点几乎被赋予了宗教般的意义。媒体上充斥着城市街区大小的服务器设施的图片，关于“大数据”的讨论永无休止，不断强化着这样的观点：规模是神奇催化剂，是机器中的幽灵，可以将人工智能的旧时代与令人窒息的梦幻未来区分开来。虽然相关分析可能会有些简化，但本质上并没有错。没有人能否认，神经网络确实在这个资源丰富的时代蓬勃发展：惊人的数据量、大规模分层架构和大量互联的硅片确实带来了历史性变化。

这对科学意味着什么呢？如果我们的工作秘诀可以简化为赤裸裸的量化，简化为蛮力制胜，那么努力思考和创新又有什么意义呢？如果一些想法在层数太少、训练样本太少或gpu太少的情况下似乎会失败，而在数量增加到足够多的时候突然又可以高效运转，那么对于算法的内部运作机制，我们又能得到什么教训呢？我们发现自己越来越多地从经验角度观察人工智能，就好像它是自己出现的一样，仿佛人工智能是需要先识别、后理解的东西，而不是根据第一原理设计产生的技术。

我们与人工智能之间的关系正在发生转变，对我这样的科学家而言，这样的前景令人深思。在谷歌云的新职位上，我可以鸟瞰越来越依赖于各个层面技术的世界，但我们不能坐而论道、惊叹于一切的神奇。这种奢侈我们负担不起。新一代人工智能所能做的一切，无论是好是坏，无论是在预期之内，还是在意料之外，都因其设计本身缺乏透明度而变得复杂。神经网络的结构本身充满了神秘色彩，它是由微小的、权重微妙的决策单元组成的巨大集合体。这些决策单元孤立地看毫无意义，但以最大的规模组织起来时，却强大得令人咋舌，几乎无法为人类所理解。我们可以从理论的、抽象的意义上谈论神经网络：它们能做什么，它们达到目标需要什么样的数据，它们训练后的性能特征大致在哪个范围；但从一次调用到下一次调用，它们在内部到底做了什么，却是完全不透明的。

由此带来的后果特别令人担忧，这就是一种被称为“对抗攻击”的新型威胁。在对抗攻击中，输入内容的唯一目的是迷惑机器学习算法，以达到反直觉甚至破坏性的目的。举例来说，一张照片看上去是描绘了某种明确的事物（比如蓝天下的长颈鹿），但可以通过单个像素颜色的细微变动进行修改。尽管这种像素颜色的变化是人类肉眼无法察觉的，却会在神经网络中引发一连串的故障。如果对抗攻击设计得当，虽然原始图像看起来没有任何变化，但算法会把“长颈鹿”这样的正确分类变成“书架”或“怀表”等错误分类。先进技术无法辨认野生动物照片的场景可能会让人觉得好笑，但如果对抗攻击的目的是愚弄自动驾驶汽车，导致汽车对停车标志，甚至人行横道上的儿童进行错误分类，就绝对不能用好笑来形容了。