我看见的世界：李飞飞自传 10 似易实难

deceptivelysimple

“人工智能还能做哪些事来帮助别人？”母亲在病床上的问题，让我开启了医疗服务的环境智能研究。另外，我开始思考“人工智能伦理”的议题。

2013年夏天的一个下午，我和西尔维奥正在参加朋友女儿的成人礼。庄严的仪式结束了，接着是一场招待派对，西尔维奥想拉着我一起跳舞。音乐刚刚响起，我的手机就震动了起来，真是天助我也——我一向不喜欢在公共场合跳舞。我对西尔维奥做了个手势，说我得去接个电话（他肯定觉得这个借口太方便了），然后躲到了外面。

“喂，爸爸，怎么了？”

还没等他具体说原因，我就从他的语气中听出了问题。

“我觉得你妈妈发烧了。她一直呼吸困难，还说胸口疼。你在哪儿呢？我该怎么办？”

我猛吸了一口气，心骤然沉了下去。这样的情形我已经再熟悉不过，但每次遇到，依然会感受到巨大的恐慌。母亲的身体又出问题了。

二十多年来，我们全家经历了太多次深夜惊魂和死里逃生，次数多到我都记不清了。我们在急诊室、重症监护室、手术室候诊室，还有医院的其他地方度过了生命中的一个又一个章节。母亲十几岁时就因严重的风湿热引发了心脏病，此后的几十年一直没有采取干预措施，任由病情发展。心脏问题是影响母亲身体健康的罪魁祸首，就像多米诺骨牌一样，引发了各种问题，从药物副作用到我们侥幸及时发现的几乎致命的脑出血。我和母亲一起，费尽周折地辗转于各种保险机构，寻找各种经济援助方案，甚至在美国当地治疗方案枯竭的情况下，我们还回了趟中国。一路走来，我的角色从十几岁时的中英文翻译演变成了类似非官方的个案工作者，寻求专家，安排会诊和治疗，监测症状，监督药物治疗和康复计划，但这些似乎都无法让病情稳定太久。无论以何种实际的标准衡量，照顾母亲的健康都已经成了我的第二职业。

虽然严重的威胁接二连三到来，但母亲独特的坚韧始终没有改变。对我而言，每一场新的冲击都始终伴我左右，并没有随着时间的流逝而减弱，反而成为我生活中固定的基本元素。我的潜意识里一直在等待下一个坏消息，而任何坏消息都可能是最后一个。每当手机屏幕上显示出母亲的名字，我就感到自己的胃在下沉。无论生活把我带向何方，我都觉得自己永远处于一种脆弱的状态。

又经历了两天旋风般的就诊，最近一次磨难终于告一段落。发烧导致心跳波动加剧，可能是流感所致。虽然症状严重，但好在没有危及生命。我瘫坐在病房角落的塑料座椅上，本能地打开笔记本电脑。有那么几分钟的时间，我敲击键盘，全情投入工作。在这样的时刻，热爱自己工作的价值难以言表。但我忽然感觉有点儿不对劲，周身仿佛有一种刺痛感。

是有人在盯着我看吗？

我从电脑屏幕上方瞥过去，发现母亲已经醒了。她的确在注视着我。

“你怎么样了？”我问道。

我看得出她心里有事，但我知道，她并不是在考虑自己的健康问题。

她又思考了片刻，说：“飞飞，你到底是做什么的？”

母亲的这个问题实在太奇怪，我不由得放声笑起来。

“什么？”我一边笑，一边努力认真回应，“你问我是做什么的，你是说靠什么赚钱吗？”

“我知道你是科学家，研究大脑还是电脑的，但这么多年，我们都没有讨论过你是哪种科学家。你爸爸说你是‘疯狂科学家’，但我敢肯定，不完全是这样。”

平日里一向严肃的母亲竟然开起了玩笑，也许我应该叫护士过来——毕竟护士叮嘱过我，如果出现任何异常情况，就要立即呼叫她。

“没错，我不完全是疯狂科学家。”我笑着说，想了想她的问题。

笑归笑，但她说得没错。这么多年来，我一直把她当病人看待，习惯了把工作上的事情压在心底，很少与她交流。现在我想，我是否忽略了她的其他方面。即使穿着病号服、输着液，母亲仍然是那个善于思考的“教唆者”。于是，我打开了话匣子，从头开始讲起。思维的奥秘，物体分类在视觉理解中的重要性，imagenet，图形处理器，神经网络的爆炸式发展，视觉研究领域突然瞬息万变。母亲侧耳倾听，看似认真，却带着像母亲逗弄咿呀学语的孩子般的神情。感觉有点儿不对劲。

“我听不太懂。”她停顿了一下说，“听着像科幻小说。”

我不应该感到惊讶。她很聪明，知道我在说什么，但她对科学本身从来不感兴趣。她喜欢从故事和人物的角度思考，喜欢激情和冲突。我决定即兴发挥。

“你知道，还有一两个小时，我们就能出院了，但你还需要几天的恢复时间。要是没有我、爸爸、西尔维奥或是其他人的陪同，你就没办法外出办事。但是，如果不靠我们，你自己也能出门，你觉得怎么样？”

“你是说坐公交车吗？”

“不是。就算是往返公交车站对你来说也会有些困难。我说的是有一辆能自动替你驾驶的车，从家门口接你，送你到达目的地，这一切都由它来完成。”

自动驾驶汽车领域的炫酷品牌waymo和cruise等还有几年的时间才会出现，但自从自动驾驶领域的先驱塞巴斯蒂安·特龙离开我们的团队，将他的专业知识带到谷歌，我就一直在思考这种汽车。越来越多的媒体关注也增强了我的兴趣。塞巴斯蒂安的项目令人印象深刻，他对一辆名为“斯坦利”的大众途锐进行了重度改装，使之成为历史上第一辆成功完成美国国防部高级研究计划局年度沙漠竞赛的纯自动驾驶汽车。尽管如此，我也没想过很快就能在路上看到完全自动驾驶的汽车。在现实世界中，驾驶要复杂得多，我认为短期内几乎无法实现。不过，我可以利用这个话题，让晦涩的理论变得更加通俗易懂。

“嗯。”她说，语气变得轻松起来，“对我这样的人来说，生活肯定会大不一样。”

接着，她又沉默了几秒钟，问了一个看似简单的问题。

“飞飞，人工智能还能做哪些事来帮助别人呢？”

我相信，从看到比德曼的数字的那一刻起，我就成了一名科学家，在这个数字的启发之下，我开启了职业旅程。母亲在病床上的问题好像只是随口一问，但每次回想起来，我对这个问题都会充满类似的崇敬之情，因为她的提问给了我机会，让我成为一名人本主义者。这是我追寻的新目标，其动机远不止满足好奇心。我无法预测这条路究竟会通向何方，但我在医院里度过了太多的岁月，答案的蛛丝马迹已经在眼前隐约可见。

现在，我第一次想把我对人工智能的毕生热爱与长期照顾他人的痛苦特权结合起来。人工智能在医院里能做什么？我们创造了能够以人类无法企及的方式观察世界的镜头，将谷歌街景变成了社会学研究。而在医疗领域，人工智能会向我们展示什么？我们设计算法，把图像变成故事，将像素转化为语言和意义。我不禁想问，在医院这个我们度过了如此多时光的地方，是不是有最需要被讲述的故事？

阿尼·米尔斯坦（arniemilstein）博士是医疗领域的传奇人物。他是斯坦福大学医学院教授，长期担任行业顾问，曾是临床医生，是专家中的专家。我们见面的时候，他已经将职业重心转向改善医院的医疗服务方式，如流程质量、治疗效果和患者体验等，同时降低医院的运营成本。他的头发近乎全白，彰显深厚的阅历，但他没有架子，精力充沛，总是带着微笑和天然的友善。

我和母亲在病房里讨论人工智能以来的几个月里，我一直在思考如何把人工智能与病人护理结合起来。只要有机会，我就和同事聊天，不管他们来自哪个系。我在所到之处播撒了对话的种子，其中一颗终于生根发芽——一个熟人介绍我认识了阿尼。虽然刚开始交流时，我们都感到双方的领域差异悬殊，很难理解对方的研究内容，但又都感到了一种亲切感。我们都不知道等待我们的将会是什么样的合作，但我们都确信未来一定会有合作。为了启动进程，他邀请我和他一起参加在旧金山北边举行的一个闭门演示活动，了解飞利浦公司正在开发的远程医院监控技术。

在演示室里，一排护士站在装有大型平板显示器的工作站前，飞利浦公司的代表走到演示室中央：“非常感谢大家的到来。你们即将看到的是我们的eicu技术演示。eicu是用于重症监护病房的远程监控解决方案，虽然目前还处于概念验证阶段，但我们已经开始在一些医院进行试点。”

我意识到，屏幕上显示的是重症监护病房病人的实时画面，视频上显示了病人生命体征的多个维度，护士可以随时在显示器前观察。一旦发现危险或异常情况，她们可以通过按钮面板立即通知现场人员。

“没有人愿意面对医疗护理中的失误，但这些失误对病人构成了持续的威胁。感染、手术工具放错位置、药物混淆、剂量错误，甚至是老年患者摔倒这样简单的事故，都会造成严重的后果。类似的错误不胜枚举。”

太可怕了。下次我在候诊室里等待的时候，更会忍不住胡思乱想了。

“可悲的是，这些失误每年造成美国约10万起死亡事故，其中大部分是完全可以避免的。”

等等，什么？我的大脑突然一片混乱。每年10万人死亡？都是失误造成的？

“有一种特别危险的错误就是病人在重症监护室中长时间无人看护。eicu是防止这种错误的第一步，它使得规模更大、地理分布更广的团队可以更密切地关注医院里最脆弱的群体。”

这是个好主意，但我无法不去想刚刚听到的数字。

10万。这个数字在我脑海中不断重复闪现。

“飞飞，这就是我所说的医疗保健‘黑暗角落’的一个例子。”阿尼凑过来低声说道，“不管是在医院、老年护理机构、手术室还是其他地方，都会有病人逃过临床医生的关注。”

我想起了躺在病床上的母亲，想起了我每晚刚进家门的例行事务，我担心会不会发现什么迹象，表明我不在的时候她的病情恶化了。

阿尼继续说：“这是我们努力解决长期存在的一个问题。在医疗行业，几乎每个人都超负荷工作，大家都精疲力竭了。在某种程度上，过去几十年来为他们打造的所有技术都是在帮倒忙，因为现在他们也被信息淹没了。这是一个危险的组合，太多病人因此错过了最佳治疗时机。”

演示非常完美，让人印象深刻，但在演示结束后很长一段时间，我的焦虑感依然挥之不去。

电梯门关上时，我说：“我脑子里就是忘不了那个数字。”

“每年10万人死亡吗？”阿尼回应道，“在过去的一二十年里，这个数字一直是激励我工作的最大动力。”

为一个具体数字无限痴迷——阿尼和我的共同点比我想象的要多。

“我有个问题要问你。”他继续说，“想象一下，在任何医院、养老院，甚至是家庭护理项目中，当护理人员查房时，他们想要达成什么目标？”

我想起了在我母亲住院期间查房的医生和护士，他们中的许多人似乎只是检查了一两分钟，就匆匆赶往下一个任务。

“要跟病人有面对面的时间？要注意自己的临床态度？”

“这些当然要有，但想得再简单些。”

“我不知道，难道只是过来看看？”

“你说对了。他们在尽最大努力关注到每一位需要照顾的病人。但即使他们夜以继日地工作，真正面对每个病人的时间又有多长呢？病人的大部分时间都是无人监控的，这一点难以避免。”

“是事故都发生在没有人监控的时候吗？”我问道，“这就是每年有10万人白白死亡的原因吗？”

我停顿了片刻，试图理清头绪：“听起来，这些事故有一个共同点，那就是注意力。察觉。”

“没错，察觉就是关键所在。在整个医疗领域，察觉是最宝贵的资源，也是我们没有办法扩展的资源。”

我感觉自己仿佛又回到了红门咖啡馆，与彼得罗和克里斯托夫一起思考视觉体验。我想到了索普的脑电图读数、比德曼的摄影实验，还有坎维舍绘制大脑皮质解剖图的尝试。但我想的最多的还是特雷斯曼，还有她研究的核心观点：场景越混乱，理解场景所需的时间就越长。这个观点发人深思：在医疗行业，医生疲惫不堪，匆匆经过洗手台却没有认真洗手；护士分身乏术，没有注意到虚弱的病人马上就要跌倒。我的很多研究都围绕着感知的本质：感知从何而来？有什么作用？有什么潜力？而直到遇到阿尼，我才开始真正意识到感知的巨大价值。

“不好意思，”我停了一会儿说，“这些数字让我有点儿震惊了。”

演示会几周后，我去了阿尼的办公室，继续我们的讨论。我们翻阅了《人无完人》（toerrishuman）。这本书出版于2000年，对医院环境中的医疗差错进行了全面调查，其中揭示的真相令人深感不安。作者得出的结论是，每年因规程和注意力方面的失误而导致的死亡人数超过了因车祸、乳腺癌和艾滋病这些众所周知的原因而逝去的生命数量。

“是的，需要花一些时间来理解和消化。”

不过，这是必要的练习。自从看完eicu的演示后，我们的谈话就没有停止过，兴奋之情也与日俱增，因为我们决定开展一个小型研究项目。这是我们第一次正式开会讨论计划。

“我建议我们从这个开始。”阿尼说着，用食指指向靠近页面底部的一个段落。

根据美国疾病预防控制中心的说法，“洗手是预防感染传播的最重要手段”，即便在今天也依旧如此。然而，反复的研究表明，在经历了150多年的发展之后，不洗手或洗手方法不当仍然是造成医疗环境中疾病传播的重要因素。

洗手问题可能听起来稀松平常，但相关问题仍然是医疗服务面对的严峻挑战。据美国疾病预防与控制中心估计，护理人员在每天巡查的过程中需要洗上百次手，每换一个病人、换一项任务，都需要洗手。鉴于人为错误的频率和性质，即使在最好的情况下，偶尔出错也在所难免。但随着轮班时间越来越久，压力和疲劳会不断加重，因而导致风险大大增加。最终，一部分错误会导致感染（正式名称是“医院获得性感染”），给患者带来巨大的痛苦，其程度难以想象。

这个可怕的话题非常适合作为我们研究的起点。在开展医学研究时，如果涉及正在接受治疗的病人，会导致一些棘手的复杂问题。而通过将注意力集中在护理人员（而不是病人）的行为上，就可以避免相关问题。据阿尼介绍，斯坦福医院的管理层对洗手问题已经研究了一段时间，不少人对新颖的解决方案翘首以盼。

我很快就了解到，阿尼是那种使命必达的人。我们结束谈话后，感觉刚过了一两个小时，他就给我发来了消息，告知我最新进展，而这些进展本身就让人感觉是不小的成就：打电话找人帮忙，安排与决策者的会面，确保医院配合研究，等等。在我自己的研究中，我越来越喜欢做规划，因为合理规划可以为新实验奠定基础，让我产生一种自豪感。但这是他的研究领域，不是我的，他打了下响指，一切就安排就绪了，我不禁惊叹不已。

不知不觉中，阿尼成为继彼得罗和克里斯托夫之后我的又一位导师，他们都有共同的特点，就是在寻求解决方案时，可以跨越学科之间的界限。随着项目的技术层面逐渐成形，我很快也可以做出自己的贡献了，我非常期待。不过，就目前而言，我很满足于跟随一位老手的脚步。再次做学生的感觉真好。

就在阿尼施展魔法的同时，我们也开始意识到挑战的艰巨性。最初，我们的目标是开发一种自动化技术，来确保护理人员在医院内始终如一地彻底洗手。虽然图像分类技术已经成为计算机视觉领域的象征，但医院项目对技术的要求比图像分类更高，甚至比我和安德烈一起完成的图片说明技术要求还要高。这一次，我们的解决方案必须能够识别特定类型的动作，也就是说，不仅要识别某种物体的存在，还要确定物体的移动方式和动作类别，而且识别准确性需要满足临床要求。

棘手的问题比比皆是。首先，“正确”洗手的分类到底是什么？“正确”洗手肯定不仅仅是确定临床医生在洗手台附近。要确定是不是把手洗干净了，算法需要识别洗手过程中的每一个步骤：靠近洗手池、打开水龙头、使用肥皂、两只手在水龙头下搓揉、长时间冲洗双手等。无论从哪个层面看，这都是我遇到过的最复杂的感知任务。

值得庆幸的是，我们的项目可以找到先例。我的实验室一直在攻克类似系统所需的诸多基础功能。例如，安德烈曾与谷歌合作开展研究项目，旨在识别体育录像中的场景，比如棒球击球手挥棒击球，或者篮球运动员运球等。这项分类任务在很大程度上依赖于对动作和行为的识别。我的另一位学生胡安·卡洛斯·尼布尔斯（juancarlosniebles）的整篇博士论文的主题就是识别视频中的人类活动。他现在是哥伦比亚北方大学的教授，不久前刚和自己的学生们打造了一个名为activitynet的数据集。顾名思义，activitynet就是类似于imagenet的动作识别数据集，其中包含了数万个视频短片，每个短片都标注了它们所描绘的身体动作，比如走路、跑步、跳舞、演奏乐器等等。换句话说，尽管我们对于准确分析视频的设想尚未完全实现，但也并非不可能实现：这正是研究的最佳切入点。

我需要一批研究助理，于是像往常一样，给系里的研究生们发了邮件。imagenet等项目让我养成了保持适度期望的习惯，这次也不例外。收到的回复虽然不多，但数量也算可观。于是我制作了幻灯片来解释我们的想法，并安排了第一轮面试。与此同时，我们的项目还需要一个正式的名称。我和阿尼设想了一种旨在用智能且可靠的感知来填充空间的技术，而其最大的特点就是不会引人注目。与人类监察员不同，我们的技术将悄然融入背景之中，默默监视，只有在察觉到危险时才会发出警报。我们将其称为“环境智能”（ambientintelligence）。

“这就是我们的计划，医疗服务的环境智能。”我总结道，“有什么要问的吗？”

我只有一位听众，就坐在我办公室的红色沙发上。他是个特别聪明的双学位学生，同时在修读计算机科学和统计学。他正处于攻读博士学位的第二年，正好在寻找一个更稳定的地方来完成他剩余的研究。然而，气氛并不像我希望的那样轻松。之前三位面试者都决定不加入我们的团队，因此他成了我们的第四位面试者。我尽力掩饰我们士气低落的事实。

“我的意思是，听起来超级有趣。”他回答道，语气足够真诚。这已经是连续第四个候选人表示我们的设想“超级有趣”——我选择忽略这一事实。

“不过，我想知道的是，我还能不能在常规渠道发布成果，比如neurips[注：neurips全称“神经信息处理系统大会”（conferenceonneuralinformationprocessingsystems），是机器学习和计算神经科学领域的顶级国际会议。——译者注]和cvpr之类的。”

“当然。”我笑着说，“我们正在探索许多尚未解决的问题。”

确实如此。虽然医院并非我们惯常的研究场所，但其中涉及的计算机视觉技术绝对是最先进的。我们正在推进前沿技术的发展，需要识别人类活动，而非静态物体，这已经是精细的实验性技术。此外，我们的算法还将面临额外的压力，需要识别异常细微的动作，对准确性的要求很高。与此同时，我们也计划将物体识别提升到新的水平，因为我们的分类器将不得不应对密集的运动、混杂的背景和模糊的情况。相关工作会异常艰苦，但同时也是建立名望的好机会。

“坦率地说，我们希望能在临床上产生真正的影响。这意味着我们也要与临床工作者合作，向临床期刊投稿，而不仅仅是计算机科学领域的期刊。”

这个学生考虑了一下。“明白。但是，这类期刊的出版周期是多长？”

这是个好问题，因为学术生涯在很大程度上取决于论文发表，尤其是在最初几年。在他看来，医学期刊缓慢的出版安排就像一个锚，会在他需要冲刺时拖慢速度。他的担心不无道理。如果他发表论文的频率能达到同行的一半，就已经很幸运了。我一边回答，一边在心里暗叫不好。

“老实说，我自己还没发表过。但我的搭档米尔斯坦博士说，一般需要一两年的时间。”

他睁大了双眼，又停顿了片刻。