智能+”是“互联网+”的下一站
无论形象还是气质,张亚勤都给人以大气又诚恳的感觉。身为百度总裁,他肩负着新兴业务开掘、国际化拓展和大市场等重任,职业角色较之他担任微软亚太研发集团主席时有了极大的转变,然而在他身上,仍时刻散发着科学家所特有的那种纯真、认真与求真的气场。
百度大厦7层总裁办公室的风格简约又朴实。除了白板、书架、办公桌和会客桌之外,没有任何多余的装饰。一起吃着助手从楼下食堂打来的简餐,张亚勤向记者描绘了他眼中“智能+”的恢宏场景。
从人机大战说起
不少人知道张亚勤是12岁即考入中国科技大学少年班的天才和第一位获得美国电子电气工程师协会(IEEE)年度产业先锋奖(Industry Pioneer Award)的中国人,但或许没几个人了解,他还是一位资深的围棋爱好者。尽管因为工作忙碌而没时间去参加比赛提升段位,但他也曾以业余五段棋手的身份与好几位专业九段国手对弈,在让四子的情况下少有败绩——只输过已然仙逝的陈祖德先生一局棋。
身兼IT科技从业者和围棋爱好者的双重身份,张亚勤对近期备受瞩目的AlphaGo与韩国顶尖棋手之间的连番大战自然有着自己独特的判断。
“正如DeepMind联合创始人Demis Hassabis所说,围棋比国际象棋复杂得多。多年以前我就相信机器棋手终有一天会战胜人类围棋国手,但真没想到这一刻来得如此之快。”张亚勤说。
人机大战上一次造成全球性轰动是在1997年5月。当时,由IBM投资的弈棋计算机“深蓝”战胜了人类国际象棋大师卡斯帕罗夫。有趣的是,“深蓝”项目的主要研发者许峰雄博士正是由时任微软亚洲研究院院长的张亚勤亲自出马招揽到中国工作的。
“2002年11月,我去拉斯维加斯参加Comdex2002大展时打电话给许峰雄,我们聊到了微软亚洲研究院的研究项目、学术计划、企业文化等诸多话题,很投缘。因此,当我邀请他来北京实地看看我们的工作环境时,他很痛快就答应了。第二年的3月15号,他正式加盟了微软亚洲研究院。”张亚勤说:“把许博士请到北京之后,我也和他琢磨过再研发一台围棋计算机的事儿,而且还尝试了一段时间,但后来感觉距离打造一台可以和人类围棋高手一较高下的目标实在太远,就叫停了。确实,2003年前后的计算机,无论是性能还是学习能力都还是太弱。”
张亚勤和许峰雄当然聊起过“深蓝”背后的故事。然而在许峰雄看来,“深蓝”根本就不是基于人工智能技术开发的,受雇于IBM的研发团队仅仅是想创造出一台速度快到足以击败人类世界冠军的计算机而已。
张亚勤指出,AlphaGo的研发思路全然不同于“深蓝”。根据《Nature》于今年1月刊出的论文,它是基于深度学习(Deep Learning)技术与蒙特卡罗树搜索(MCTS, Monte Carlo Tree Search)而构建,从原理来看并不艰深,但DeepMind团队的创新之处在于,为AlphaGo增加了“策略网络”(Policy Network)与“价值网络”(Value Network)两个工具,前者以当前棋盘盘面的状态为输入,以下一步棋在棋盘空间的落子概率为输出。后者则被用于判断AlphaGo“出手”后的胜负几率,对可能的收益和损失进行估算,通过持续的自我对战,AlphaGo生成了3000万盘棋局,用于对价值网络的“训练”——“无论从技术思路还是从结果来看,DeepMind这支团队都很了不起。事实上,如果该团队仍然依循‘深蓝’的模式去研究围棋计算机,就不大可能这么快让AlphaGo对人类高手产生威胁。”
“和收购Android一样,Google对DeepMind的收购也带来了超乎所有人预期的回报。AlphaGo战胜人类九段、被世界职业围棋排名网站排名世界第二,这件事最大的意义在于,它使人工智能进入到主流人群(特别是围棋爱好者)的视野,引发了许多话题,展示了Google在人工智能领域的强大实力。”张亚勤说:“不仅如此,多年以后,当我们回顾人工智能的进化历程时会发现,AlphaGo打破人类对围棋领域的绝对统治这件事的意义可以和阿波罗11号成功登月相比,因为它宣告了一个崭新的‘智能+’时代的来临。”
“互联网+”的第三维与下一站
在张亚勤看来,如果把1981年IBM推出首台开放式架构的PC视为信息技术浸润全世界的开端,那么之后的第一个30年,IT产业的主要工作是把物理世界的模拟信息数字化和IP化(Internet Protocol ,不是指知识产权)。一方面,物理世界的信息资源持续地、大规模地向数字世界迁移,过往几千年人类点滴积累且不断更新的知识(包括各种文本、声音、影像、工作流程等等)在短短的三十年里被转化为0和1的组合。另一方面,所有被互联在一起的硬件都获得了自己独一无二的位址,从而使机器与机器之间的交互与资源分享成为可能。
“在下一个30年,物理世界数字化的进程还将延续和加速,但同时,IT产业又在将数字世界的商业模式映射回物理世界,互联网与物理世界的融合度越来越高。”张亚勤说:“一个明显的趋势是,互联网正在被扩展到三个维度。第一个维度是万物互联。”
根据市场研究机构Juniper Research发布的数据,物联网(IoT)连接的装置数量在2015年达到134亿个(是全球总人口的两倍多),至2020年将突破380亿部。张亚勤认为,越来越多的IoT装置、传感器、VR和AR设备正在加速把物理世界和虚拟世界连在一起。
第二个维度是“互联网+”,也就是来自数字世界的技术和商业模式影响到实体经济,包括每个人的衣食住行,包括传统行业,包括制造业——源自互联网的商业思维、营销手段、粉丝经济、快速迭代的产品更新思路等等从虚拟世界走回物理世界,改变着物理世界里的传统行业。“过去一两年里,由政府积极倡导的‘互联网+’发展理念带动了传统产业的转型和升级,重塑并优化了中国的经济结构,可以说是基于产业现实状况、权衡了各种优劣利弊条件后的最佳选择。”张亚勤说。
第三个维度是“智能+”。用一句话来概括就是:人工智能将成为推动互联网下一轮升级和变革的核心引擎。“智能+”是“互联网+”的下一站——更智能的机器、更智能的网络、更智能的交互将创造出更智能的经济发展模式和社会生态系统。
第一次工业革命发端于纺织工业的规模化与蒸汽机的广泛应用,第二次工业革命揭开了电气时代的帷幕,第三次工业革命以原子能、航天、计算机和互联网等科技的突进为标志,而张亚勤确信,“智能+”将成为第四次工业革命的技术基石。
“智能+”的命题得以成立的关键在于,互联网上每时每刻都在激增的数据为机器以深度学习来提升“智能”创造了无限可能。不少人感到这几年来人工智能技术的进步超越了过往几十年的积累,原因正在于此——之前制约着机器学习的瓶颈是数据量不够,就像总是吃不饱的孩童很难正常发育那样,相关领域的研究由此步履迟缓。
现今,经历了从桌面互联网到移动互联网的迭代,云-端计算的变革令联网终端的数量和互联网上流动的数据量在短短几年里实现了指数级增长。根据思科Visual Networking Index(可视网络指数)的预测,全球互联网总流量将在2016年突破1ZB大关。海量的数据让机器的学习效率大大加快,相应的,其智能程度也可能会与互联网数据的增长幅度保持同步,甚至开始依照摩尔定律所定义的轨迹飞速演进。
当基于IPv6协议、支持海量位址的互联网在全球的部署率变得更高(虽然不久前才刚超过10%),势必会有更多具备了某种程度“智能”的机器被连入网络,这会带来人工智能的盛夏,并将“互联网+”推向“智能+”的新阶段。
“智能+是自PC、移动通信和互联网发明以来又一场可能深刻影响世界、改变人类生活的大风暴,人工智能将在第三个阶段成为互联网的中枢,而遍布全球各个角落的云-端网络与传感器海洋将为人工智能中枢提供无尽的感知能力。社会形态将被智能化信息技术重塑,每个人都会被契合其个性化需求的信息所环绕。今后的30年,“智能+”将极有可能加速物理世界与数字世界的融合,再度重构3600行的商业模式与竞争法则,并赋予亿万用户的工作、生活以新的活力和乐趣。”张亚勤说。
人工智能的三个层次
张亚勤认为,人工智能的技能可以约略分为三个层次。第一层是感知层,包括视觉、语音、听觉、嗅觉、触觉等。对于研发者来说,主要的挑战在于让机器拥有接近甚至超越人类的感知能力。
“计算机视觉、图像识别、虹膜与指纹等生物特征鉴权的相关研究将使机器能够看清世间万象、听懂各类声音、识别主人和访客。一年前,我在微软亚洲研究院的老朋友领导的小组开发出基于深度卷积神经网络(CNN)的计算机视觉系统,在ImageNet 1000挑战中首次超越了人类进行对象识别分类的能力,机器识别图像的错误率已降至4.94%(而且很明显还将随时间推移继续下降),而人眼辨识的错误率则固化在5.1%左右。另外百度的无人车项目也结合了我们在计算机视觉领域的技术成果。再看生物特征鉴权,时下指纹识别已成为手机和PC上常见的功能,而更便捷的虹膜识别也已被集成在微软的Windows里。至于听力和阅读能力,因为有很多的应用场景都要求人工智能助手能够听懂或读懂主人的指令,并以自然语音或文字对指令进行有效回馈。我们已经很熟悉的苹果Siri、微软小冰、Google Now以及百度的度秘、小度机器人都在依循相近却又各有特点的路径向着打造“能听会说”的人工智能产品迈进。百度的深度语音识别系统(Deep Speech 2)还因为包含了非常庞大、“深入”的神经网络,拥有数以百万计的转录语音而登临了由麻省理工学院(MIT)评选的2016年十大突破性技术排行榜。特别是在中文语音识别方面,百度的技术有着一些优势,例如我们的搜索引擎不仅能听懂部分地区用户的方言、实现各种噪音环境下的用户语音分辨,还能连续识别语义。这些能力在人类看来很是平常,对机器而言却并不简单。”他说。
第二个层次是逻辑层,也就是让机器能够整合知识、加以判断、导出决策——AlphaGo在围棋的黑白空间里、百度无人车在北京北五环道路上都做到了这一点。在万物互联的基础上,有“智能”的机器中枢会对互联装置生成的数据进行实时的采集、处理和分析,并发现数据背后的规律与模式,从而自主做出最优的判断并采取行动,整个流程中,智能中枢需完成无人工干预下的自感知、自识别、自判断、自决策、自修正、自调优。让机器具备某种程度的逻辑、思考、辨析能力是有着相当大应用价值的课题。对个人用户来说,能够拥有一位智能感知和理解主人需求、并随时以主人偏好的交互方式智能对话的机器助手,这无疑可以提升工作效率和生活品质。对组织和机构而言,远在“云”间却又触手可及的机器CIO能实现智能又高效的数据分析与资源调配,使研发、制造、营销、交易、流通、服务等运营各环节都因数据与智能的介入而达成效能最大化与成本最优化。
第三个层次是智慧层,包括自我意识、创意、灵性、情感、美感等许多连人类都未必能解释清楚的能力。在张亚勤看来,“智能”和“智慧”是两个概念,前者是人类脑力的延伸,后者则是万物之灵所特有的优势。作为无机物的机器想要达到智慧的层次是很难的。一直以来都有科学家基于脑科学的发现与成果来尝试构建模拟人脑运行的机器,这当然是极有价值的探索,但研究出更“聪明”的机器或有可能,打造出真正有“智慧”的机器却无法实现。毕竟,智慧是难以解释和令人敬畏的。脑科学专家或许能揭示出天才与普通人在大脑结构与成分等方面的微小差别,却弄不清楚差异从何而来。不过,尽管机器不大可能发展出真正的智慧与情感,但让机器模拟人类的情感和表达却既有可能,又有价值。而今,情感计算已成为人工智能研究的一个茁壮分支——从需求来说,没有人喜欢和一台散发出机油味道的冰冷工具对话,因此有必要逐步改善人工智能与主人之间的交互“气场”,通过使前者不停学习人类的表达方式,来模拟出一种类人生物的感觉。
随着互联网向“智能+”的方向进化,产业和用户也开始面临挑战——挑战并非来自于技术、决心或资源,而是来自于我们开始接触新鲜事物、新鲜现象时的不适与困惑。
事实证明,人工智能技术的每一次进步都在挑战着人类对机器价值的认知。不久前,AlphaGo的非凡战绩就再一次引发了人们对于人工智能威胁的讨论,而此前包括斯蒂芬•霍金、埃隆•马斯克在内的科技界名流也都对人工智能技术的未来表达过深切的忧虑。对此,张亚勤的看法是,当核武器首次展现恐怖威力时,也有许多人担心核能研究终有一天会让人类面临“审判日”,其实人工智能与核能技术都是人类的研究成果,相关领域的进步其实是人类智慧的进步。“对人工智能,我们不应恐惧,但要有意识地关注其可控性。”他说:“和其他机遇与风险并存的技术一样,人工智能也是科技的延展,只要确保相关研究不会走上歧途,或是被心怀恶意的人利用,就不至于产生大的恶果。特别是在‘智能+’应用趋向成熟时,比如无人车、无人机、机器人成为主流,就更要做好安全保障措施。技术发展得太快,而人们解决问题的惯性方式又是等到出了大篓子再来对症下药,这是有风险的。”
不仅如此,当人工智能强大到足以辅助人类更好地完成工作、打理生活,人对机器的依赖性恐怕会变得更大。“有人说,社交网络越发达,人却越孤独。这句话很有道理。当硬件和软件都越来越强大和智能,人在某些方面反而会退化。更智能的机器让人类的生活变得更轻松和丰富,同时,如何让人类始终对世界、对创造、对情感都保持着进取心和敬畏心,这是同等重要的课题。”张亚勤说。
即便存在着挑战,“智能+”仍将作为一种日益清晰的产业发展趋势被越来越多的企业所接受和拥抱。张亚勤认为,把握或漠视这一趋势,攸关着中国经济和科技的未来命运。“‘互联网+’是根据中国国情和产业发展实际因势利导而成的明智抉择,再往前一步就是‘智能+’。在今年的‘两会’上,李克强总理在政府工作报告中强调,‘十三五’新时期的中国要‘培育壮大一批有国际竞争力的创新型领军企业,促进大数据、云计算、物联网广泛应用,使科技进步对经济增长的贡献达到60%,迈进创新型国家和人才强国的行列’,这些都是极具雄心的目标。而要达成这些目标,就必须及早绸缪,切实把握住“智能+”的机遇。毕竟,在以智能+改变经济格局与社会生态方面,中国正在与世界齐步走。”他说。