Google I/O 2019 :AI 改变生活
紧跟着微软的步伐,北京时间凌晨,Google 召开了今年的 I/O 大会。和微软的 Build 大会类似,Google I/O 也是一个开发者大会,在大会的主题演讲中,Google 也会例常得发布一些新东西。
最近几年,Google 在 AI 领域内取得了不少惊艳的成果。在硬件方面,他们研发出了 TPU,在处理 AI 计算时,他能够爆发出相当强劲的性能。TPU 向 Google 提供了其他公司难以企及的超强算力,Google AI 的飞速进步和与其基础设施的强悍是密不可分的。
在软件方面,去年 I/O 大会上的电话 AI 系统 Duplex 给笔者带来了极大的震撼,它合成出来的语音相当自然,通话的对方并不能察觉到自己是在和机器对话,而且在整个对话的流程中,Duplex 的响应非常流畅。
Duplex 背后是 Google 近两年大力投入 AI 研究后研发出来的一些「精华技术」,例如合成语音时所用的 WaveNet。这些技术实际上很早就有 Demo 了,只是在当时这些技术 Demo 并没有引起很广泛地关注。
Duplex 这套系统的诞生代表着 Google 已经拥有了将前沿 AI 技术沉淀、消化,将其综合起来转化为实际应用的能力。
今年的 Google I/O 大会上,AI 仍然是主要内容。近几年 Google 对 AI 是越发地看重,在决定由「Mobile First」转向「AI First」后,每年 Google 在 AI 领域的投入都在加大。
在 I/O 19 的开场,会场大屏幕上打出了「Keep making magic」(持续创造魔法)这样的 Slogan。
在深度学习技术流行后,很多原本计算机所不能实现的功能、只存在于幻想或科幻电影中的功能正在被实现、正在变成现实,给人的感觉就像是梦幻的魔法一样。计算机开始有了「认知能力」,在现有 AI 技术的加持下,计算机开始能够识别多样化的场景、开始能够理解语言、开始能够和人进行智能的交流。
目前我们所看到的各类 AI 应用仅仅只是 AI 技术发展初期的产物,在 AI 这条路上,科技巨头们还有很长的路要走,Google 通过这一开场传达了他们将继续致力于 AI 研究并持续尝试用 AI 改善生活的理念。
Google 在这一次 I/O 大会上拿出来的新东西都很贴近普通用户,而微软在 Build 大会上拿出来的新东西有很多更贴近企业和开发者。这种差异的存在主要是因为微软主打的 Azure 以及 Azure AI 本身就是面向企业提供,而 Google AI 则主要服务于使用 Google 系产品的普通用户。
和微软情况不同,目前 Google 的搜索引擎仍然是 Google 的一大支柱,所以在 I/O 开始时,Google 就先介绍了他们对搜索引擎做出的一些改良。
在搜索引擎中,Google 添加了对 3D 模型查看的支持,比如你在搜索引擎中搜索新百伦的运动鞋,在搜索结果中你可以通过「View in 3D」这个新的选项查看它的 3D 模型。
这项新功能的应用面很广,它可以用于让商家全方位无死角地展示自己的产品,也可以用在教育领域,让学生通过带有动画 3D 模型更进一步地理解专业知识。
3D 模型的显示与查看是支持 AR 的,你可以直接将这个模型的显示叠加到现实的场景上,例如 Google 在现场演示的「近距离观察动物」。
这个演示过程中有一个点很有意思,这个白鲨的模型从演示开始到结束都很稳定,没有出现什么明显的抖动、位移、缩放。对于 AR 应用来说,想要让 AR 中的 3D 模型保持如此稳定的状态并不是一件简单的事情,模型的稳定是 Google 技术实力的一个非常好的体现。
说到 AR,在后续 Google 展示了更多基于 Google Lens 的 AR 应用,例如在一个饭店中,你使用 Google Lens 对准饭店的菜单,它会为你自动框选出推荐菜品。
通过手机屏幕。你可以非常直观地看到这家店有哪些菜是受食客欢迎的、是时下流行的。
你可以直接在界面中呼出子界面,查看相关菜品的图片,这可以说是非常智能了。
类似地,你也可以用 Google Lens 去拍摄一张小票,Google Lens 会自动对画面内的小票进行识别,并自动为你计算出你该付的小费。在有小费文化的美国,这一功能可以说是相当实用的。
当然,Google Lens 也支持通过 AR 在静态内容的基础上为你展现动态内容,例如你用 Google Lens 对准一个食谱,它可以在食谱上自动为你播放这道菜的制作流程。
类似地,这一功能也可以扩展到报纸、杂志等等,其发展空间是非常大的。
在翻译上,Google Lens 现在可以做到直接在现有画面的基础上直接叠加格式类似地、翻译好的文字,虽然看上去会还是会有一些不太和谐,但是相较于国内一些 App 只能提取文本,然后在 App 页面内显示翻译结果来说,这样的功能显然是实用不少。
当然,它也支持直接朗读画面上的文字或对画面上的文字进行实时的搜索。
这项技术有 AI 在背后做支撑,值得一提的是,得益于 Google 在近一年中对 AI 模型优化的努力,其背后的这一套 AI 模型被压缩到了 100KB,这意味着它可以直接利用手机本地的算力在任意手机上直接运行。
类似地,Google Assistant 语音处理部分的 AI 模型也得到了优化,这一模型直接被优化到了 500MB,这意味着它完全可以运行在用户的手机上。
原先你的输入需要在 Google 数据中心进行处理,现在得益于模型的优化,这一部分数据处理将转移到你自己的手机上。
这能极大地提升 Google Assistant 的响应速度,它可以直接在本地完成识别这一操作,不再需要将录音传至云端,并等待云端回传结果。根据 Google 在大会上的说法,这项优化可以让 Google Assistant 的响应速度提升整整 10 倍。
这一项优化在短期内将会让 Google Assistant 和其他厂商的语音助手拉开不小的差距,因为其他厂商的语音助手都要依赖网络,其响应速度不可能会快于优化过的 Google Assistant。
响应速度的提升能够让 Google Assistant 在短时间内对用户发出的一串不连续的指令做出高速的响应,例如你可以对它说「回复短信,内容是:xxxxx,将我最近在黄石公园拍摄的一张动物照片发送给他」,得益于其在响应速度上的优化,这一系列指令能够得到快速、高效的执行。
在执行这一长串不连续指令时,用户并不需要反复触发唤醒词,这极大地提升了语音人机交互的体验。
在新的 Google Assistant 中,AI 可以理解你的「人际关系」,Google 称其为「Personal Reference」。
举个例子,AI 在分析人类语言的时候,如果它遇到了「mom's house」(妈妈的住所)、「mom's birthday」(妈妈的生日)这样的短语时,AI 没有办法去理解它,因为 AI 并不知道其中的「mom」指代的是什么,而它又关联到了哪些信息。
在 Personal Reference 的加持下,它能够理解这些词语指代的是什么,并且给出准确的回应。
Personal Reference 并不局限于理解你的人际关系,它还能够理解你的日程等等。
基于这类更高级的语音交互界面,Google Assistant 将会为用户提供一个对驾驶十分友好且安全的「驾驶模式」。
在司机驾驶的过程中驾驶模式会主要通过语音来和司机进行交互,这样司机并不用分心去操作手机上的图形界面,他们的视线不会离开道路。
Google Assistant 会自动为你进行导航、获取周边的信息,同时它还能根据你的需求播放你想要的电台、音乐,对于打进的电话,它也可以完全用语音来与你进行交互。
这个驾驶模式虽然看起来很简单,但实际上其内容很丰富。它之所以看起来简单是因为很多图形交互界面已经被 Google 转化成了语音交互界面,而且 Google Assistant 的高度智能化能够让这一驾驶模式只在界面上显示必要的信息,简单实际上是界面上信息冗余的减少。
在大会上,Google 在去年 Duplex 理念的基础上开发了「Duplex on the Web」。这是一项用于网页的 Duplex,它和去年的电话 AI 一样主要是减少用户预订服务时的麻烦。
Google 提到在网页上预订一些服务的时候,我们可能需要填写非常复杂的表单,这些表单往往是个人信息以及预订服务的相关信息。Duplex on the Web 能够直接为你完成这些复杂的表单填写,用智能将用户体验优化到极致。
对于习惯性使用网页来预订一些服务的用户来说,这个功能是特别实用的。
得益于 AI 模型的优化,现在语音转录文字的 AI 模型也能够直接运行在本地,运行在每一个用户的手机上。
它能够为听障人士实时转录周围人说的话,也能够在视频播放或直播等场景下实时地生成字幕。由于这一功能已经不再依赖网络,所以其运行速度、响应速度都非常快,可以说几乎是实时的。
这一技术不但能够对我们这些普通人的生活带来影响,它还能够给世界各地的残障人士带来巨大的福音。
在这方面,Google 还运用 AI 技术做了一个特别的「语音转录」,它面向那些因为患有 ALS 而说话困难的人提供,由于他们的发音很模糊,几乎没有人能够听懂他们在说什么,所以在生活中他们会遇到不小的障碍。
Google 通过机器学习试图让这些模糊的声音转化成表意清晰的文字,使其能够被其他人理解。除此之外,Google 还运用了对表情识别等技术来帮助一些情况更严重的患者去他人进行沟通。
相较于去年的 Google I/O 大会,今年 Google 展示的这些 AI 技术都非常贴近用户、非常贴近生活,这些新功能、新技术在上线后将真实地为用户带来便利。
反观国内不少互联网公司,他们所提到的 AI 往往都只浮于表面,它们要么只是一个很简单的功能实现,但在宣传上却被吹得天花乱坠,要么这些所谓的 AI 只是运行公司的内部,和我们实际的使用体验关系不大。
这些 AI 并不会对我们的日常生活带来什么实质性的改变,它们确实存在着,但是作为用户我们并不能察觉到,也并不能够享受到它给我们带来的直接的便利。
Google 给我们展示的这些 AI 功能看起来很简单,例如实时字幕,它就是一个字母而已,非常简单,但是对于用户的使用体验以及日常生活而言,这个功能的存在能够带来很多直接的改变。
Google 是真正在用 AI 改变每个人的生活,而且这样的 AI 已经是我们很轻松就能看得见、摸得着的。
然而很遗憾的是,在国内的我们由于 Android 的深度定制化以及 Google 服务无法使用的原因,我们并不能享受到这些智能给我们日常生活带来的改变。
在 I/O 大会上,Google 还常规发布了 Android Q 以及一些硬件产品,关于这些,笔者会在后续的文章中提到,欢迎你持续关注。