创业18年 声纹识别的商业逻辑

中国最强的声纹识别技术公司,如何在发展核心技术的同时,学会做减法。

如果让你每周阅读相同的文字并录音,你能坚持多久?

在过去10年中,有一群人周周如此,未曾间断。他们中的每一个人都留下了至少864段语音。在漫长的10年里,他们有的跨越了变声期,有的因声带受损声音豹变,有的因迟暮而声音沧桑……不变的是所说内容:无论在怎样的天气、怎样的身体状况、怎样的情绪影响下,这群人周复一周地录制着完全相同的内容。

他们的声音被小心地储存在了得意音通的数据库里。得意音通创立于2002年,以声纹识别、语音识别和自然语言处理技术起家。在2019年ASVspoof大赛中(国际自动说话人识别欺骗攻击与防御对策挑战领域最权威奖项),得意音通在156个参赛团队中排名第一,并远远高于第二名。

“声纹识别这一行,不仅需要点滴积累,还得耐得住寂寞。”在毗邻清华大学的公司总部中,得意音通创始人、董事长郑方对《创造一下》说。10年前,正是他力主搭建“声纹时变数据库”,在将近900周的努力下,这已经成为国内乃至国际最专业的声纹时变数据库。

2020年3月,得意音通完成了新一轮融资,成为了国内声纹识别领域估值最高的公司之一。而在金融领域,他们已经获得了20多家金融客户并且和中国银联等平台达成合作,目前得意音通已经成为了国内声纹识别领域市场占有率最大的技术方案解决商之一。

得意音通的创业故事回答了一个共性思考:一家有着核心技术的公司,如何在To B领域耐住寂寞、找准赛道?《创造一下》专访了得意音通创始人郑方,本文将为你揭示技术型创业公司该如何深耕技术优势并学会做减法。

1、声纹布道者

今年53岁的郑方是连云港人,白羊座的他在同僚眼中以厚道+坦率形象示人。郑方年轻时以高分考上清华并以学霸身份著称。留校任教后,郑方继续保持学霸本色。

在90年代,郑方所在的语音实验室因为科研实力过硬,经常能从国家和企业争取到不菲的科研经费。郑方本人也曾多次拿过全国各类奖项。

“坦白地说,当时从未想过当企业家,研究学术挺适合我。”作为学者的郑方,已经有其日后创业时的韧劲儿。熟悉郑方的人回忆,为了攻克技术难题,郑方经常泡在实验室里。在清华大学里,郑方以“痴迷科研”颇有名气。这股拼劲儿“物有所值”,在2000年前后,清华大学语音实验室(后来更名为语音和语言技术中心)在语音识别、声纹识别和自然语言处理领域已经拥有国内领先的技术。

90年代,郑方曾尝试过技术产品化。当时的语音实验室和一些企业有密切合作,试着推出一些产品。比如郑方曾主持的语音拨号产品和MP3播放产品。他带领团队还曾做过两款英语学习类软件,软件内置的语音识别功能可以为用户的英语发音标准化程度打分,在1998~1999年分别是多媒体教学软件榜首。但这些产品最终都没能成功存活,这让郑方陷入思考。

得意音通创始人郑方

机缘巧合,2001年郑方应香港政府优秀人才输入计划到香港工作,参与了当地的技术成果转化活动。在将近一年的技术产品化实践中,郑方逐渐意识到技术和市场不能分隔开。“我总结了两种技术转化失败的原因:市场方完全不懂技术,或者技术方完全不懂市场。”郑方认为只有技术和市场双可控,才能确保产品可控。2002年郑方回到北京,在清华大学计算机系的支持下,他注册了得意音通,此时35岁的郑方满怀一腔热血。

当时市场上对于语音识别等技术的需求很高。经常有公司找到语音实验室希望获得技术支持。甚至国家层面对于语音识别技术的产品化也有着较高期待,曾有国家领导人对语音实验室表示“未来要能用语音输入直接打字。”

市场需求和政策支持让郑方非常振奋。作为拥有国内顶级语音识别技术的人,郑方本以为创业之路不难,甚至他觉得只需2~3年,公司便可以上市。当时得意音通给自己定下了六大发展方向,除了声纹识别,得意音通还同时进军关键词识别、整句输入法、语言理解等领域。

“现在看起来,想法和实际有一些差距。”从2002年到2014年的12年间,得意音通在多个方向大力投入研发。这让得意音通完成了海量数据库的建立以及诸多技术的积累。但同时郑方也发现,市场对声纹识别技术的认知度之低超出了他的预计。

创业之初得意音通的技术主要服务于技侦领域,在其他领域则遇到了推广难度。和一些其他技术不同,声纹识别技术更为垂直、小众,一个简单的案例可以窥探一二:一个人在不同健康状态下、不同情绪状态下,甚至只是不同时刻说出的相同的话,其声音波形是不同的。在给客户展示产品时,总被提及的问题是“为何两个波形不同的声音,源自一个人,声纹唯一吗?稳定吗?”在常人的观念里,同一个人声音的波纹应该完全一样才对。

郑方笑称当时的自己很像“布道者”,他需要一遍遍给客户科普什么是声纹以及声纹识别技术,介绍声纹识别技术的基础原理。市场对声纹识别技术的陌生,导致得意音通在市场开拓上速度较缓。

甚至还要面临人脸识别技术的挑战。在几年前,曾有某省的社保机构希望在人脸识别和声纹识别方案中选择一个。在一开始,对方甚至不愿意给声纹识别技术尝试的机会。“大部分人一上来就觉得声纹识别不靠谱,市场对这个技术太陌生了。”在郑方“免费试用”方案的劝说下,对方同意进行实际检测:人脸识别和声纹识别方案同时试用,并根据结果再做定夺。结果人脸识别出现了问题,一些人用假照片也能顺利过检。最终该省社保一改曾经的态度,将声纹识别技术采纳为主要技术方案。

给郑方带来烦恼的,还有一些人员对于技术的过度鼓吹。在2002年前后,一些专家声称语音识别技术的准确率已经可以实现99%。实际上直到今天也没有一款产品能达到这样的水平。“95%的准确率已经接近人类的识别能力。”这种过度的宣传,给得意音通压力很大。在展示技术时,一些客户会因为“识别准确率不到99%而产生疑惑。”声纹识别也面临同样的困惑。

面对这样的现状,郑方做了三件事。首先他用了将近8年的时间精心研究针对特定场景的技术。从2002年到2009年,得意音通并没有急着扩展客户,而是通过调研市场发现需求,并布局技术。“许多今天我们视为具有核心竞争力的技术,都是十几年前布局的。”郑方说。

此外郑方开始深度和大量客户交流。他不仅采用了“免费试用”的模式,还采取了坦诚的态度。在给客户提供技术方案时,郑方甚至会建议客户“改变产品本身”。“有时候客户希望实现的功能,远远超过了眼下行业的技术水平,此时我会建议对方暂缓。”郑方会告诉客户,哪些技术立刻可以应用,哪些还需要2~3年的研发,而哪些需要十年以上的准备。在市场对技术陌生的情况下,郑方发现这种坦诚反而是企业生存的依赖。“只有这样做才能建立互信。”

与此同时,郑方带着团队开始发力行业标准制订。2008年,郑方主持起草的国内第一个声纹识别标准得以颁布,尤其是最近主导起草的央行《移动金融基于声纹识别的安全应用技术规范》,它于2018年底由央行颁布。而这是金融行业第一个真正纳入执行体系的生物特征识别行业标准。

这些努力确有成效。2016年,得意音通在金融领域只有建行一家客户,但到了2020年金融客户数量已经达到20多家。

有趣的是,从2019年开始,更多领域的企业客户开始找到得意音通寻求合作。不久前,甚至有一家马桶厂商打电话询问能否给智能马桶嵌入男女声音识别功能。

“To B创业者往往需要培养市场,这看似需要漫长的时间,却是必经之路。”郑方说。

2、转型八字:找准需求,学会聚焦

最近郑方和一个企业客户进行了坦诚交流。

对方描述了几十个需求点,希望得意音通用自己的声纹识别技术一一解决。让这位客户意想不到的是,郑方并没有根据这些用户需求定制服务。当着这个客户的面,郑方将对方的需求分为了三类:眼下技术可以实现的,经过2~3年研发技术可以实现的,需要10年以上技术积累才能实现的。

郑方建议对方优先把前两种需求视为产品功能的必备项,第三种需求所呈现的功能则暂时放弃。郑方的操作方式和声纹识别市场内的常见操作并不相同。“我们的一些竞争对手会对客户表示所有需求都能满足,但是我们会先冷静分析这些需求。”

让郑方保持这种理智的原因,是声纹识别技术应用市场的特殊性。这些技术提供给企业后,最终会用于C端用户。而B端企业客户和C端用户之间的需求并不完全相同。

以2009年得意音通最早的金融客户建行为例。当时建行希望得意音通将声纹识别技术纳入电话银行产品中。建行方面的要求看似简单:C端用户通过电话声音便可以实现身份识别。

当时主流的技术是文本无关的声纹识别,这也是得意音通最早提供给建行的方案。但产品上线后,C端用户的体验感并不好。在当时技术模式下,如果要满足银行客户的正确率要求,C端用户至少需要发出有100多个汉字的句子,这需要C端用户举着电话至少通话10~15秒钟,甚至更长。许多C端用户会逐渐忘词,或者不知道要说什么,或者随便乱说,或者因不耐烦而挂断电话。

在发觉C端用户的这种场景化的需求后,得意音通决定根据场景升级产品。经过3年的努力,郑方设计出的“声密保”产品推出:一改通过读很长的句子识别身份的窠臼,用户只需要读出6或8个随机产生的数字串便能高效地确认身份,只用1-2秒的时间。

得意音通发明专利保护圈

研发声密保的过程也启发了郑方。在此之前,得意音通的技术研发,有着很强的学术实验室特点,这是一种从技术出发,自上而下的视角。推出声密保后,郑方改变了这种模式,开始基于市场需求去倒推技术研发。

比如最近,得意音通团队正在研发一个在开会场景下的功能,用户只需很小的声音便可以完成身份识别,而这个灵感正源自用户。郑方和其团队通过频繁和用户交流,收集到大量的新需求。而其中大量出现的共性需求会成为郑方团队发力的关键点,这这些关键点有很好的前瞻性和创新性,是在论文中找不到的。

以得意音通“防攻击”的核心技术为例。这也源自建行等企业客户提出的需求,当时多家银行负责人提出了一个疑问:“如何避免有人用合成的声音或录音进行身份识别”。在收集到这一需求后,得意音通将技术进行场景化落地部署。“本质上技术还是那些技术,关键在于根据需求精准地场景化。”

这种从需求出发的研发导向,最终让得意音通逐渐聚焦一个个应用场景。“实验室成果,和可以落地的场景化应用之间有着较大差异。”郑方认为这正是得意音通的核心壁垒之一,经过18年的发展,得意音通不仅有充足的技术储备,在技术场景化方面也有丰富的经验。“甚至我们踩过的坑都是最多的。”郑方风趣地说。

2018年,由得意音通作为主要成员之一参与起草的《移动金融基于声纹识别的安全应用技术规范》的颁布,让郑方看到了曙光。和此前得意音通负责起草的行业标准不同,《移动金融基于声纹识别的安全应用技术规范》成为了行业实际执行的重要参考,这意味着得意音通在金融领域获得了竞争优势。“过去十几年的积累,让我们可以从容实现这一标准,而行业内能达到这一标准的同行并不多。”郑方说。

疫情给郑方带来了一些烦恼。原本2020年是得意音通规划之中的“提速发展年”,但疫情影响下得意音通无法和目标企业用户线下“面谈”,得意音通的多个项目只能暂缓。不过郑方的烦恼并未持续很久。8月5日得意音通和银联达成战略合作,得意音通已成为银联平台中重要的“声纹+金融服务身份认证”合作方,此后更是与包括(建行)建信金科在内多家银行或金科公司共建联创中心。

“曙光已到,我现在每天都充满期待。”郑方笑着说。

创业九问

创造一下:在身份识别的技术路线上,人脸识别比声纹识别人气更高,这种现状是如何造成的?

郑方:人脸最大的特点就是可见,无论是企业用户还是C端用户都觉得这东西“看得见摸得着”,但通过声音去识别身份,就会觉得有点“玄”。你拿两张照片对比,结果一目了然。但是对比两段声音是很难直观做出判断的,同一个人在不同状态下说同一句话,声音波形都是不一样的。其实整个语音领域在学术界里的声量也不大,这是一个有些小众的技术,所以从媒体到商界大佬,我们可以看到许多推介人脸识别的,但是愿意为声纹识别呐喊的却很少。在中国计算机学会,至今语音领域都没有专委会,现在是刚刚成立专业组(算是专委会的前身吧),这个小细节也可以看出语音界声音小的现状。

创造一下:最近两年声纹识别似乎迎来了一股热潮,亚马逊、苹果、科大讯飞、腾讯等等企业都进军这一领域,如何看待这些新竞争者?

郑方:我欢迎竞争,但是希望是有序竞争,是健康竞争。这些巨头的进入首先说明市场出现了更多的需求和机遇。但巨头能否带来有序竞争呢?目前有一些巨头其实在破坏健康的生态,他们试图吞并一切、垄断一切,这并非一种健康的心态。甚至合作也变了味,一些巨头并不推崇平等的合作,他们提倡买下你甚至干脆砸钱抄袭你,这都不是良性有序的竞争。还有一些打价格战的企业,他们的东西价格便宜但是技术功底极差、产品不过关,这样的企业最终会损伤整个行业的口碑。

创造一下:面对这些竞争,得意音通的护城河在哪?

郑方:我们的护城河是由标准+专利池+产品和服务+核心技术四个维度构成的。我们的专利池也叫专利墙,由6圈“墙”构成,这是一层层结构化的。也就是说得意音通的技术自成体系,你挖我一两个人、抄袭我一两个产品,是不能偷走我的核心技术的。某种意义上得意音通有自己的技术生态。而四大维度共同作用而成的竞争壁垒,是得意音通18年来点滴积累而成,任何企业不可能朝夕盗取这种优势。

创造一下:语音领域是不是通过砸钱+聘请核心研发人员可就以迅速实现跨越式发展的?

郑方:绝对不是。因为不光有技术积累,也有摔跟头的积累。从技术到产品场景化落地,中间有无数的坑,这种填坑的过程会形成经验,而经验很难用钱买到。我们2013年提出声密保的产品方案,但是真正上线已经是2016年的事情了,整整3年我们都在打磨这一款产品,中间经历了无数的挑战。实际上语音这个领域,许多看似简单的事情实现起来很难,你连论文都找不到。这是需要点滴积累而成的行业。

创造一下:现在客户量变多了,会考虑定制化服务么?

郑方:得意音通不做针对某个客户的定制化,但我们会总结一批客户共性的需求并根据这些需求研发。在语音领域,定制化是走不通的,因为许多需求是不现实的。技术方案解决方,不能一味对客户打包票,其实很多需求是眼下技术实现不了的。这不是得意音通的技术实现不了,而是全球范围相关技术都难以实现的。解决共性的需求才是我们该做的事情,定制化不是。可以说在整个人工智能领域,要真正形成产业,必须找对技术与场景可以很好对接的去开发、完善和复制复制,而不是简单地定制化。由于人们对人工智能不切实际的高期望,定制化是可怕的,能把一个企业活活累死。

创造一下:人工智能现在是资本市场眼中的热土,您如何选择资本合作者?

郑方:人工智能领域的创业者要谨防被资本绑架。我在选资本合作方时是非常慎重的,宁肯不合作,也不要让自己陷入被动。有些投资人容易跟风,缺乏战略眼光和判断,在这个领域3~5年出成绩是很难的,一些技术积累需要十年甚至更长的积淀,而资本往往是躁动的,他们缺乏耐心。人工智能领域部分技术落后、产品难做的现状和这一点有直接关系。

创造一下:您觉得现在人工智能领域整体的生态环境怎样?

郑方:我觉得眼下的生态并不乐观,因为太多人想垄断、吃独食。其实这个行业应该有分工,资本、公司、学校各个环节做好自己的事情即可。曾经有一些银行也开始自己研发语音技术,但最终做出来的产品不过关,只能重新找技术方合作。中国的许多公司太渴望面面俱到什么都做,行业需要有分工合作的意识。

创造一下:您拥有学者和创业者两大身份,这种身份转变需要心态的调整么?

郑方:学者和创业者其实可以是一种身份,技术和市场也可以是一件事,它们是一体的。我现在依然在带研究生,依然在讲台上授课。创业其实给我的教学也带来了助益,因为我可以教给学生们更实际的学问,告诉他们这个公式在实际应用中是怎样的,这个技术应该如何产品化落地。

创造一下:您如何看待未来的机会?

郑方:曙光已到,我现在每天都非常兴奋,就像古人说的不知东方之既白。因为我看到了希望。2018年的标准制订和这两年行业发展的现状,让我越发确定了一点:得意音通的机会来了。我非常看好未来,会有更多的合作者选择我们的声纹识别技术方案。