柯登峰深耕耘语音识别,引领智能生活 “入行”20年手握12专利
人物简介柯登峰,澄海人,1980年出生。中科院语音识别专家,九四智能首席科学家,阿凡题、京师讯飞、博晖创新等企业首席科学家,方亚投资集团顾问,北京语言大学语言智能研究院和北京林业大学人工智能研究所的客座教授,自动化学报深度学习专刊负责人,海淀高层次人才发展促进会特邀专家,北京潮创会常务理事。
扫一扫二维码看更多内容。
心 声
●灵感的开启不是专门去想怎么开,而是分析别人的方法,妙处在哪里,有没有更好的改进空间,在这个过程中自然而然诞生出来的,有时候是大家七嘴八舌讨论出来的。
●很多时候,你不需要什么都懂,也不可能什么都懂,吾生也有涯,而知也无涯,以有限的生命去学习无穷的知识,必定会精神疲惫而一无所得。一定要现学现用才有价值,也才有意思。
●做每件事情之前,要先看看别人都做了哪些,是怎么做,把别人分析透了,复现最好的算法,然后才谈改进。
近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。近年来,语音识别技术更是进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域,尤其是移动终端上的应用非常火热,语音对话机器人、语音助手、互动工具等层出不穷。语音识别技术让原本科幻电影般的人机对话成为现实,世界亦呈现日新月异的变化。
中科院语音识别专家、九四智能首席科学家柯登峰,从2001年开始进入语音识别领域,正好陪伴语音识别行业走过飞速发展的近二十年,并成为这一领域的拔尖人才,目前他手握12项国家专利,成为该领域的见证者和深耕者。
声纹识别撑起安全“保护伞”
有时候,未来在你面前打开一扇门,而你要做的就是相信直觉并迈进去走下去。对于柯登峰来说,就是如此。1999年他告别读了六年的澄海中学,来到中山大学读本科。仅为计算机系的大一新生,柯登峰就通过了一个颇有难度的全国高级程序员认证(即现在的系统分析师考试),于是机缘巧合被学校老师拉着加入和水晶球一起给广东省公安厅做的声纹识别项目。
据柯登峰介绍,当时做的声纹识别项目是通过录入犯罪嫌疑人或罪犯的声纹,对其实现监控记录的这么一种系统。他们从2001年提出构思,2003年就完成系统,并且凭此在2005年获得广东省优秀科技奖。2001年,就成为柯登峰迈入语音识别行业的“元年”。
2005年至2006年,他给解放军总参谋部做缅甸语语音识别系统。当时国内外局势不稳,国内对网络监控非常严格。缅甸语作为小语种,相关人才很少,全国高校来说,北京只有两所学校有缅甸语培训,而且还是每四年招生一次,只招30人。这么少人监控那么多内容,难度可想而知。所以缅甸语语音识别方案,以机器代替人工,监控网络电话,起到非常重要和积极的作用。
这两个项目均为社会安定撑起科技的“保护伞”,虽然柯登峰不无惋惜地说,后来想推荐把声纹做进身份证,可惜没有成功,但是沉甸甸的社会责任感,再加品尝到胜利果实的甜蜜,让他更坚定自己的方向,他继续研究各种各样的相关技术,逐渐向语音识别领域深耕。
语音识别引领未来智能生活
2009年,国内语音识别行业迎来发展的节点,深度学习成为语音识别开始大力创新的契机。深度学习的概念源于人工神经网络的研究。它模仿人脑的机制来解释数据,例如图像,声音和文本。“深度学习技术从2009年开始,国内外基本同步,技术上大家从同一起跑线开始,都是从无到有走出来的路。国内爆发出很多不错的原创性思路。特别最近几年,大家都觉得这是人工智能,特别火爆。”柯登峰说。
人工智能火了,而搭载人工智能语音识别的产品,也被科技巨头们视为是开启智能家居风口的钥匙。亚马逊、微软、谷歌、苹果、百度、暴风、小米等等国内外巨头都开始推出搭载智能语音识别产品,抢占智能家居入口。
看似遥不可及的语音识别技术正一步步通过产业化走进我们的生活。10年里,柯登峰的成绩亦斐然,比NUS所做系统识别率高15%的新加坡政府马来语音识别系统、国家民族汉考办使用的汉语自动识别系统和作文自动评分系统、全国音乐基础考试自动评分系统、江苏省中考英语口语自动评分系统……他与团队建立的语音识别系统无处不在,其技术使用人群已超过一亿人次。柯登峰认为语音识别行业拥有广阔的前景。
2017年,他和团队提出的DGC型的对抗生成网络,获得IEEE的最佳论文奖。他们设计的对抗生成网络,输入的是带噪录音,让生成器生成纯净语音,从而解决的噪声环境下识别率不好的问题。最近,他们还提出一种梯度反向学习技术,在语音识别时,网络能分辨不同的声母韵母,挤掉个人口音特征、性别特征、年龄特征等,这在以前是不可能的。
阿凡题等企业首席科学家、自动化学报深度学习专刊负责人、国际潮籍博士联合会北京区执行委员会、海淀高层次人才发展促进会特邀专家、方亚投资集团顾问……加载在柯登峰身上这些荣誉的背后是无数的实验,是漫漫科研道路上的稳扎稳打、上下求索。
传道授业探索无限可能性
柯登峰所在的中科院自动化研究拥有全国最优秀的语音识别团队。早在2005年,他刚到北京中科院读博士时,他们的团队就获得全国863语音识别比赛第一名。此后一直走在语音识别领域的前端。2008年,又获全球哼唱检索比赛第一名。在老师的带领下进入语音识别行业的柯登峰始终十分看重团队。他认为,对于学生来说最重要的是找到一个好的行业和好的平台,要有好的团队和导师带领,不然自己随意摸索要出成果特别慢,一个人是无法完成那么多东西。
除了自己的团队,柯登峰同时也是北京语言大学语言智能研究院和北京林业大学人工智能研究所的客座教授,致力于为语音识别这个迅速发展的行业培养更多优秀的人才。
教学中,他非常注重因材施教,他对学生要求很严,甚至苛刻。别人一门编程语言要学一个学期,他只给学生一个星期学习。但上他的课又很自由,可以随时上台观摩或发表观点。他想要培养的是具有强大学习能力、分析能力和解决问题能力的人才队伍。当对抗生成技术出来时,他引导学生去想是否可以把带噪语音生成为纯净语音,最后学生刘斌的论文获得IEEE最佳学生论文奖。
柯登峰眼中的科学,广阔、丰富、无限,决不囿于一方实验室,更不困于术业专攻。“语音识别是文科、理科、工科三大学科的综合,又是一个交叉领域,要求编程好、需要学习信号处理、概率学、语音学、心理和声学感知相关知识,要求你学习能力好并且有兴趣,才能从三大学科抽出有用的东西。” 他鼓励分享,如果看到好的最新技术,都会第一时间发到群里给大家看,“几十人每个人贡献出一个知识点,把大家都说懂了,相当于每人每天能学到别人用几十天的时间才能学到的东西。”
很多人都知道“一个人可以走得很快,一群人可以走得更远”这个道理,而在柯登峰的“麾下”,一群人不仅可以走得很远,也可以走得很快。
采访手记
愿意投入时间的人
隐马尔可夫模型、声道归一化、共振峰……采访中谈起语音识别,柯登峰滔滔不绝,专业名词艰涩难懂,不过,我却记住了他在说起教学时的一句话:“我们第一步要选人,需要选择对这个领域方向有感觉并且愿意投入时间的人。”我想,这是他们选人的首要标准,同样的,他自己也首先是这样的人。这句话的重点在“愿意投入时间”、“对这个领域方向有感觉”,这是科研人员的优秀品质,很多人只看到柯登峰的顺理成章、机缘巧合,却忽略了他“愿意投入时间”而铸就的过硬能力以及其中的坚定信念。
2016年,有人提出“技术商人”这一新颖概念。这是科研和产业高度结合的结果。它要求科研人员引领选择,具有坚实的基础知识和解决问题的能力,还需要不会枯竭的想象力,不会泯灭的好奇心和不会冷却的热情。“对这个领域方向有感觉”,才有想象力、好奇心以及作选择时的直觉;“愿意投入时间”,才有坚实的基础知识、解决问题的能力和不会冷却的热情,这不正好是柯登峰那句话的注解吗?
本栏撰文
本报记者 陈珊娜
新闻推荐
黄雁辉的作品集自从“夕阳红”栏目采访,我认识了很多有趣的老爷爷老奶奶,每一次加微信,我都多了一位“忘年交”。他...