关闭世界因你不同页面的设置

设置

背景颜色
字体大小
返回世界因你不同的页面

世界因你不同

语音识别

语音识别

“什么是做博士的目的?”在我选定研究方向,正准备挽起袖管大干一番的时候,我们的院长尼科·海博曼问了我这个问题。我想都没想,脱口而出,“就是在某一个领域做出重要的成果。”“不对。”尼科·海博曼教授不假思索地否定了我。他告诉我,“读博士,就是挑选一个狭窄并重要的领域作研究,毕业的时候交出一篇世界一流的毕业论文,成为这个领域里世界首屈一指的专家。任何人提到这个领域的时候,都会想起你的名字。”

海博曼教授的“做世界某一个领域的一流”的观点,让我十分震惊,我从未奢望在20多岁时走到某个领域的顶峰,但是这种“要做就要做到最好”的激励,我始终铭记在内心深处。

看到了我的兴奋,海博曼教授问我:“你懂了吗?”我说:“懂了,我从卡内基·梅隆大学将带走的就是这份改变世界的、顶尖的博士论文。”他又说:“不对,你从学校带走最有价值的不是这份论文,而是你分析和独立思考的能力、研究和发现真理的经验,还有科学家的胸怀。当你某一天不再研究这个领域的时候,你依然能在任何一个新的领域做到最好。”这番话引起了我深深的思索,也再一次印证了“沉淀下来的才是教育”这句话的意义。学习成绩只是一种表象的结果,而学习能力才是伴随一生的能力。

1983年10月,我走进语音识别的世界。开始和瑞迪教授一起探讨语音识别领域里现有的成果以及如何突破的可能性,瑞迪说,“你来做一个不特定语者的语音识别系统吧。”当时这在世界上是一个无解之谜。

所谓不特定语者的语音识别就是说让电脑能够听懂每一个人说出的话,并且识别出来,最后希望达到的最理想状态就是让机器对人的语言有所反应,最终达到“人机对话”的理想程度。在我当时所处的年代,人们所做的语音识别系统研究,还只能识别一个人的声音,也就是“特定语者”的研究。因此,瑞迪教授对我的期望就是让我把这个研究成果扩展出来,形成突破,让机器对更多的人的语言识别率提高。

瑞迪告诉我,“我觉得专家系统是解决不特定语者问题最好的方法,这也是最火的新技术。希望你试试。去吧,小伙子,尽情做你的研究,我这里有科学基金的研究经费,因此你不用担心钱的问题。”在巨大的期望下,瑞迪把课题的接力棒交给了我。

经过数月的钻研,我把整个研究过程写了篇论文发表出来,得到了正面的回馈。第一次,人们知道,在有限的领域和单一的语者身上,专家系统研究出来的机器语音识别率可以达到95%。这意味着,人和机器可以进行简单的对话了。那段时间,瑞迪开心得不得了,并且更加坚信“专家系统”的方法是个正确的选择。

尽管面对一片好评,我却显得非常沉默。其实,这个时候我内心的担忧早已开始慢慢滋长了。因为,在研究的过程中,我已经发现专家系统的前景非常不明朗,因为机器经过很长时间的训练,只能听懂特定20个训练者的语音。而人与人说话的音节和语调千变万化,只要换了另外100人的声音重新检验原来的研究成果,其识别率立即下降到不能想象的地步,只有30%左右。而且,我们仅仅用了26个词作为词汇,一旦增加词汇,整个系统就将崩溃。

1984年暑假即将来临,我正沉浸在自己课题的十字路口上,不知道何去何从。这个时候我遇到了我的一个师兄彼得·布朗(Peter Brown),他看到我愁眉不展,就把我叫到一间教室里,在黑板上写了几个统计学公式。彼得·布朗对我说,“开复,我知道你在做语音识别,并且为之苦恼,但是你为什么不尝试一下统计学的方法呢,从统计中抽取数据我想应该能够提高语音识别率,你觉得呢?”

所谓统计学的方法,就是从庞大的数据库中进行归类,通过特征的归纳使得数据通过“分类器”,得到结果的一种方法。对于是否能用大量数据库对声音进行统计,我心中充满了好奇与问号。而用统计学方法来研究语音识别的想法,开始在心中慢慢地滋生。