· 语音技术,一般指语音合成技术和语音识别技术。
· 语音合成即Text to Speech(TTS),就是让设备将文本信息转换成语音的形式朗读出来,就像给设备安装上了嘴巴。
· 语音识别即Automatic Speech Recognition(ASR),就是让设备听懂人的语言。就像给设备安装了耳朵。
· 总之,语音技术就是让设备“能听会说”,使其更加智能化、人性化。
|
在讯飞语音电子书产品中,使用的是语音合成技术。 语音合成,又称文语转换(Text to Speech)技术,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。语音合成与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。
文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。下图显示了一个完整的文语转换系统示意图。文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理,例如分词、多音字处理、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能将第一步得到的音韵序列实时合成出高质量的语音流。因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用语音数字信号处理技术,而且必须有大量的语言学知识的支持。 |
| 科大讯飞在语音技术方面积累已有20年之久,其语音合成技术已经经历了几代的发展,目前正处于第三代技术阶段。 |
|
|
|