语音识别是如何做到的?

语音识别技术很难吗? 是如何做到的? 精通多门升序语言,能否做出语音识别系统?

推荐  (0) | 2人关注关注
1个答案
0 0

作为兴趣了解过一点,抛砖引玉:

1. 切分音素:

单词之间的停顿较长,同一个单词内部也能看出音节间强弱的变化,但是有些的区分就不是很明显;其中还有连音的问题,猜测连音得作为一个整体来识别

2. 识别音素:

每个音素有自己的频谱特点(基频、谐波、变化)。不同人发音的音高、音色会有区别,但频线的相对分布和变化方式是基本一致的:

3. 使用统计语言模型计算出最可能的句子:

上面两步识别出来的结果很有可能是:第N个音,匹配音素A的概率是X%,匹配音素B的概率是Y%;……。如何求出整体匹配度最高(可能性最高)的句子,需要综合“某个音匹配某音素的可能性”、“某种音素在某某上下文中出现的可能性”等等……基本上是一个条件概率最优化的问题。一般来说,需要一个统计语料库,给出每个音素出现的频率、每个音素在特定上下文中出现的条件概率、某个单词在特定上下文中出现的条件概率……

------

以上第1、2步是听学语音学的朋友说的,实际采用的声学特征可能不止这些。第3步是凭印象转述《数学之美与浪潮之巅》,可能有不准的地方。

另外可以参考维基百科语音识别条目:

https://zh.wikipedia.org/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB

https://en.wikipedia.org/wiki/Speech_recognition


查看更多

添加回答

登录 后回答问题,你也可以用以下帐号直接登录

相关问答

关于我们 加入果壳 媒体报道 帮助中心 果壳活动 家长监控 免责声明 联系我们 移动版 移动应用

©果壳网    京ICP证100430号    京网文[2018] 6282-492号    新出发京零字第朝200003号     京公网安备11010502007133号

违法和不良信息举报邮箱:jubao@guokr.com    举报电话:18612934101    网上有害信息举报专区    儿童色情信息举报专区