高德导航里,林志玲的语音是怎么录制的?录的时候要念多少词和句子?

推荐  (4) | 32人关注关注
14个答案
121 1

加菲众音乐及科技节目主持人、动静科技创始人

2014-04-27 15:46

在App页面有林志玲的语音包下载,注明了大小是19M。

查看了一下,“林志玲语音”是以.irf封装的文件,大小19.7MB。
而普通话(男)只有4.6MB。

通过播放音质判断,其输出端采样率最多不超过64kbps。

因此,音频总长估算最小值19mb/64kb=300秒,5分钟。
而普通话版只有71秒。

相应地,当采样率变为32、16(8kbps相当于电话的音质)的时候,音频总长估算最小值成倍上升为10分钟,20分钟。

通过视频:

点击访问视频

看的出,只有几页纸,包含一些导航以外的语音信息,如节日出行提醒等。
这应当就是比默认语音数据量大的原因。

因此推测:
志玲的语音分为两部分:导航语音部分应该采用通用的、很完善波型合成技术,将元音、辅音及音调等采样,通过算法实现文语转换;
这一部分要录入的内容很少,很可能是含有个人语音特征的一些基础发音。

而比较人性化的特殊提醒,时间总长在5分钟到20分钟左右,依照一般语速计,录制内容最多不会超过5000字,视频中录音稿只有几页纸,可以佐证这一点。

P.S.,十三,志玲姐姐很难追哦。

17 0

我在另一个天气软件上,好像就是天气通,上面有个自己录语音包的内容。

有风霜雪雾霾,大雨大雪啥的选项,还有从一到十

没写完提交了。。。。

一共录了50来项,然后还可以封装的。每天早上就可以听自己的声音报天气预报了。

其实耻度略高。。。

9 0

林志玲的声音是我们采用目前业界最先进语音合成技术“造”出来的。
在导航应用中,对如”向左转弯”、”前方摄像头”等固定的语句可以采用原声,而对于地名、距离、速度等文字就不可能让志玲姐姐逐一录制了。
讯飞采用了Trainable TTS的技术,虽然也属于波形拼接技术的一种,但只需要录制不多的的语音,再通过技术手段制作成轻量级的音库,就可以达到媲美大规模音库的自然、流畅的声音效果。

除了志玲,很多耳熟能详的声音,比如新闻联播主持人啦,都能够合成。除了普通话,粤语啦四川话啦湖南话啦陕西话啦蜡笔小新腔啦等等(好吧不否认最后一项是研究猿恶趣味的结晶)也都可以合成,可以戳右边在线体验哦 http://open.voicecloud.cn/index.php/default/online_demo
http://open.voicecloud.cn/index.php/default/online_demo


Ps.@姬十三 提出这样的问题看来是对我们合成的志玲很满意?^ ^

7 1

傅里叶变黄油猫软件工程师,应用数学专业

2014-04-28 12:29

对于地名等有无数种变化的语音,使用TTS(Text to Speech 文本转语音)技术,应用很广泛,例如拨打10086使用自助语音应答,查询话费时,系统就会用TTS把余额报给你。Siri说话也是TTS。


汉语TTS实现比较简单,因为汉语拼音的读音非常有限,21个声母、37韵母、5个声调组合成不超过3000个读音,全部录一次,播语音时把每个字的读音串起来就可以了。

不过光是简单的字音组合会让TTS效果听起来很生硬,例如Google翻译的 ->试听

为了让TTS效果更自然,需要用算法控制语速、处理多音字的问题,这是TTS技术含量最高的地方。目前汉语的TTS技术已经很成熟,听起来很自然,多音字准确率也相当高。

2 0

黄恪安卓应用开发

2014-04-28 23:29
支持者: 木木常 姬十三

天气通跟高德不同。天气通的做法是录制语音片段,高德用的是合作方的技术,做法是数字化声音特征之后进行语音合成。所以高德的语音方案要比天气通语音包小而且灵活,但是制作成本也高得多。高德当时是找专人,跟了志玲姐姐几个月,贴身录音,然后把原始声音文件处理提取出数字特征。天气通的名人语音基本上是名人几分钟录出来的。墨迹天气跟高德,基本原理一样,但是没有高德那么土豪,所以没有名人语音。

1 0
支持者: 谷永浩小可爱

在美剧都市侠盗里面有一集,他们需要骗一个人去他们指定的地点。就黑掉他的GPS,把所有的导航语音重新录一遍,片中一共录了一晚上,好几个小时。

0 0

非处方药生物学学士,科学传播硕士生

2014-05-01 23:07

高德地图的林志玲声音是高德找@科大讯飞 订制的,既然科大讯飞已经回答了……本来还想@胡狸 ,她就是科大讯飞的语音合成工程师,简单地说就是获得音素就行了,然后合成。

0 0

林 志 玲 版 听 起 来 还 是 不 错 的 ,挺 顺 耳 ,比 郭 德 纲 版 好。

貌 似 合 成 的 时 候 ,比 默 认 的 语 音 来 得 丰 富。

默 认 语 音 每 次 路 口 提 醒 , 都 是 生 涩 的 w u ( 第 三 声 长 音 ) , 停 顿 , 白 ( 第 二 声 , 真 的 听 起 来 就 是 白 ) 米 。 每 次 都 笑 得 不 行 。

林 志 玲 就 没 这 个 问 题 , “ 五 百 米 ” 听 起 来 就 很 连 贯 。

1 2
支持者: 谷永浩小可爱

这个 诺基亚手机导航很早就有了吧 可以用自己声音路

0 2

@Weier玮儿 我就说嘛,那么多字怎么可能都念一遍。

查看更多

添加回答

登录 后回答问题,你也可以用以下帐号直接登录

相关问答

关于我们 加入果壳 媒体报道 帮助中心 果壳活动 家长监控 免责声明 联系我们 移动版 移动应用

©果壳网    京ICP证100430号    京网文[2018] 6282-492号    新出发京零字东150005号     京公网安备11010502007133号

违法和不良信息举报邮箱:jubao@guokr.com    举报电话:18612934101    网上有害信息举报专区    儿童色情信息举报专区