1003
需用时 02:00
缺乏技术支持,多门欧洲语言或将“数字灭绝”

由分布在 34 个国家的 60 个研究中心组成的欧洲卓越科研网(META-NET)近日发表报告称,30 门欧洲语言中有 21 门 “不存在” 数字技术支持或者仅有 “差的” 数字技术支持。

报告发布的当天 9 月 26 日正好是欧洲语言日(European Day of Languages),设立这一纪念日是为了让人们认识到保护和发展欧洲大陆丰富的语言和文化遗产的重要性。

有 200 多位专家参与了这项研究,调查结果形成了一份长达 30 卷的《META-NET 白皮书系列报告》(META-NET White Paper Series)。调查人员对每一种语言都从 4 个不同的领域进行了语言技术支持评估,分别是:自动翻译、语音交互、文本分析和语言资源的可用性。

冰岛语(Icelandic)、拉脱维亚语(Latvian)、立陶宛语(Lithuanian)和马耳他语(Maltese)等语言在所有 4 个领域中得分最低。

研究人员称,30 门欧洲语言中有 21 门可能会在数字世界中灭绝。报告指出,只有少数人说的语言将面临灭绝的危险,因为它们不具备技术支持。除了风险最高的如冰岛语、拉脱维亚语、立陶宛语和马耳他语等语言外,其他一些,如保加利亚语(Bulgarian)、希腊语(Greek)、匈牙利语(Hungarian)和波兰语(Polish),也存在灭绝的风险。

曼彻斯特大学的研究人员在白皮书中指出,尽管英语的语言技术支持是所有欧洲语言中最好的,但仍然不能认为它拥有了 “极好的支持”,最多只是 “好的支持”。

荷兰语、法语、德语、意大利语和西班牙语被认为具有 “适度的支持”。巴斯克语(Basque)、保加利亚语、加泰罗尼亚语(Catalan)、希腊语、匈牙利语和波兰语都表现出了 “零碎的支持”,这也将它们置于高风险的语言群体中。

语言技术软件被用来处理口头或书面的人类语言。著名的例子包括拼写和语法检查插件,智能手机上交互式的个人助理(如iPhone上的Siri),电话、自动翻译系统和网络搜索引擎的对话框系统。

缺乏可以处理上述高风险语言的软件,意味着如果不采取激烈的行动,这些语言将无法在今天的数字世界中存活下来。

搭建语言技术系统主要依赖于统计方法,需要海量的书面或口头数据——对于只有相对很少使用者的语言来说,这样的数据就很难获得。此外,使用统计数据构建的语言技术系统在性能上存在固有的局限性,一个很明显的例子便是在线机器翻译系统常常给出令人啼笑皆非的不正确的翻译。

报告得出结论指出,欧洲各国需要开展大范围的协同合作以创建这些缺失的技术,并将技术转移到面临数字灭绝的语言之中。

NaCTeM 的主任 Sophia Ananiadou 教授说: “在英国,我们大多数人在使用嵌入了语言技术的软件时,根本没有意识到它的存在。”

“语言技术使我们的生活变得更方便,而且有巨大的潜力用很多不同的方式来帮助我们。随着数字信息和通信越来越有优势,更广泛的语言都能获得复杂的语言技术支持是至关重要的,否则与我们的欧洲邻居合作将变得更加困难。”

META-NET 的协调员 Hans Uszkoreit 教授说: “我们的研究结果非常令人担忧。大部分欧洲语言都严重资源不足,而有些几乎完全被忽略。从这个意义上说,很多我们的语言都还不能说是经得起未来考验的。”


编译自:Most European languages in danger of digital extinction
文章图片:英国曼彻斯特大学
The End

发布于2012-10-15, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

大豆包难吃

果壳译者

pic