维吾尔语基于音素的波形拼接语音合成技术

2022-09-10

1 维吾尔语字母语法特征及其合成技术

1.1 维吾尔语字母语法特征

维吾尔语是由32个字母相互拼接而成的 (即维吾尔语共有32个字母) , 其中8个元音字母24个辅音字母。

(1) 发音时带颤动, 气流通过口腔时不受阻碍而由发音器官调节发出的音叫做元音。 (2) 发音时气流通过口腔且受到阻碍发出的音叫做辅音。其中元音字母发音比较长, 辅音字母发音比较短。由此而组成的单词, 词组, 句子成分以及完整的句子都比较稳定。字母拼接成词时按原来的字母读音拼接读就可以了。 (3) 可以避免在实现此系统时由文字和其读音不同而带来的麻烦。 (4) 与汉语不同的, 声调在维吾尔语使用的频率很少, 抑或其用途不多。

通过观察维吾尔语语音的音联现象, 音素在时间上连接紧密, 在特性上相互影响。而在相邻音词汇上影响逐级减弱。音素虽然是发出各种不同音的最小单位, 且用它作合成单元, 具有存储容量小的优点, 但是选择它作为合成单元, 语音中复杂多变的细微韵律特征难以总结和表现, 会导致自然度不理想。维吾尔语语音中音节听辨特征明显, 而且音节数量确定。选择音节作为合成基元, 能保证语音库的容量不会过大, 且可以合成无限制维吾尔语文本。所以音节比音素更适合作为维吾尔语的合成基元。但是此次设计主要目的是在语料库的体积不太膨胀的情况下采用并不复杂的算法, 较短的开发周期内达到较好的效果。所以在以音素为基础的语料库为主库, 在附加用来提高合成效果的语料库。

1.2 合成技术的应用

维吾尔族是我国56个民族之一, 开发本项目对我国信息化程度的提高有所贡献, 同样实现了这个项目有助于对以后的相关项目或人工智能等项目的进行。对实现人机对话打下基础。在开发的过程当中提取并收集一定的开发经验, 便于以后版本质量的提高。

双语与双语教育是当今多民族、多语言国家和地区普遍关注的社会问题。新疆维吾尔自治区地处祖国西北边陲, 面积166万平方公里, 占全国总面积的六分之一, 是我国最大的省级行政区, 是一个多民族、多语种地区。全区现有40多个民族, 其中世居的有维吾尔、汉、哈萨克等13个民族。根据2004年的统计全区人口有1963.11万人, 其中少数民族人口1182.86万人, 占全区人口的60.5%。根据《中华人民共和国宪法》和《民族区域自治法》中的有关规定:政府通用自治民族文字和汉文行文, 维吾尔、汉、哈萨克、蒙古、柯尔克孜语文, 为自治区人代会的正式工作语言。

语音合成技术在快速信息化的今天带有实际应用价值: (1) 在我们不方便看文本信息的时候可以利用语音合成系统收到电子邮件和新闻内容。 (2) 语音合成系统可以帮助有视觉障碍的人使用计算机。 (3) 语音合成系统可以使人真正的人机对话式用户界面成为可能。 (4) 语音合成系统母语不是维语的民族学语言的工具。 (5) 语音合成系统通信系统中朗读手机短信等通信专业。 (6) 语音合成系统数字电视、数字电影等靠卫星网络系统的专业。 (7) 语音合成系统可以使人真正的人机对话式用户界面成为可能。

当前语音合成的研究已经进入了文字—语音转换 (TTS) 阶段, 其功能模块可分为文本分析、韵律建模和语音合成三大模块。其中, 语音合成是TTS系统中最基本, 最重要的模块。总的来说, 语音合成的主要功能是:根据韵律建模的结构, 从原始语音库中取出相应的语音基元, 利用特定语音合成技术对语音基元进行韵律特性的调整和修改, 最终合成出符合要求的语音。

目前常用的语音合成技术主要有:共振峰合成, LPC合成, PSOLA拼接合成和LMA声道模型技术他们各有各的优缺点, 人们在应用过程中往往将多种技术有机的结合在一起, 或将一种技术的优点运用到另一种技术上, 以克服另一种技术的不足。

1.3 声音库建立的思想来源

维吾尔语是一个复杂的声调系统, 在维吾尔语中一个音节里至少有一个元音和若干个辅音。如果用这种音节来建立声音库, 则声音库体积庞大, 算法复杂。因此, 以音素为基础建立维吾尔声音库, 用此方法建立声音库能大大减少声音库的体积。

2 维吾尔语声音库建立的方法

我们的研究方向是:基于音素的波形拼接语音合成技术。因此, 我们以音素为单位建立声音库来实现波形拼接语音合成技术。第一种方法, 以元音字母为主的8个元音字母声音库。第二种方法, 以辅音字母为主的24个辅音字母声音库。第三种方法是:以双音素 (元音字母和辅音字母开头) 为主要单位的声音库。除此之外, 第三种方法以融合前面两种方法的声音库, 来实现语音合成技术。以音节为主建立声音库时, 声音库的容量过大, 能够读出来的词汇量受到限制。但其优点在于:它的自然度较高。以音素为主建立声音库时, 声音库容量少, 词汇量不受限制。但其缺点在于它的自然度较低。

文本所讨论的是维吾尔标准语。现行维吾尔文字是阿拉伯文字为基础的拼接文字, 在维吾尔语中虽然字母只有32个, 但是在每个辅音字母后面都会相应的加上元音字母“”。这是因为这些字母出现在词的首, 中, 后的位置时形体有所不同。大多数又单立式, 后连式, 双链式和前连式4种形式组成。32个字母共有126个书写体。录音时按字母四种不同形式的连接, 录制每个字母的四种波形文件, 但是这种方法中又遇到了出乎预料的问题, 即按四种字母形式的unicode码来一个一个连接字母让计算机朗读, 抓的不是他的扩展区码, 而是它的基本区码, 所以这种方法也失败了。最后我们找了一个很好的办法来解决这个问题, 我们把每一个辅音字母后接八个元音字母的形式来录制成声音文件。这种方法中, 无论是字母的哪种形式都可以取它的基本区码, 按这个基本区码来判断一个辅音字母后接的是哪一个元音字母, 判断后读取已备的声音文件。

3 结语

基于音素的波形拼接语音合成时元音字母和辅音字母的波形长度不一致而且误差大的情况导致了拼接出来的合成效果不良问题。也就是元音字母发音时间长于辅音字母发音时间。有些元音字母发音覆盖了辅音字母发音。对此情况我们采用了附加语料库, 即:每个辅音字母后加8个原因字母的预料库方式。这样提高了一定的合成效果。

摘要:让计算机朗读文章是多媒体技术应用的重要组成部分。在国内外实现高自然度和可懂度的语音合成系统是每一个做语音合成系统的人来说是一理想的目标。维吾尔语文本—基于音素的波形拼接语音合成技术的任务是把维吾尔语文本逐句转化为维吾尔语语音输出, 其用处非常广泛。目前比较好的维吾尔语语音合成技术采用以音节为合成单元的合成技术。

关键词:语音库,语句结构分析,语音编辑与合成

参考文献

[1] 麦麦提艾力.吐尔逊, 吾守尔.斯拉木.维吾尔语拼接式语音合成方法研究[J].电脑知识与技术, 2006, 32:194.

[2] 马欢, 吾守尔.斯拉木.维吾尔语文语转换系统文本分析模块初探[J].计算机工程, 2006, 32:16.

[3] 张雄伟, 陈亮, 杨吉武.现代语音处理技术及应用[M].北京:机械工业出版社, 2003.

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:政府会计制度下权责发生制与收付实现制的冲突与协调下一篇:浅谈职业院校美育教师应具备的职业素质