Please use this identifier to cite or link to this item: http://hdl.handle.net/11455/19775
標題: 利用混合式分群基因演算法解決台語文轉音系統中一詞多音的問題
Applying Hybrid Genetic Algorithm in Solving the Polysemy Problem in a Chinese to Taiwanese TTS System
作者: 張家銘
Chang, Chia-Ming
關鍵字: 台語文轉音系統
Feng-Long Huang
基因演算法
一詞多音
知網
Ruey-Ming Chao
出版社: 資訊科學與工程學系所
引用: [1] Chen, H., T. He, D. Ji and C. Quan, “An Unsupervised Approach to Chinese Word Sense Disambiguation Based on Hownet,” The Association for Computational Linguistics and Chinese Language Processing, Vol. 10, No. 4, pp. 473-482, 2005. [2] Chan Keith C.C.,Ma Patrick C.H., “ Discovering Clusters in Gene Expression Data using Evolutionary Approach ”, IEEE Proceedings of the 15th International Conference on Toolswith Artificial Intelligence (ICTAI’03) 2003. [3] Chan, Y. S. and H. T. Ng, “Domain Adaptation with Active Learning for Word Sense Disambiguation,” In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp. 49-56, 2007. [4] Sheng Weiguo, Liu Xiaohui, “ A Hybrid Algorithm for K-medoid Clustering of Large DataSets ” Evolutionary Computation, 2004. IEEE CEC2004. Congress on , Volume: 1,19-23 Pages:77 - 82 Vol.1. June 2004. [5] Yang, E., G. Zhang and Y. Zhang, “The Research of Word Sense Disambiguation Method Based on Co-occurrence Frequency of HowNet,” In Proceedings of 2nd Chinese Language Processing Workshop, pp. 60-72, Hong Kong, 2000. [6] 中文詞庫八萬目詞 http://www.aclclp.org.tw/use_ced_c.php [7] 中央研究院斷詞系統 http://ckipsvr.iis.sinica.edu.tw/ [8] 中央研究院平衡語料庫 http://db1x.sinica.edu.tw/cgi-bin/kiwi/mkiwi/mkiwi.sh [9] 方心伶,”中文斷詞與注音”,國立清華大學統計學研究所碩士論文,2008。 [10] 江昶毅,”應用多種特徵的中文斷詞及詞性標記方法”,國立中興大學資訊科學與工程學系碩士論文,2010。 [11] 李尚德,”台語辭典建構與台語變調探討”,國立中興大學資訊科學與工程學系碩士論文,2007。 [12] 李冠勳,”中文詞句分群技術之研究”,東吳大學商學院資訊管理學系碩士論文,2009。 [13] 吳元彰、張敏勤、楊鍵樵,”應用混合式基因演算法於分群問題”,2006數位科技與創新管理國際研討會,2006。 [14] 林立峰,”中文TTS系統語音合成之改進”,國立交通大學電信工程系所碩士論文,2004。 [15] 林金玉,”中文轉台語文轉音系統中一詞多音之預測”,國立中興大學資訊科學與工程學系碩士論文,2008。 [16] 吳昆璟,”以信心量度改善中文斷詞之初探”,國立清華大學統計學研究所碩士論文,2008。 [17] 吳佩穎,”以語料庫為基礎之中文文句翻語音系統中合成單元之選取”,國立交通大學電信工程系所碩士論文,2005。 [18] 林義証、余明興、林金玉、廖盈智,”利用組合式策略來解決 台語文轉音系統中一詞多音問題”,2008。 [19] 洪俊詠,”馬可夫語言模型應用di台語變調gah注音”,國立清華大學統計學研究所碩士論文,2005。 [20] 唐若華,”基於詞性之斷詞方法以改善華語語音合成系統”,國立清華大學資訊系統與應用研究所碩士論文,2010。 [21] 張唐瑜,”以大量詞彙作為合成單位的中文文轉音系統”,國立中興大學資訊科學與工程學系碩士論文,2005 。 [22] 許書豪,”台語連音變調問題研究”,國立中興大學資訊科學與工程學系碩士論文,2010。 [23] 張嘉惠,”基於特製隱藏式馬可夫模型之中文斷詞研究”,國立中央大學資訊工程研究所碩士論文,2005。 [24] 黃競億,”台語TTS變調規則與斷詞器之製作”,國立交通大學電信工程學系碩士論文,2001。 [25] 傅明榮,”中文字轉音系統之文句分析的進一步研究”,國立交通大學電信工程系所碩士論文,2007。 [26] 楊允言,”台語文處理技術:以變調及詞性標記為例”,國立台灣大學資訊工程研究所博士論文,2009。 [27] 董振東、董強,知網(HowNet),http://www.keenage.com/ [28] 微軟亞洲研究院木蘭語音合成系統 (MSRA Text to Speech) https://research.microsoft.com/en-us/groups/speech/tts.aspx [29] 廖振淵,”利用粗糙集理論解決中文轉台語文轉音系統中一詞多音問題”,國立中興大學資訊科學與工程學系碩士論文,2010。 [30] 廣義知網知識本體架構(Extended-HowNet Ontology) http://ckip.iis.sinica.edu.tw/taxonomy/ [31] 蔡祈岩,”文句翻語音系統中破音字及音韻處理之研究”,國立成功大學資訊及電子工程所碩士論文,1995。 [32] 鍾祥睿,”台語TTS系統之改進”,國立交通大學電信工程系所碩士論文,2002。
摘要: 本論文採用混合式分群基因演算法解決台語文轉音系統中的一詞多音問題,台語中的一詞多音指的是一個詞在不同的場合會有不同的發音,如果不做適當處理,會造成合成之台語語音發音的錯誤,導致合成語音之瞭解度下降。一個台語的文轉音系統首先要能正確決定多音詞的發音,以得到瞭解度高的台語合成語音。在解決一詞多音問題上,文獻中曾提出利用語言模型以及利用組合式策略來預測台語的一詞多音,得到很好的預測結果。然而台語的一詞多音問題遠比中文的多音字來的複雜,這些方法在訓練階段都需要大量的人工標示語料,相當耗費時間以及人力,也有標記錯誤的風險,在實務應用上緩不濟急。為解決此問題,本文利用分群的概念,結合廣義知網和基因演算法全域搜尋的優點,只須標記少許的語料,就可以解決台語的一詞多音問題,本文針對『你』、『我』、『他』、『上』、『下』、『不』等詞進行實驗,分別得到93.89%、95.28%、96.25%、87.04%、86.56%、62.50%等的預測正確率,實驗結果也顯示本文提出的方法減少98%以上之人工的標音工作。
A novel method is proposed for solving the polysemy problem in Taiwanese Text to Speech (TTS) System based on unsupervised learning. In Taiwanese, one word possibly has several pronunciations. It leads to that Taiwanese TTS System can''t work well if wrong pronunciation is synthesized. Thus, we need to decide which pronunciation is proper under some condition in order to enhance the performance of a Taiwanese TTS System. In our previous work, we use supervised learning to predict Chinese pronunciation. Experimental results show that the approaches work well. However, the polysemy problem in Taiwanese is more complex than that in Chinese . It is very time comusing in labeling the proper pronunciation for each experiment data. Such that it is not practical in implementing a Taiwanese TTS system. In order to improve the drawback mentioned above, we propose a method of combining E-HowNet and the Hybrid Genetic algorithm to solve the polysemy problem in a Taiwanese TTS system. There are six words applied in proposed approach in this paper. They are『你』(you),『我』(I),『他』(he),『上』(up),『下』(down),『不』(no). The accuracies are 93.90%, 95.28%, 96.25%, 87.05%, 86.56%, and 62.51%, respectively. The experimental results show that the proposed approach can reduce at least 98% of the work in labeling the corpus.
URI: http://hdl.handle.net/11455/19775
Appears in Collections:資訊科學與工程學系所

文件中的檔案:

取得全文請前往華藝線上圖書館



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.