Please use this identifier to cite or link to this item:
標題: 應用多種特徵的中文斷詞及詞性標記方法
Applying Multiple Features to Word Segmentation and Part of Speech Tagging for Chinese
作者: 江昶毅
Jiang, Chang-Yi
關鍵字: Chinese Word segmentation
part of speech tagging
出版社: 資訊科學與工程學系所
引用: [1]中央研究院現代漢語標記語料庫3.0版。 [2]中央研究院資訊所、語言所詞庫小組所編技術報告第 95-02/98-04號「中央研究院漢語料庫的內容與說明」。 [3]內政部,”台閩地區姓氏統計之排名與人數一覽表”,2005. [4]陳克建、陳正佳、林隆基,「中文語句分析的研究-斷詞與構詞」,中央研究院資訊所技術報告,TR86-004,1986年。 [5]朱怡霖,”中文斷詞與專有名詞辨識之研究”,國立台灣大學資訊工程學研究所碩士論文,2002年。 [6]葉政輝,”以語料為基礎的中文專有名詞分類之研究”,國立交通大學資訊科學研究所碩士論文,2002年。 [7]張家銘,”中文人名擷取”,國立中興大學資訊科學與工程研究所碩士學位論文,2007年。 [8]羅永聖,” 結合多類型字典與條件隨機域之中文斷詞與詞性標記系統研究 ”,國立台灣大學資訊工程研究所碩士論文,2008年。 [9]Chia-hung Tai, Shu-Ling Huang, Keh-Jiann Chen, "A Semantic Composition Method for Deriving Sense Representations of Determinative-Measure Compounds in E-HowNet," Proceedings of ROCLING, 2008. [10]David Graff and Ke Chen “Chinese Gigaword”, Linguistic Data Consortium (LDC) catalog number LDC2007T03 and isbn 1-58563-409-3. [11]Guhong Fu and K.K Luke.,”A two-stage statistical word segmentation system for Chinese”.Proceeding of The Second SIGHAN Workshop on Chinese Language Processing,2003 [12]Shih-Min Li,Su-Chu Lin,Chia-Hung Tai,and Keh-Jiann Chen.” A Probe into Ambiguities of Determinative-Measure Compounds”, International Journal of Computational Linguistics and Chinese Language Processing, volume 11, number 3,pages 245-280,August 2006. [13]Wu,Andi and Jiang,Zixin.(1998).Word segmentation in sentence analysis.In Proceeding of the 1998 International Conference on Chinese Information Processing.Beijing,China.(pp.169-180)
摘要: 中文斷詞及詞性標記在中文自然語言處理中是個相當基本且重要的前置工作。而且由於有許多中文相關研究都需要使用到斷詞的結果,因此斷詞效能往往就成了影響相關研究好壞的關鍵之一。 在本論文中,我們提出一個兩階段性的斷詞及詞性標記方法。在第一階段主要是找出一個最佳的斷詞方法,此階段我們使用一種混合詞的bigram機率以及少詞優先搭配詞的bigram斷詞之斷詞方法,在F分數可以達到96.29%。接著第二階段時再根據第一階段的最佳斷詞結果,嘗試使用詞性間的三元接續關係(trigram)、四元接續關係(4-gram)、n-POS去做詞性標記的實驗,發現使用詞性的四元接續關係即可得到一個不錯的詞性標記效果。
In Chinese natural language processing, word segmentation and POS tagging is a basic and important task. There are many Chinese processing tasks need the result of word segmentation, so word segmentation also becomes one of the key factors on related researches. In this thesis, we propose a two-stage method of word segmentation and POS tagging. In the first stage, we try to find the best method for word segmentation. In this stage we use a hybrid approach to segment the words, whose F-score can achieved 96.29%. In the second stage, we use the best result of word segmentation from the first stage. Then we try to tag POS with the methods of tri-gram model, 4-gram model, and n-POS model. From experimental results, we find that the best performace of POS tagging can be obtained with the 4-gram model.
其他識別: U0005-1108201014174700
Appears in Collections:資訊科學與工程學系所



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.