Please use this identifier to cite or link to this item:
標題: 利用一Hadoop MapReduce鏈於建構機率尾置樹之研究
Building a Probabilistic Suffix Tree Using a Hadoop MapReduce Chain
作者: 陳映廷
Ying Ting Chen
關鍵字: Trajectory data mining
Cloud computing
Probabilistic Suffix Tree
摘要: 序列資料(Sequence Data)是指具有順序關係的資料紀錄,序列資料在日常生活中是無處不在的,例如:蛋白質序列、股市交易、網頁瀏覽紀錄、移動軌跡、基因序列等。序列型樣探勘(Sequence Pattern Mining)是序列資料分析的技術之一,其主要目的是從序列資料中挖掘出隱藏其中的特殊、重要且具代表性的特徵(feature),近來,此技術被廣泛的應用在生物資訊領域與時空軌跡資料的分析上,是資料探勘非常熱門的領域之一。 機率尾置樹(Probabilistic Suffix Tree, PST) 是一種Variable-Length Markov Chain (VMM)的實作,它被廣泛的應用在序列型樣探勘(Sequence Pattern Mining),一般認為,PST對序列資料的結構特徵或轉換行為,具有良好的擷取能力,非常適合用於預測和相似度比對。然而,隨著定位(Positioning)技術、感測(Sensing)技術的成熟,和無線(Wireless)技術演進,大量的序列資料被快速的累積,而傳統集中式的計算方法已經不堪負荷如此龐大資料(Big Data)的分析,因此,運算分散式運算雲端平台進行Big Data的計算是未來的趨勢。在本論文中,我們首先利用一個Na?ve方法來分析從Big Data建置機率尾置樹的困難點,為了解決Na?ve方法的缺陷,我們根據機率尾置樹的特性提出了一個新的CloudPST_OddEven MapReduce演算法,其包含一個MapReduce Chain,由四組MapReduce Tasks組成,分別負責型樣出現次數統計、尾置樹節點的組合、條件判斷等。 為了驗證CloudPST_OddEven演算法的效率,我們建置雲端Hadoop平台,並設計資料產生器產生合成的序列資料,並進行一系列的實驗;實驗結果顯示,CloudPST_OddEven演算法克服了Na?ve方法的瓶頸,展現不錯的效率。
文章公開時間: 10000-01-01
