Please use this identifier to cite or link to this item: http://hdl.handle.net/11455/98229
標題: 結合地理資訊系統與機器學習於政府開放資料的應用與挑戰
Applications and Challenges of Combining Geographic Information Systems and Machine Learning in Government Open Data
作者: 陳宏洋 
Hung-Yang Chen 
關鍵字: 開放資料;機器學習;資料鏈結;地理資訊系統;opendata;Machine learning;Linked data;Geographic information system
引用: [1] Open Knowledge. (2015). What is open? Retrieved from https://okfn.org/opendata/. [2] Open Data Handbook. (2014). What is open data? Retrieved from http://opendatahandbook.org/en/what-is-open-data/#what-is-open. [3] 蕭景燈(2012)。資料開放發展現況與展望。研考雙月刊,36(4),22-38。 [4] 政府開放資料平台(2015)。首頁/關於平台/關於我們。 國家發展委員會。. [5] 資料經濟生態系推動計畫(2017)。地方政府開放資料常見問題-資料面。經濟部工業局 https://opendata.tca.org.tw/index.php/article/readfull/4/3. [6] 行政院研究發展考核委員會(2012a)。《資訊分享與共榮—政府機關資料公開與加值應用》。台北:行政院研究發展考核委員會。(Research, Development and Evaluation Commission.) [7] United Nations (2012). Global E-Government Survey: E-Government for the People. NY: United Nations. [8] 中華民國102年2月23日院授研訊字第1022460185號函頒「行政院及所屬各級機關政府資料開放作業原則」。 [9] 吳泰廷、楊文新、崔文:語意網、鏈結資料與開放資料之實務技術與應用。電腦與通訊 2012;(145):102-9。 [10] 錢鉦津:政府資訊開放的資料品質與測試概念(上篇)。品質月刊 2013;49:22-7。 [11] 錢鉦津:政府資訊開放的資料品質與測試概念(下篇)。品質月刊 2013;49:15-20。 [12] W3C Government Linked Data Working Group. 5 star linked open data in linked data glossary, 2013. Availableat: http://www.w3.org/TR/ld-glossary/#x5-starlinked-open-data. Accessed November 28, 2015. [13] 宋餘俠、李國田(2012)。政府部門資料加值推動策略與挑戰。研考雙月刊,36(4),10-21。. [14] Zuiderwijk, A., Jeffery, K., & Janssen, M. (2012). The potential of metadata for linked open data and its value for users and publishers. JeDEM - eJournal of eDemocracy and Open Government, 4(2), 222-244. [15] International Federation of Library Associations and Institutions. (2005). Digital libraries:Metadata resource. Retrieved from http://www.ifla.org/node/9337. [16] Caplan, P. (2003). Metadata fundamentals for all librarians. Chicago, IL: American Library Association. [17] Gilliland-Swetland, A. (2004). Meatadata-where are wo going. In G. E. Gorman & D. G.Dorner (Eds.), International yearbook of library and information management 2003-2004,Metadata applications and management (pp. 17-33). Lanham, MD: Scarecrow Press. [18] 文字檔案(2014)。維基百科 https://zh.wikipedia.org/wiki/文字檔案. [19] XML (1995)。維基百科 https://zh.wikipedia.org/wiki/XML. [20] 逗號分隔值 (1977)。維基百科 https://zh.wikipedia.org/wiki/逗號分隔值. [21] JSON (1999)。維基百科 https://zh.wikipedia.org/wiki/JSON. [22] 資源描述框架 (2004)。維基百科 https://zh.wikipedia.org/wiki/資源描述框架. [23] KML (2008)。維基百科 https://zh.wikipedia.org/wiki/KML. [24] Shapefile (1998)。維基百科 https://zh.wikipedia.org/wiki/Shapefile. [25] Web服務(2004)。維基百科 https://zh.wikipedia.org/wiki/Web服務. [26] UTF-8 (1992)。維基百科 https://zh.wikipedia.org/wiki/UTF-8. [27] 大五碼 (1983)。維基百科 https://zh.wikipedia.org/wiki/大五碼. [28] 經緯度 。維基百科 https://zh.wikipedia.org/wiki/經緯度. [29] 戶役政資訊系統資料代碼(2017)。維基百科 維基百科 https://zh.wikipedia.org/wiki/戶役政資訊系統資料代碼. [30] 大地座標與二度分帶 (1999)。網站地圖- 上河文化 http://www.sunriver.com.tw/grid_tm2.htm. [31] Azure Machine Learning【電腦軟體】。Microsoft。. [32] Machine Learning Regression【電腦軟體】。Microsoft. [33] 張恩輔、林志偉(2015) 開放㈾料Open Data應用於列車表定行車時間之估計,中興工程.第128期.2015年7月,PP.39-47. [34] ] 韓佩軒、李昇暾、許明暉、呂宗學(2016) 台灣政府衛生福利開放資料現況及利用率分析,台灣衛誌 2016;35(4):395-405. [35] 鏈結資料 (Linked data)、開放資料(Open Data)和鍵結開放資料(2013)。http://geocyber.org/blog/?p=447. [36] 資料集詮釋資料標準規範(2017)。政府資料開放平台 http://file.data.gov.tw/opendatafile/資料集詮釋資料標準規範.pdf. [37] Herman WU(2015)。YouBike車況即時預測分析 https://dotblogs.com.tw/benson2016/2016/02/15/134208. [38] 鄒惠貞、葉信伶、江威誼、江博煌(2015) 登革熱疫情的空間趨勢分析。醫療資訊雜誌 24:4 2015.12[民104.12] 頁39-48. [39] 辛希;林永青;謝銘智;蕭釧瑛。網路服務在交通運輸之基礎應用。中興工程.第135期.2017年4月.PP. 13-20. [40] 劉仲鑫、林昀葆(2017) 使用雲端機器學習預測運動時專注力與放鬆度影響之研究,電子商務研究,2017 年秋季(第 15 卷,第3 期,頁427-451). [41] 教育部體育署(2015)。運動城市調查各縣市規律運動現況。未出版之統計數據。取自:https://data.gov.tw/dataset/24375. [42] 陳志華、楊子緯、張訓楨、賴永崧(2016) 特徵分析和機器學習方法應用於肝臟疾病檢測。 福祉科技與服務管理學刊 4(3), 2016. [43] 莊友欣(2012)。開放(政府)資料與非營利組織。研考雙月刊,36(4),39-49. [44] 游豐吉、曾炳榮(2017)。觀光開放資料統計地圖系統建置 華藝線上圖書館 DOI: 10.6628/GIS.2017.11(2).2.
摘要: 
我國於2012年正式啟動政府資料開放政策以來,經過各公家機關與民間的共同努力,政府資料開放平臺上已開放超過三萬餘筆的資料集,其中資料集中含有地理資訊的資料集多不勝數,本論文將以具備地理資訊資料集當作探討主題。
依據全球資訊網(W3C)發明者和鏈結資料的創始者,提姆.柏納-李 (Tim Berners-Lee)對於開放資料五顆星的分類架構,目前我國政府開放資料,致力邁向符合第5顆星的開放資料等級,面臨到的挑戰就是須把每個資料行鏈結到其他資料集以提供資料之間鏈結關係。
對於資料應用者而言,將政府開放資料做異質性資料整合有幾項挑戰,(1)資料集地理資訊的座標系統格式眾多 (2)異質性檔案格式(3)編碼格式不一致,因此要先解決以上問題,才可進行資料的整合應用。
目前政府開放資料大都是以提供即時資料為主,從政府開放資料引導至大數據資料,就需把異質性的資料相互連結一起,並挑選合適的關聯條件,當數據集收集到一定程度時,可透過機器學習服務來分析特徵因子之間的機率密度,從中找到較佳的特徵點,讓機器學習軟體在學習、訓練模型時,可有更多樣特徵排列組合、不只可讓分類模型更加和預測模型可具備更多的參考的特徵因子,才能發揮資料分析的最大價值。

因此,本論文提出一個應用程式服務,針對政府開放資料具備地理資訊的資料集,能有效分析不同的座標格式、空間格式,並透過統一地理資訊代碼格式將空間屬性統一儲存,並可依照已處理過的資料集中選擇特徵因子,產生部分特徵資料集,為避免資料重複問題,保證特徵資料的乾淨,產製資料符合第一正規化,在藉由資料分化演算法,將資料集分裂成多種不同維度的資料集,在異質資料鏈結演算法中,便可挑選多種相關、不同維度的資料集以統一的地理資訊代碼融合在一起,此系統可提供處理政府開放資料的資料清整、資料分化、以及提供異質性特徵集融合的演算法,產製出來的資料可供給機器學習軟體分析使用,以提供更佳的訓練模型以及更多樣性的預測分析使用。

Since Taiwan officially launched the government information open policy in 2012, through the joint efforts of public agencies and the private sector, more than 30,000 data sets have been opened on the government information open platform, and there are numerous data sets containing geographic information. This paper will use the set of geographic information materials as the topic of discussion.
According to the founder of the World Wide Web inventor and link data, Tim. Tim Berners-Lee's classification structure for five stars of open data. At present, the government of China is open to information and is committed to the level of open data that meets the 5th star. The challenge is to have every data line. Link to other data sets to provide links between data.
For data users, there are several challenges in integrating government open data into heterogeneous data. (1) There are many spatial attribute formats for dataset geographic information. (2) Heterogeneous file format (3) The encoding format is inconsistent, so To solve the above problems, the link application of the data can be performed.
At present, most of the government's open materials are based on the provision of real-time information. From the open government data to big data, it is necessary to link heterogeneous data together and select appropriate conditions. When the data set is collected to a certain extent, Through the machine learning service, the relationship between the feature factors can be analyzed, and the appropriate influence feature points can be found, so that the machine learning software can have more kinds of feature arrangement and combination when learning and training the model, so that the classifier and the prediction model have more A variety of reference factors can be used to maximize the value of data analysis..
Therefore, this paper proposes an application service that can effectively analyze different coordinate formats and spatial attributes for government open data and geographic information sets, and uniformly store spatial attributes through unified geographic information code format, and can be processed according to The selected data sets the characteristic factors and generates some characteristic data sets. In order to avoid the problem of data duplication, the feature data is clean, the production data conforms to the first normalization, and the data set is split into many different ones by the data differentiation algorithm. Dimensional data set, in the heterogeneous data link algorithm, you can select a variety of related and different data sets to be integrated with a unified geographic information code. This system can provide data clearing and data differentiation for handling government open data. And the algorithm that provides heterogeneous feature set fusion, the produced data can be used for machine learning software analysis to provide better training models and more diverse predictive analysis.
URI: http://hdl.handle.net/11455/98229
Rights: 同意授權瀏覽/列印電子全文服務,2018-08-09起公開。
Appears in Collections:資訊科學與工程學系所

Files in This Item:
File SizeFormat Existing users please Login
nchu-107-5101056023-1.pdf2.18 MBAdobe PDFThis file is only available in the university internal network   
Show full item record
 
TAIR Related Article

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.