學術產出-國科會研究計畫
文章檢視/開啟
書目匯出
-
題名 文本史料資訊檢索與探勘工具之開發與實踐 作者 蔡銘峰 貢獻者 資訊科學系 關鍵詞 數位人文;自由中國文本集;資訊檢索;自然語言處理
Digital Humanities; Information Retrieval; Natural Language Processing日期 2013 上傳時間 8-十二月-2017 15:08:36 (UTC+8) 摘要 隨著資訊科技的日新月異,數位資訊透過通訊以及網際網路的快速發展,已經造成人文科學和社會科學與資訊科學之間在學科內涵、規範、社會實踐等方面開始產生質變。在文學研究領域方面,資訊科技改變了文學創作與文學研究之想像與模式。在傳播學領域方面,網際網路使得知識的傳播更加無遠弗屆。在歷史學領域方面,由於資訊科技中資訊檢索(Information Retrieval)與資料探勘分析(Data Mining and Analysis)等技術,得以幫忙史學家發現文本史料中錯綜複雜的關係。有鑑於過去數位典藏技術已將許多傳統的歷史書籍資料數位化,接下來該如何有效地處理這些數位文本史料便成了一個重要的研究議題。為完成此目的,資訊檢索技術將是一個必要的核心工具,因透過檢索系統的建立,其技術可以將非結構化的文本資料變成半結構化的索引資料,以便系統有效地搜尋資料,如此將可讓後續的資料探勘分析技術得以順利進行。 由於在人文社會科學相關研究中,研究人員經常需要閱讀與檢索大量文獻,而在資訊科學領域,檢索相關技術近年來已有相當的發展,而這些發展中蘊含於資訊檢索、自然語言處理(Natural Language Processing)等資訊領域裡進階的技術。本計畫採用這些技術建立了一個有效率的文本史料資訊檢索系統,幫助史學家從大量的史料中找尋相關的資訊、並協助進行文本分析,使得史學家可以進行更深入的史學相關研究。在所開發的系統裡,我們利用了資訊檢索和自然語言處理等技術,提供精準的搜尋結果。接下來我們將介紹本計畫中所使用史料文本和開發技術,以及介紹此適合人文社會科學研究導向的檢索工具平台。 在本次計畫中,我們所使用的史料文本為「自由中國文本集」,此文本集由政治大學雷震研究中心薛化元教授團隊所提供。在此計畫報告中,另外我們介紹了有關在處理史料文本時,會所遇到的一些困難以及相關的解決方法,包括:史料本文前處理、中文斷詞工具、以及資料儲存格式系統之選擇等。在此報告中,我們也針對計畫所使用到的建立檢索平台技術進行介紹,其中包括資訊檢索平台(Search Engine Platform)、網路開發框架(Web Framework)、前端介面(Front-end Interface)及後端資料處理(Back-end Data Processing)等具體的實踐方案。 目前,我們已成功建立起「數位人文自由中國搜尋系統」平台讓使用者進行檢索, 同時我們也使用分頁的方式呈現結果,並提供全文顯示等功能,此外我們也提供了以下側邊後設資料欄位以便使用者更進階的搜索需求。
With the advances of digital technology, digital information through communication as well as the rapid development of the Internet has begun to impact people life, which therefore makes huge changes to the research of humanity and social science. For example, in the field of literature, digital technology has changed the imagination and creation of literary works and literary studies; in the field of communication, with the Internet information can be spared faster and further; in the field of history, the data-mining techniques has been applied to discover implicit information within historical materials; in the field of library science, digital libraries are becoming more and more popular than traditional ones. With such many digital-archived text materials, how to effectively handle the data has already become a challenging task. For achieving the task, the techniques of information retrieval are becoming crucial because the techniques can help build an information retrieval system for users to adjust their way of searching data and customize their search preferences. The goal of this project is to develop an effective information retrieval system that can help historians conduct research on historical text collections. By means of the techniques of information retrieval and natural language processing, we aim to provide more accurate search results and advanced search functionalities for historical researchers; in addition, we also attempt to integrate the methods of data visualization to present search results, in order to assist historian researchers to better understand the relationship within the retrieved documents and keywords. In this project, we first indexed the historical text collections and building n retrieval system on the collections; then, we developed some advanced meta-search functions. In addition, we also developed some useful and friendly user interfaces for the retrieval systems. We hope such a project can help historical researchers conduct historical related research more efficiently and effectively.關聯 執行起迄:2013/08/01~2015/08/31
102-2420-H-004-052-MY2資料類型 report dc.contributor 資訊科學系 zh_Tw dc.creator (作者) 蔡銘峰 zh_TW dc.date (日期) 2013 en_US dc.date.accessioned 8-十二月-2017 15:08:36 (UTC+8) - dc.date.available 8-十二月-2017 15:08:36 (UTC+8) - dc.date.issued (上傳時間) 8-十二月-2017 15:08:36 (UTC+8) - dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/115092 - dc.description.abstract (摘要) 隨著資訊科技的日新月異,數位資訊透過通訊以及網際網路的快速發展,已經造成人文科學和社會科學與資訊科學之間在學科內涵、規範、社會實踐等方面開始產生質變。在文學研究領域方面,資訊科技改變了文學創作與文學研究之想像與模式。在傳播學領域方面,網際網路使得知識的傳播更加無遠弗屆。在歷史學領域方面,由於資訊科技中資訊檢索(Information Retrieval)與資料探勘分析(Data Mining and Analysis)等技術,得以幫忙史學家發現文本史料中錯綜複雜的關係。有鑑於過去數位典藏技術已將許多傳統的歷史書籍資料數位化,接下來該如何有效地處理這些數位文本史料便成了一個重要的研究議題。為完成此目的,資訊檢索技術將是一個必要的核心工具,因透過檢索系統的建立,其技術可以將非結構化的文本資料變成半結構化的索引資料,以便系統有效地搜尋資料,如此將可讓後續的資料探勘分析技術得以順利進行。 由於在人文社會科學相關研究中,研究人員經常需要閱讀與檢索大量文獻,而在資訊科學領域,檢索相關技術近年來已有相當的發展,而這些發展中蘊含於資訊檢索、自然語言處理(Natural Language Processing)等資訊領域裡進階的技術。本計畫採用這些技術建立了一個有效率的文本史料資訊檢索系統,幫助史學家從大量的史料中找尋相關的資訊、並協助進行文本分析,使得史學家可以進行更深入的史學相關研究。在所開發的系統裡,我們利用了資訊檢索和自然語言處理等技術,提供精準的搜尋結果。接下來我們將介紹本計畫中所使用史料文本和開發技術,以及介紹此適合人文社會科學研究導向的檢索工具平台。 在本次計畫中,我們所使用的史料文本為「自由中國文本集」,此文本集由政治大學雷震研究中心薛化元教授團隊所提供。在此計畫報告中,另外我們介紹了有關在處理史料文本時,會所遇到的一些困難以及相關的解決方法,包括:史料本文前處理、中文斷詞工具、以及資料儲存格式系統之選擇等。在此報告中,我們也針對計畫所使用到的建立檢索平台技術進行介紹,其中包括資訊檢索平台(Search Engine Platform)、網路開發框架(Web Framework)、前端介面(Front-end Interface)及後端資料處理(Back-end Data Processing)等具體的實踐方案。 目前,我們已成功建立起「數位人文自由中國搜尋系統」平台讓使用者進行檢索, 同時我們也使用分頁的方式呈現結果,並提供全文顯示等功能,此外我們也提供了以下側邊後設資料欄位以便使用者更進階的搜索需求。 zh_TW dc.description.abstract (摘要) With the advances of digital technology, digital information through communication as well as the rapid development of the Internet has begun to impact people life, which therefore makes huge changes to the research of humanity and social science. For example, in the field of literature, digital technology has changed the imagination and creation of literary works and literary studies; in the field of communication, with the Internet information can be spared faster and further; in the field of history, the data-mining techniques has been applied to discover implicit information within historical materials; in the field of library science, digital libraries are becoming more and more popular than traditional ones. With such many digital-archived text materials, how to effectively handle the data has already become a challenging task. For achieving the task, the techniques of information retrieval are becoming crucial because the techniques can help build an information retrieval system for users to adjust their way of searching data and customize their search preferences. The goal of this project is to develop an effective information retrieval system that can help historians conduct research on historical text collections. By means of the techniques of information retrieval and natural language processing, we aim to provide more accurate search results and advanced search functionalities for historical researchers; in addition, we also attempt to integrate the methods of data visualization to present search results, in order to assist historian researchers to better understand the relationship within the retrieved documents and keywords. In this project, we first indexed the historical text collections and building n retrieval system on the collections; then, we developed some advanced meta-search functions. In addition, we also developed some useful and friendly user interfaces for the retrieval systems. We hope such a project can help historical researchers conduct historical related research more efficiently and effectively. en_US dc.format.extent 5487399 bytes - dc.format.mimetype application/pdf - dc.relation (關聯) 執行起迄:2013/08/01~2015/08/31 zh_TW dc.relation (關聯) 102-2420-H-004-052-MY2 zh_TW dc.subject (關鍵詞) 數位人文;自由中國文本集;資訊檢索;自然語言處理 zh_TW dc.subject (關鍵詞) Digital Humanities; Information Retrieval; Natural Language Processing en_US dc.title (題名) 文本史料資訊檢索與探勘工具之開發與實踐 _TW dc.type (資料類型) report