學術產出-Theses

Article View/Open

Publication Export

Google ScholarTM

政大圖書館

Citation Infomation

  • No doi shows Citation Infomation
題名 中國近現代思想及文學史資料庫檢索系統
An Information Retrieval and Analysis System for Historical and Literary Documents in Chinese
作者 孫暐
Sun, Wei
貢獻者 劉昭麟
Liu, Chao Lin
孫暐
Sun, Wei
關鍵詞 數位人文
檢索系統
關鍵詞彙
時序分析
Digital Humanities
Information Retrieval System
Keyword
Time Analysis
日期 2013
上傳時間 25-Aug-2014 15:21:36 (UTC+8)
摘要 數位人文是近年來數位科技應用的一種重要趨勢,是一個結合數位技術與人文研究的新興領域,透過資訊科學的技術並結合大量數位化的文史資料,輔助文史學者進行較深入的人文研究,彌補並獲得在數位化之前無法用人工逐一比對所觀察到的現象或新的詮釋。
本研究以「中國近現代思想及文學史專業數據庫」的大量文史資料作為基礎,希望建構出一個能協助文史學者對中國近現代史的歷史觀念或現象較有效率的進行分析之檢索系統。本系統讓研究者可以透過具代表性的檢索詞彙與檢索條件搜尋出與欲研究的議題相關的文獻集合,再利用PAT Tree(Patricia tree)技術與自身的專業知識,擷取出研究議題底下的專業關鍵詞彙,並針對有興趣的關鍵詞彙或關鍵詞彙組合進行相關的時序分析,提供研究者以不同的面向觀察並詮釋出新的趨勢和結論。
我們找了一些具有文史工作相關背景經驗的使用者來實際使用本系統,並進行系統滿意度的評估,從評估的結果得知大部份的使用者都給了不錯的滿意度回饋,顯示本系統對於研究者在進行相關的文史研究上,可以達到一定程度的助益。
In recent years, digital humanities have become an important trend of the application of information technologies. It’s an emerging field by combining information technologies with humanities studies. Historians can make intensive humanities studies through the combination of information science technologies and numerous digitized historical data, finding the new historical phenomenon that cannot be obtained by manual handling the historical data.
In this paper, we construct an information retrieval and analysis system based on the text material available at the Database for the Study of Modern Chinese Thought and Literature that can help historians to make historical studies more efficiently. The system can let historians find the key documents which are related to the historical studies they make by representative search word. Besides, the system can use the PAT Tree (Patricia tree) method to extract useful keywords, with the help of historians to finalize the keyword selection. The system can also do the time analysis of one keyword or two keywords and help historians make new conclusions of historical studies.
We let some people who have historical work experience use the system and let them evaluate the system. Most of the evaluation results are good. It means that the system can help historians to make historical studies more efficiently.
參考文獻 [1] 中國近現代思想及文學史專業數據庫,http://digibase.ssic.nccu.edu.tw/。
[2] 中國近現代思想及文學史專業數據庫文獻簡介,http://digibase.ssic.nccu.edu.tw/?m=2302&wsn=0300。
[3] 中國近現代思想及文學史專業數據庫計畫,http://dsmctl.nccu.edu.tw/d_about.html。
[4] 太平洋史前Lapita陶器線上數位資料庫,http://lapita.rchss.sinica.edu.tw/web/。
[5] 王昱鈞、呂翊瑄、蔡宗翰、劉青峰、金觀濤及劉昭麟,漢文文獻之外來語音譯詞擷取方法,數位人文研究與技藝,項潔編,121-137,臺灣大學出版中心,臺灣,2014。
[6] 王泰升,數位化歷史資料庫與歷史研究―以明清檔案、淡新檔案、日治法院檔案等資料庫為例,從保存到創造:開啟數位人文研究,項潔編,31-50,臺灣大學出版中心,臺灣,2011。
[7] 邱斯嘉、郭潔及蘇郁尹,「太平洋史前Lapita陶器線上數位資料庫」 的建立與運用,數位人文要義:尋找類型與軌跡,項潔編,231-255,臺灣大學出版中心,臺灣,2012。
[8] 金觀濤,數位人文研究的理論基礎,數位人文研究的新視野:基礎與想像,項潔編,45-61,臺灣大學出版中心,臺灣,2011。
[9] 涂豐恩、杜協昌、陳詩沛、何浩洋及項潔,當資訊科技碰到史料―臺灣歷史數位圖書館中的未解問題,數位人文研究的新視野:基礎與想像,項潔編,21-44,臺灣大學出版中心,臺灣,2011。
[10] 陳志豪,臺灣歷史數位圖書館與歷史研究的實際應用―以「淡新檔案」為例,從保存到創造:開啟數位人文研究,項潔編,67-94,臺灣大學出版中心,臺灣,2011。
[11] 陳詩沛、杜協昌及項潔,史料整體分析工具之幕後―介紹「臺灣歷史數位圖書館」的資料前置處理程序,從保存到創造:開啟數位人文研究,項潔編,51-66,臺灣大學出版中心,臺灣,2011。
[12] 項潔、涂豐恩,導論―什麼是數位人文,從保存到創造:開啟數位人文研究,項潔編,9-28,臺灣大學出版中心,臺灣,2011。
[13] 項潔、翁稷安,導論―關於數位人文的思考:理論與方法,數位人文研究的新視野:基礎與想像,項潔編,9-18,臺灣大學出版中心,臺灣,2011。
[14] 楊森豪、賴進貴,繪圖註說―《淡新檔案》之地圖繪製與地圖使用,數位人文研究的新視野:基礎與想像,項潔編,205-231,臺灣大學出版中心,臺灣,2011。
[15] 葉智豪、王昱鈞及蔡宗翰,歷史文獻的命名實體擷取―結合主動學習法之半監督式模型,從保存到創造:開啟數位人文研究,項潔編,131-144,臺灣大學出版中心,臺灣,2011。
[16] 臺灣歷史數位圖書館,http://thdl.ntu.edu.tw/。
[17] 劉吉軒、賴隆平,臺灣文官職等升遷預測,從保存到創造:開啟數位人文研究,項潔編,113-130,臺灣大學出版中心,臺灣,2011。
[18] 劉昭麟、金觀濤、劉青峰、邱偉雲及姚育松,自然語言處理技術於中文史學文獻分析之初步應用,數位人文要義:尋找類型與軌跡,項潔編,61-82,臺灣大學出版中心,臺灣,2012。
[19] 謝清俊、林晰,中央研究院古籍全文資料庫的發展概要,中文計算語言學期刊,第二卷第一期,105-130,1997。
[20] 謝清俊、林晰、許金定、傅武嫦及張翠玲,廿五史的文字統計與分析,第三屆中國文字學國際學術研討會論文集,657-692,1992。
[21] 謝清俊、莊德明,古籍校讀工具「中文文獻處理系統」的設計,中國古籍整理研究出版現代化國際會議,1995。
[22] 藍家樑,中文訴訟文書檢索系統雛形實作,國立政治大學資訊科學所,碩士論文,2009。
[23] 闕河嘉、呂宜華及蘇冠銘,電視媒體的鄉村性―以語料庫語言學輔助方法分析《台客練習曲》,數位人文研究的新視野:基礎與想像,項潔編,165-187,臺灣大學出版中心,臺灣,2011。
[24] Emanuele Di Buccio, Nicola Montecchio and Nicola Orio, FALCON: FAst Lucene-based Cover sOng identification, Proceedings of the International Conference on Multimedia, 1477-1480, 2010.
[25] Lee-Feng Chien, PAT-tree-based adaptive keyphrase extraction for intelligent Chinese information retrieval, Information Processing and Management, 35(4), 501-521, 1999.
[26] Google, https://www.google.com.tw/.
[27] KACHINA CUBE WEB, http://www.arc.ritsumei.ac.jp/kachina/cube/.
[28] Lucene, http://lucene.apache.org/.
[29] Mathias Lux and Savvas A. Chatzichristofis, Lire: lucene image retrieval: an extensible java CBIR library, Proceedings of the 16th ACM International Conference on Multimedia, 1085-1088, 2008.
[30] Shinya Maezaki, Creating a Digital Database of Japanese Ceramics in Western Collections, 從保存到創造:開啟數位人文研究,項潔編,211-226,臺灣大學出版中心,臺灣,2011。
[31] MySQL, http://dev.mysql.com/.
[32] Akinobu Nameda, Kosuke Wakabayashi, Takuya Nakatsuma, Tomomi Hatano, Shinya Saito, Mitsuyuki Inaba and Tatsuya Sato, Towards Social Application and Sustainability of Digital Archives: The Case Study of 3D Visualization of Large-scale Documents of the Great Hanshin-Awaji Earthquake, 數位人文要義:尋找類型與軌跡,項潔編,213-230,臺灣大學出版中心,臺灣,2012。
[33] PAT Tree抽詞程式, http://www.openfoundry.org/of/projects/367/.
[34] Atifa Rawan and Yan Han, Creating Digital Access and Preserving a Unique Collection in Humanities, 從保存到創造:開啟數位人文研究,項潔編,185-210,臺灣大學出版中心,臺灣,2011。
[35] Yuen-Hsien Tseng, Yu-Chin Tsai and Chi-Jen Lin, Comparison of Global Term Expansion Methods for Text Retrieval, Proceedings of the Fifth NTCIR Workshop, 2005.
[36] Xiao-guang Wang and Mitsuyuki Inaba, Structure and Evolution of Digital Humanities: Empirical Research Based on Correspondence and Co-word Analyses, 從保存到創造:開啟數位人文研究,項潔編,97-112,臺灣大學出版中心,臺灣,2011。
[37] Jinxi Xu and W. Bruce Croft, Query Expansion Using Local and Global Document Analysis, Proceedings of the Nineteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 4-11, 1996.
[38] Hua-Jun Zeng, Qi-Cai He, Zheng Chen, Wei-Ying Ma and Jinwen Ma, Learning to Cluster Web Search Results, Proceedings of the Twenty-seventh Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 210-217, 2004.
描述 碩士
國立政治大學
資訊科學學系
100753034
102
資料來源 http://thesis.lib.nccu.edu.tw/record/#G0100753034
資料類型 thesis
dc.contributor.advisor 劉昭麟zh_TW
dc.contributor.advisor Liu, Chao Linen_US
dc.contributor.author (Authors) 孫暐zh_TW
dc.contributor.author (Authors) Sun, Weien_US
dc.creator (作者) 孫暐zh_TW
dc.creator (作者) Sun, Weien_US
dc.date (日期) 2013en_US
dc.date.accessioned 25-Aug-2014 15:21:36 (UTC+8)-
dc.date.available 25-Aug-2014 15:21:36 (UTC+8)-
dc.date.issued (上傳時間) 25-Aug-2014 15:21:36 (UTC+8)-
dc.identifier (Other Identifiers) G0100753034en_US
dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/69228-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 資訊科學學系zh_TW
dc.description (描述) 100753034zh_TW
dc.description (描述) 102zh_TW
dc.description.abstract (摘要) 數位人文是近年來數位科技應用的一種重要趨勢,是一個結合數位技術與人文研究的新興領域,透過資訊科學的技術並結合大量數位化的文史資料,輔助文史學者進行較深入的人文研究,彌補並獲得在數位化之前無法用人工逐一比對所觀察到的現象或新的詮釋。
本研究以「中國近現代思想及文學史專業數據庫」的大量文史資料作為基礎,希望建構出一個能協助文史學者對中國近現代史的歷史觀念或現象較有效率的進行分析之檢索系統。本系統讓研究者可以透過具代表性的檢索詞彙與檢索條件搜尋出與欲研究的議題相關的文獻集合,再利用PAT Tree(Patricia tree)技術與自身的專業知識,擷取出研究議題底下的專業關鍵詞彙,並針對有興趣的關鍵詞彙或關鍵詞彙組合進行相關的時序分析,提供研究者以不同的面向觀察並詮釋出新的趨勢和結論。
我們找了一些具有文史工作相關背景經驗的使用者來實際使用本系統,並進行系統滿意度的評估,從評估的結果得知大部份的使用者都給了不錯的滿意度回饋,顯示本系統對於研究者在進行相關的文史研究上,可以達到一定程度的助益。
zh_TW
dc.description.abstract (摘要) In recent years, digital humanities have become an important trend of the application of information technologies. It’s an emerging field by combining information technologies with humanities studies. Historians can make intensive humanities studies through the combination of information science technologies and numerous digitized historical data, finding the new historical phenomenon that cannot be obtained by manual handling the historical data.
In this paper, we construct an information retrieval and analysis system based on the text material available at the Database for the Study of Modern Chinese Thought and Literature that can help historians to make historical studies more efficiently. The system can let historians find the key documents which are related to the historical studies they make by representative search word. Besides, the system can use the PAT Tree (Patricia tree) method to extract useful keywords, with the help of historians to finalize the keyword selection. The system can also do the time analysis of one keyword or two keywords and help historians make new conclusions of historical studies.
We let some people who have historical work experience use the system and let them evaluate the system. Most of the evaluation results are good. It means that the system can help historians to make historical studies more efficiently.
en_US
dc.description.tableofcontents 第一章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 2
1.3 主要貢獻 3
1.4 論文架構 4
第二章 文獻回顧 5
2.1 數位人文相關研究 5
2.1.1 數位人文的發展 5
2.1.2 數位化歷史資料庫之相關研究 7
2.1.3 數位人文資料擷取分析之相關研究 8
2.1.4 數位人文典藏之相關研究 9
2.2 資訊檢索相關研究 10
第三章 系統設計與理念 11
3.1 數據庫文史資料 11
3.2 相關技術 13
3.2.1 索引檔案建置 14
3.2.2 資料庫建置 16
3.2.3 「準詞彙」的定義與「準詞彙」擷取 17
3.3 系統流程與架構 19
3.3.1 一般檢索與文獻摘要擷取流程 22
3.3.2 邏輯檢索與文獻摘要擷取流程 25
3.3.3 決定關鍵詞彙流程 28
3.3.4 繪製時序分佈圖流程 30
3.4 系統理念 50
第四章 系統功能及介面 57
4.1 文獻檢索介面 57
4.1.1 一般檢索 57
4.1.2 邏輯檢索 63
4.2 決定關鍵詞彙介面 67
4.3 繪製時序分佈圖介面 78
第五章 系統演進與使用者評估 87
5.1系統演進 87
5.2使用者評估 89
5.3使用者建議 95
第六章 結論與未來展望 97
6.1結論 97
6.2未來展望 99
參考文獻 101
附錄Ⅰ 使用者登入介面 106
附錄II 使用者問卷調查表 112
zh_TW
dc.format.extent 2391899 bytes-
dc.format.mimetype application/pdf-
dc.language.iso en_US-
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0100753034en_US
dc.subject (關鍵詞) 數位人文zh_TW
dc.subject (關鍵詞) 檢索系統zh_TW
dc.subject (關鍵詞) 關鍵詞彙zh_TW
dc.subject (關鍵詞) 時序分析zh_TW
dc.subject (關鍵詞) Digital Humanitiesen_US
dc.subject (關鍵詞) Information Retrieval Systemen_US
dc.subject (關鍵詞) Keyworden_US
dc.subject (關鍵詞) Time Analysisen_US
dc.title (題名) 中國近現代思想及文學史資料庫檢索系統zh_TW
dc.title (題名) An Information Retrieval and Analysis System for Historical and Literary Documents in Chineseen_US
dc.type (資料類型) thesisen
dc.relation.reference (參考文獻) [1] 中國近現代思想及文學史專業數據庫,http://digibase.ssic.nccu.edu.tw/。
[2] 中國近現代思想及文學史專業數據庫文獻簡介,http://digibase.ssic.nccu.edu.tw/?m=2302&wsn=0300。
[3] 中國近現代思想及文學史專業數據庫計畫,http://dsmctl.nccu.edu.tw/d_about.html。
[4] 太平洋史前Lapita陶器線上數位資料庫,http://lapita.rchss.sinica.edu.tw/web/。
[5] 王昱鈞、呂翊瑄、蔡宗翰、劉青峰、金觀濤及劉昭麟,漢文文獻之外來語音譯詞擷取方法,數位人文研究與技藝,項潔編,121-137,臺灣大學出版中心,臺灣,2014。
[6] 王泰升,數位化歷史資料庫與歷史研究―以明清檔案、淡新檔案、日治法院檔案等資料庫為例,從保存到創造:開啟數位人文研究,項潔編,31-50,臺灣大學出版中心,臺灣,2011。
[7] 邱斯嘉、郭潔及蘇郁尹,「太平洋史前Lapita陶器線上數位資料庫」 的建立與運用,數位人文要義:尋找類型與軌跡,項潔編,231-255,臺灣大學出版中心,臺灣,2012。
[8] 金觀濤,數位人文研究的理論基礎,數位人文研究的新視野:基礎與想像,項潔編,45-61,臺灣大學出版中心,臺灣,2011。
[9] 涂豐恩、杜協昌、陳詩沛、何浩洋及項潔,當資訊科技碰到史料―臺灣歷史數位圖書館中的未解問題,數位人文研究的新視野:基礎與想像,項潔編,21-44,臺灣大學出版中心,臺灣,2011。
[10] 陳志豪,臺灣歷史數位圖書館與歷史研究的實際應用―以「淡新檔案」為例,從保存到創造:開啟數位人文研究,項潔編,67-94,臺灣大學出版中心,臺灣,2011。
[11] 陳詩沛、杜協昌及項潔,史料整體分析工具之幕後―介紹「臺灣歷史數位圖書館」的資料前置處理程序,從保存到創造:開啟數位人文研究,項潔編,51-66,臺灣大學出版中心,臺灣,2011。
[12] 項潔、涂豐恩,導論―什麼是數位人文,從保存到創造:開啟數位人文研究,項潔編,9-28,臺灣大學出版中心,臺灣,2011。
[13] 項潔、翁稷安,導論―關於數位人文的思考:理論與方法,數位人文研究的新視野:基礎與想像,項潔編,9-18,臺灣大學出版中心,臺灣,2011。
[14] 楊森豪、賴進貴,繪圖註說―《淡新檔案》之地圖繪製與地圖使用,數位人文研究的新視野:基礎與想像,項潔編,205-231,臺灣大學出版中心,臺灣,2011。
[15] 葉智豪、王昱鈞及蔡宗翰,歷史文獻的命名實體擷取―結合主動學習法之半監督式模型,從保存到創造:開啟數位人文研究,項潔編,131-144,臺灣大學出版中心,臺灣,2011。
[16] 臺灣歷史數位圖書館,http://thdl.ntu.edu.tw/。
[17] 劉吉軒、賴隆平,臺灣文官職等升遷預測,從保存到創造:開啟數位人文研究,項潔編,113-130,臺灣大學出版中心,臺灣,2011。
[18] 劉昭麟、金觀濤、劉青峰、邱偉雲及姚育松,自然語言處理技術於中文史學文獻分析之初步應用,數位人文要義:尋找類型與軌跡,項潔編,61-82,臺灣大學出版中心,臺灣,2012。
[19] 謝清俊、林晰,中央研究院古籍全文資料庫的發展概要,中文計算語言學期刊,第二卷第一期,105-130,1997。
[20] 謝清俊、林晰、許金定、傅武嫦及張翠玲,廿五史的文字統計與分析,第三屆中國文字學國際學術研討會論文集,657-692,1992。
[21] 謝清俊、莊德明,古籍校讀工具「中文文獻處理系統」的設計,中國古籍整理研究出版現代化國際會議,1995。
[22] 藍家樑,中文訴訟文書檢索系統雛形實作,國立政治大學資訊科學所,碩士論文,2009。
[23] 闕河嘉、呂宜華及蘇冠銘,電視媒體的鄉村性―以語料庫語言學輔助方法分析《台客練習曲》,數位人文研究的新視野:基礎與想像,項潔編,165-187,臺灣大學出版中心,臺灣,2011。
[24] Emanuele Di Buccio, Nicola Montecchio and Nicola Orio, FALCON: FAst Lucene-based Cover sOng identification, Proceedings of the International Conference on Multimedia, 1477-1480, 2010.
[25] Lee-Feng Chien, PAT-tree-based adaptive keyphrase extraction for intelligent Chinese information retrieval, Information Processing and Management, 35(4), 501-521, 1999.
[26] Google, https://www.google.com.tw/.
[27] KACHINA CUBE WEB, http://www.arc.ritsumei.ac.jp/kachina/cube/.
[28] Lucene, http://lucene.apache.org/.
[29] Mathias Lux and Savvas A. Chatzichristofis, Lire: lucene image retrieval: an extensible java CBIR library, Proceedings of the 16th ACM International Conference on Multimedia, 1085-1088, 2008.
[30] Shinya Maezaki, Creating a Digital Database of Japanese Ceramics in Western Collections, 從保存到創造:開啟數位人文研究,項潔編,211-226,臺灣大學出版中心,臺灣,2011。
[31] MySQL, http://dev.mysql.com/.
[32] Akinobu Nameda, Kosuke Wakabayashi, Takuya Nakatsuma, Tomomi Hatano, Shinya Saito, Mitsuyuki Inaba and Tatsuya Sato, Towards Social Application and Sustainability of Digital Archives: The Case Study of 3D Visualization of Large-scale Documents of the Great Hanshin-Awaji Earthquake, 數位人文要義:尋找類型與軌跡,項潔編,213-230,臺灣大學出版中心,臺灣,2012。
[33] PAT Tree抽詞程式, http://www.openfoundry.org/of/projects/367/.
[34] Atifa Rawan and Yan Han, Creating Digital Access and Preserving a Unique Collection in Humanities, 從保存到創造:開啟數位人文研究,項潔編,185-210,臺灣大學出版中心,臺灣,2011。
[35] Yuen-Hsien Tseng, Yu-Chin Tsai and Chi-Jen Lin, Comparison of Global Term Expansion Methods for Text Retrieval, Proceedings of the Fifth NTCIR Workshop, 2005.
[36] Xiao-guang Wang and Mitsuyuki Inaba, Structure and Evolution of Digital Humanities: Empirical Research Based on Correspondence and Co-word Analyses, 從保存到創造:開啟數位人文研究,項潔編,97-112,臺灣大學出版中心,臺灣,2011。
[37] Jinxi Xu and W. Bruce Croft, Query Expansion Using Local and Global Document Analysis, Proceedings of the Nineteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 4-11, 1996.
[38] Hua-Jun Zeng, Qi-Cai He, Zheng Chen, Wei-Ying Ma and Jinwen Ma, Learning to Cluster Web Search Results, Proceedings of the Twenty-seventh Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 210-217, 2004.
zh_TW