Publications-Theses
Article View/Open
Publication Export
-
題名 文本探勘工具運用於檔案自動化主題分類之研究 ─以《總裁批簽》檔案為例
The Application of Text Mining Tools to the Automatic Subject Classification of Archives:Taking The "President’s Approval" Archives for Example作者 吳承恩
Wu, Cheng-En貢獻者 林巧敏
Lin, Chiao-Min
吳承恩
Wu, Cheng-En關鍵詞 自動歸類
總裁批簽
數位人文
檔案主題分類
Automatic Clustering
President’s Approval
Digital Humanities
Subject Classification of Archives日期 2022 上傳時間 2-Sep-2022 14:59:11 (UTC+8) 摘要 如何結合科技進行資料的整理,是現今典藏機構面臨的難題之一,本研究嘗試從人文研究者的角度,探討檔案資料運用文本探勘工具進行自動化主題分類的可行性。本研究首先經由文獻探討釐清自動化主題分類技術發展脈絡,並考量單一自動分類方法的侷限,擇選「CATAR」及「階層式主題分析工具」等相異工具,對《總裁批簽》檔案進行主題概念擷取與分類。經由兩種工具實施經驗與產出結果的比較,並結合歷史、圖書檔案之專家學者針對工具產出結果的人工檢證及深度訪談,提出相關改善方式與建議。研究結果顯示,經由工具所擷取之《總裁批簽》主題概念,與其職能脈絡具有密不可分的聯繫,此外憑藉工具迅速、大量且相對客觀的特性,不僅可協助人工對檔案內容有結構性的了解,以進行分類編案等實務工作,同時結合視覺化技術及各式輔助資訊的參考,相關的運用範圍更可遍及檔案研究出版、策展選件等加值應用工作。然而,由於工具對於辭彙以及主題概念的理解與人工並不相同,因此在使用工具上,人為的參與仍不可或缺,尤其是辭彙的整理,如權威控制或者長名詞詞庫的建置,皆對於工具歸類成效具有正面的影響。
This study attempts to investigate the feasibility of using text mining tools s for automated subject classification of archives from the perspective of a humanities researcher. This study first clarifies the development of automated subject classification techniques through literature research, and considers the limitations of a single automatic classification method. This study first clarifies the development of automatic topic classification technology through literature research, and considers the limitations of a single automatic classification method, and selects different tools such as "CATAR" and "Hierarchical Topic Analysis Tool" to retrieve and classify the topic concepts of " President’s Approval " archives. After comparing the implementation experience and results of the two tools, and combining the manual verification and in-depth interviews with experts in history and library archives, we propose relevant improvement methods and recommendations.The results of the study show that the concept of the "President’s Approval" extracted by the tool is inextricably linked to its functional context. In addition, with the tool`s rapid, voluminous, and relatively objective characteristics, it not only helps human beings to have a structural understanding of the content of the archives for practical work such as classification and cataloging, but also combines visualization technology and various kinds of auxiliary information for reference, which can be used in a wide range of archival research. The application can be applied to archival research, publication, curatorial selection, and other value-added applications. However, since the tools do not have the same understanding of vocabulary and thematic concepts as human beings, human involvement is still indispensable in using the tools, especially in the organization of vocabulary, such as authority control or the establishment of a long-name thesaurus, which have a positive impact on the categorization effectiveness of the tools.參考文獻 王祥安,李祐陞(2021)。中央研究院數位人文研究平台之發展與應用。數位典藏與數位人文,7 ,99-131。中央通訊社(2020年4月24)。促轉會:國民黨總裁批簽檔案 完成點收。檢自:https://www.cna.com.tw/news/aipl/202004240355.aspx。檢索日期:2021年7月16日。江玉婷、陳光華(1999)。TREC現況及其對資訊檢索研究之影響。圖書與資訊學刊,29,36-59。汪耀華(2011)如何利用文獻探勘技術分析全國碩博士論文──以「學習歷程檔案」為例。自由軟體與教育科技研討會論文集,3,1-8。宋立垚、吳可久(2010)。由宏觀鑑定觀點檢視1949-2000年都市建設類國家檔案之主題分類。教育資料與圖書館學,47(4),459-497。杜協昌(2018)。DocuSky:個人文字資料庫的建構與分析平臺。數位典藏與數位人文,2,71-90。李清福、陳志銘、曾元顯(2013)。數位學習領域主題分析之研究。教育資料與圖書館學,50(3),319-354。李龍豪、簡佑達、張俊彥、李宗諺、曾元顯(2016)。短文回應的主題自動歸類在行動教育活動上之應用初探。圖書資訊學研究,11(1),47-84。何偲佑(2020)。數位人文研究平台之階層式主題分析工具發展與應用〔未出版之碩士論文〕。國立政治大學圖書資訊與檔案學研究所,臺北市。林巧敏(2003)。二二八事件檔案資訊網目錄使用調查研究。中國圖書館學會會報,70,147-164。林巧敏(2015)。檔案使用調查與案例分析。五南圖書出版。林巧敏(2012)。檔案應用服務。文華圖書出版。林果顯(2013年11月22日)。從總裁批簽看國民黨的對外宣傳。「新史料、新視野:總裁批簽與戰後中華民國史研究」學術研討會,臺北市,臺灣。邵軒磊、曾元顯(2018)。文字探勘技術輔助主題分析—以「中國大陸研究」期刊為例。問題與研究,57(1),29-62。邵銘煌、薛化元主編(2005)。蔣中正總裁批簽檔案目錄。國立政治大學歷史系、中國國民黨黨史館。邱詩雯(2018)。《史記》作者數位化研究初探─以三十世家虛字字頻為例。數位典藏與數位人文,2,49-69。洪一梅、曹德啟(2020)。從 DocuSky 談 Metadata 在數位人文研究中的設計與運用:以佛教石刻題記為範例材料。數位典藏與數位人文,5,117-153。胡其瑞、杜協昌、陳琤(2019)。數位文本詮釋資料的加值與應用─以DocuSky詮釋資料整合建庫工具為例。數位典藏與數位人文,4,71-107。胡其瑞(2020)。DocuSky 與民間故事型態分析。數位典藏與數位人文,6,37-67。郝志揚(2017)。使用文字探勘實作新聞事件追蹤用〔未出版之碩士論文〕。淡江大學資訊工程系,新北市。原友蘭、曾元顯、何昶鴛(2019)。運用自動內容分析技術探析觀光與旅遊領域研究主題與趨勢。戶外遊憩研究,32(1),1-32。郭知晴(2020)。自動化輔助主題分析臺灣明代研究之學位論文著作特性[未出版之碩士論文]。國立政治大學圖書資訊與檔案學研究所,臺北市。郭俊桔(2018)。使用多元決策略之圖書自動分類的研究。圖書資訊學研究,13(1),87-124。張玉華(2003)。從檔案整理原則談國家檔案之分類。檔案,2(1),44-56。陳信源、葉鎮源、林昕潔、黃明居、柯皓仁、楊維邦(2009)。結合支援向量機與詮釋資料之圖書自動分類方法。資訊科技國際期刊,3(1),2-21。陳淑貞(2010)。以自動化主題分析探索免疫學領域研究主題之發展〔未出版之碩士論文〕。國立師範大學圖書資訊學研究所,臺北市。陳嘉翔(2010)。清代臺灣行政檔案文件自動分類至歷史事件〔未出版之碩士論文〕。國立臺灣大學資訊工程學研究所。陳漢文(2021)。論宋白(936–1012)〈宮詞〉百首的字詞運用及其文學意義。數位典藏與數位人文,7,1-36。莊萬慶(2006)。標籤樹於文件檢索後分類與呈現之運用-以古文書為例〔未出版之碩士論文〕。國立臺灣大學資訊工程學研究所,臺北市。張文熙(2008)。我國檔案知識庫建置之檢討。檔案,7(1),44-57。國立臺灣大學圖書館(2021)。「中國國民黨史料資料庫」使用方式。撿自:http://www.lib.ntu.edu.tw/node/679,檢索日期:2021年7月16日。國家教育研究院(2012)。雙語詞彙、學術名詞暨辭書資訊網──文本探勘text mining。檢自:http://terms.naer.edu.tw/detail/1679014/。檢索日期:2021年8月4日。湯秋蓉(2009)。自動化主題分析於圖書資訊領域之應用〔未出版之碩士論文〕。國立師範大學圖書資訊學研究所,臺北市。曾元顯(2002)。文件自動分類成效因素探討。中國圖書館學會會報,68,62-83。曾元顯(2011)。文獻內容探勘工具─CATAR之發展與應用。圖書館學與教育科學,37(1),31-49。曾元顯、林瑜一(2011)。內容探勘技術在教育評鑑研究發展趨勢分析之應用。教育科學研究期刊,56(1),1-32。曾元顯(2014)。自動化資訊組織與主題分析近二十年來的研究與發展。教育資料與圖書館學,51(特刊),3-26。項潔、涂豐恩(2011)。什麼是數位人文。在項潔編,從保存到創造:開啟數位人文研究(9-28)。臺北市:臺大出版中心。黃筠芝(2020)。檔案主題新聞之數位人文研究。〔未出版之碩士論文〕。國立政治大學圖書資訊與檔案學研究所,臺北市。鄭彥棻(1978)。往事憶述。傳記文學出版社。鄭惠珍(2016)。分類理論在權威控制的應用─以VIAF人名權威紀錄為例。國家圖書館館刊,105(2),147-170。蔣以仁(2009)。運用文本探勘建置九二一地震數位檔案知識庫。檔案,8(3),44-67。蔡宗勳(2013)。基於中國餐廳過程之在線學習方法〔未出版之碩士論文〕。國立交通大學資訊科學與工程研究所。劉振隆、李懿巡(2020)。以環境適應值為基礎之鯨魚演算法應用於肝病資料集分類。管理資訊計算,9(特刊1),28-39。劉維開(1994)。中國國民黨職名錄/劉維開編輯(初版)。中國國民黨中央委員會黨史委員會。劉維開(2013年11月22日)。《蔣中正總裁批簽檔案目錄》編輯經過。「新史料、新視野:總裁批簽與戰後中華民國史研究」學術研討會,臺北市,臺灣。盧家慶(2007)。臺灣古契書自動分類與依分類定義契書角色〔未出版之碩士論文〕。國立臺灣大學資訊工程學研究所,臺北市。蕭屹灵(2008)。日治法院檔案系統及其後分類呈現〔未出版之碩士論文〕。國立臺灣大學資訊網路與多媒體研究所,臺北市。謝心妤(2019)。圖書館之多層式圖書自動分類系統之實證研究〔未出版之碩士論文〕。國立中興大學圖書資訊學研究所,臺中市。BinMakhashen, G. M., & Mahmoud, S. A. (2020). Historical document layout analysis using anisotropic diffusion and geometric features. International Journal on Digital Libraries, 21(3), 329–342. https://doi-org.autorpa.lib.nccu.edu.tw/10.1007/s00799-020-00280-wChae, G., Park, J., Park, J., Yeo, W. S., & Shi, C. (2016). Linking and clustering artworks using social tags: Revitalizing crowd-sourced information on cultural collections. Journal of the Association for Information Science & Technology, 67(4), 885–899. https://doi-org.autorpa.lib.nccu.edu.tw/10.1002/asi.23442Chang, Y.H., Chang, C.Y., & Tseng, Y.H. (2010). Trends of Science Education Research: An Automatic Content Analysis. Journal of Science Education and Technology, 19(4), 315-331.Blei, D.M., Ng, A,Y.,& Jordan, M.I(2003). Latent Dirichlet allocation. Journal of MachineLearning Research. Retrieved from : https://dl.acm.org/doi/10.5555/944919.944937.Duoduo, X., Dean, K., Bingenheimer, M., & Bond, F. (2020). Chinese singaporean temples: digital humanities approaches to frequency lists of sponsors. Journal of Digital Archives and Digital Humanities,5, 37-71. doi:10.6853/DADH.202004_(5).0002Chung, E., Miksa, S.,& Hastings, S. K. (2010). A framework of automatic subject term assignment for text categorization: An indexing conception-based approach. Journal of the American Society for Information Science & Technology, 61(4),688–699. https://doi-org.autorpa.lib.nccu.edu.tw/10.1002/asi.21272Garner, S.R.(1995),WEKA: The Waikato Enviroment for Knowledge Analysis. New Zealand Computer Science Research Students Conference, Hamilton, NewZealand.https://www.cs.waikato.ac.nz/~ml/publications/1995/Garner95-WEKA.pdfMühling, M., Meister, M., Korfhage, N., Wehling, J., Hörth, A., Ewerth, R., & Freisleben, B. (2019). Content-based video retrieval in historical collections of the German Broadcasting Archive. International Journal on Digital Libraries, 20(2), 167–183. https://doi-org.autorpa.lib.nccu.edu.tw/10.1007/s00799-018-0236-zTseng, Y.H., & Tsay, M.Y. (2013). Journal clustering of library and information science for subfield delineation using the bibliometric analysis toolkit: CATAR. Scientometrics, 95(2), 503 -528.Tseng, Y.H., Chang, C.Y., Tutwiler, M. S., Lin, M.C., & Barufaldi, J. P. (2013). A scientometric analysis of the effectiveness of Taiwan’s educational research projects. Scientometrics, 95(3), 1141-1166.Tseng, Y.H. (2020). The Feasibility of Automated Topic Analysis: An Empirical Evaluation of Deep Learning Techniques Applied to Skew-Distributed Chinese Text Classification. Journal of Educational Media & Library Science, 57(1), 121-144.Yuan, Y., Gretzel, U., & Tseng, Y.H. (2014). Revealing the Nature of Contemporary Tourism Research: Extracting Common Subject Areas through Bibliographic Coupling. International Journal of Tourism Research, 17(5), 417-431.Yuan, Y. Y., Tseng, Y.H., & Chang, C.Y. (2014). Tourism subfield identification via journal clustering. Annals of Tourism Research, 47, 77-80. 描述 碩士
國立政治大學
圖書資訊與檔案學研究所
109155009資料來源 http://thesis.lib.nccu.edu.tw/record/#G0109155009 資料類型 thesis dc.contributor.advisor 林巧敏 zh_TW dc.contributor.advisor Lin, Chiao-Min en_US dc.contributor.author (Authors) 吳承恩 zh_TW dc.contributor.author (Authors) Wu, Cheng-En en_US dc.creator (作者) 吳承恩 zh_TW dc.creator (作者) Wu, Cheng-En en_US dc.date (日期) 2022 en_US dc.date.accessioned 2-Sep-2022 14:59:11 (UTC+8) - dc.date.available 2-Sep-2022 14:59:11 (UTC+8) - dc.date.issued (上傳時間) 2-Sep-2022 14:59:11 (UTC+8) - dc.identifier (Other Identifiers) G0109155009 en_US dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/141613 - dc.description (描述) 碩士 zh_TW dc.description (描述) 國立政治大學 zh_TW dc.description (描述) 圖書資訊與檔案學研究所 zh_TW dc.description (描述) 109155009 zh_TW dc.description.abstract (摘要) 如何結合科技進行資料的整理,是現今典藏機構面臨的難題之一,本研究嘗試從人文研究者的角度,探討檔案資料運用文本探勘工具進行自動化主題分類的可行性。本研究首先經由文獻探討釐清自動化主題分類技術發展脈絡,並考量單一自動分類方法的侷限,擇選「CATAR」及「階層式主題分析工具」等相異工具,對《總裁批簽》檔案進行主題概念擷取與分類。經由兩種工具實施經驗與產出結果的比較,並結合歷史、圖書檔案之專家學者針對工具產出結果的人工檢證及深度訪談,提出相關改善方式與建議。研究結果顯示,經由工具所擷取之《總裁批簽》主題概念,與其職能脈絡具有密不可分的聯繫,此外憑藉工具迅速、大量且相對客觀的特性,不僅可協助人工對檔案內容有結構性的了解,以進行分類編案等實務工作,同時結合視覺化技術及各式輔助資訊的參考,相關的運用範圍更可遍及檔案研究出版、策展選件等加值應用工作。然而,由於工具對於辭彙以及主題概念的理解與人工並不相同,因此在使用工具上,人為的參與仍不可或缺,尤其是辭彙的整理,如權威控制或者長名詞詞庫的建置,皆對於工具歸類成效具有正面的影響。 zh_TW dc.description.abstract (摘要) This study attempts to investigate the feasibility of using text mining tools s for automated subject classification of archives from the perspective of a humanities researcher. This study first clarifies the development of automated subject classification techniques through literature research, and considers the limitations of a single automatic classification method. This study first clarifies the development of automatic topic classification technology through literature research, and considers the limitations of a single automatic classification method, and selects different tools such as "CATAR" and "Hierarchical Topic Analysis Tool" to retrieve and classify the topic concepts of " President’s Approval " archives. After comparing the implementation experience and results of the two tools, and combining the manual verification and in-depth interviews with experts in history and library archives, we propose relevant improvement methods and recommendations.The results of the study show that the concept of the "President’s Approval" extracted by the tool is inextricably linked to its functional context. In addition, with the tool`s rapid, voluminous, and relatively objective characteristics, it not only helps human beings to have a structural understanding of the content of the archives for practical work such as classification and cataloging, but also combines visualization technology and various kinds of auxiliary information for reference, which can be used in a wide range of archival research. The application can be applied to archival research, publication, curatorial selection, and other value-added applications. However, since the tools do not have the same understanding of vocabulary and thematic concepts as human beings, human involvement is still indispensable in using the tools, especially in the organization of vocabulary, such as authority control or the establishment of a long-name thesaurus, which have a positive impact on the categorization effectiveness of the tools. en_US dc.description.tableofcontents 第一章 緒論 1第一節 研究動機 1第二節 研究目的 2第三節 研究問題 3第四節 研究範圍與限制 3第五節 名詞解釋 5第二章 文獻探討 7第一節 自動化主題分類之技術與發展 7第二節 文本探勘工具與自動分類實務應用 10第三節 運用檔案材料之自動化主題分類實務 17第三章 研究設計與實施 21第一節 研究架構 21第二節 研究方法 22第三節 研究對象 24第四節 研究工具 25第五節 研究流程 30第六節 資料處理與分析 31第四章 研究結果與分析 40第一節 自動分類處理過程分析 40第二節 專家訪談結果評估 67第三節 綜合討論 105第五章 結論與建議 110第一節 結論 110第二節 建議 110第三節 未來研究方向 116參考文獻 118附錄一、訪談大綱 124附錄二、《總裁批簽》自動歸類評估表 125附錄三、CATAR《總裁批簽》主題分類表 132附錄四、階層式主題分析工具《總裁批簽》主題分類表 135附錄五、人工詞彙增刪統計表 139 zh_TW dc.format.extent 9874939 bytes - dc.format.mimetype application/pdf - dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0109155009 en_US dc.subject (關鍵詞) 自動歸類 zh_TW dc.subject (關鍵詞) 總裁批簽 zh_TW dc.subject (關鍵詞) 數位人文 zh_TW dc.subject (關鍵詞) 檔案主題分類 zh_TW dc.subject (關鍵詞) Automatic Clustering en_US dc.subject (關鍵詞) President’s Approval en_US dc.subject (關鍵詞) Digital Humanities en_US dc.subject (關鍵詞) Subject Classification of Archives en_US dc.title (題名) 文本探勘工具運用於檔案自動化主題分類之研究 ─以《總裁批簽》檔案為例 zh_TW dc.title (題名) The Application of Text Mining Tools to the Automatic Subject Classification of Archives:Taking The "President’s Approval" Archives for Example en_US dc.type (資料類型) thesis en_US dc.relation.reference (參考文獻) 王祥安,李祐陞(2021)。中央研究院數位人文研究平台之發展與應用。數位典藏與數位人文,7 ,99-131。中央通訊社(2020年4月24)。促轉會:國民黨總裁批簽檔案 完成點收。檢自:https://www.cna.com.tw/news/aipl/202004240355.aspx。檢索日期:2021年7月16日。江玉婷、陳光華(1999)。TREC現況及其對資訊檢索研究之影響。圖書與資訊學刊,29,36-59。汪耀華(2011)如何利用文獻探勘技術分析全國碩博士論文──以「學習歷程檔案」為例。自由軟體與教育科技研討會論文集,3,1-8。宋立垚、吳可久(2010)。由宏觀鑑定觀點檢視1949-2000年都市建設類國家檔案之主題分類。教育資料與圖書館學,47(4),459-497。杜協昌(2018)。DocuSky:個人文字資料庫的建構與分析平臺。數位典藏與數位人文,2,71-90。李清福、陳志銘、曾元顯(2013)。數位學習領域主題分析之研究。教育資料與圖書館學,50(3),319-354。李龍豪、簡佑達、張俊彥、李宗諺、曾元顯(2016)。短文回應的主題自動歸類在行動教育活動上之應用初探。圖書資訊學研究,11(1),47-84。何偲佑(2020)。數位人文研究平台之階層式主題分析工具發展與應用〔未出版之碩士論文〕。國立政治大學圖書資訊與檔案學研究所,臺北市。林巧敏(2003)。二二八事件檔案資訊網目錄使用調查研究。中國圖書館學會會報,70,147-164。林巧敏(2015)。檔案使用調查與案例分析。五南圖書出版。林巧敏(2012)。檔案應用服務。文華圖書出版。林果顯(2013年11月22日)。從總裁批簽看國民黨的對外宣傳。「新史料、新視野:總裁批簽與戰後中華民國史研究」學術研討會,臺北市,臺灣。邵軒磊、曾元顯(2018)。文字探勘技術輔助主題分析—以「中國大陸研究」期刊為例。問題與研究,57(1),29-62。邵銘煌、薛化元主編(2005)。蔣中正總裁批簽檔案目錄。國立政治大學歷史系、中國國民黨黨史館。邱詩雯(2018)。《史記》作者數位化研究初探─以三十世家虛字字頻為例。數位典藏與數位人文,2,49-69。洪一梅、曹德啟(2020)。從 DocuSky 談 Metadata 在數位人文研究中的設計與運用:以佛教石刻題記為範例材料。數位典藏與數位人文,5,117-153。胡其瑞、杜協昌、陳琤(2019)。數位文本詮釋資料的加值與應用─以DocuSky詮釋資料整合建庫工具為例。數位典藏與數位人文,4,71-107。胡其瑞(2020)。DocuSky 與民間故事型態分析。數位典藏與數位人文,6,37-67。郝志揚(2017)。使用文字探勘實作新聞事件追蹤用〔未出版之碩士論文〕。淡江大學資訊工程系,新北市。原友蘭、曾元顯、何昶鴛(2019)。運用自動內容分析技術探析觀光與旅遊領域研究主題與趨勢。戶外遊憩研究,32(1),1-32。郭知晴(2020)。自動化輔助主題分析臺灣明代研究之學位論文著作特性[未出版之碩士論文]。國立政治大學圖書資訊與檔案學研究所,臺北市。郭俊桔(2018)。使用多元決策略之圖書自動分類的研究。圖書資訊學研究,13(1),87-124。張玉華(2003)。從檔案整理原則談國家檔案之分類。檔案,2(1),44-56。陳信源、葉鎮源、林昕潔、黃明居、柯皓仁、楊維邦(2009)。結合支援向量機與詮釋資料之圖書自動分類方法。資訊科技國際期刊,3(1),2-21。陳淑貞(2010)。以自動化主題分析探索免疫學領域研究主題之發展〔未出版之碩士論文〕。國立師範大學圖書資訊學研究所,臺北市。陳嘉翔(2010)。清代臺灣行政檔案文件自動分類至歷史事件〔未出版之碩士論文〕。國立臺灣大學資訊工程學研究所。陳漢文(2021)。論宋白(936–1012)〈宮詞〉百首的字詞運用及其文學意義。數位典藏與數位人文,7,1-36。莊萬慶(2006)。標籤樹於文件檢索後分類與呈現之運用-以古文書為例〔未出版之碩士論文〕。國立臺灣大學資訊工程學研究所,臺北市。張文熙(2008)。我國檔案知識庫建置之檢討。檔案,7(1),44-57。國立臺灣大學圖書館(2021)。「中國國民黨史料資料庫」使用方式。撿自:http://www.lib.ntu.edu.tw/node/679,檢索日期:2021年7月16日。國家教育研究院(2012)。雙語詞彙、學術名詞暨辭書資訊網──文本探勘text mining。檢自:http://terms.naer.edu.tw/detail/1679014/。檢索日期:2021年8月4日。湯秋蓉(2009)。自動化主題分析於圖書資訊領域之應用〔未出版之碩士論文〕。國立師範大學圖書資訊學研究所,臺北市。曾元顯(2002)。文件自動分類成效因素探討。中國圖書館學會會報,68,62-83。曾元顯(2011)。文獻內容探勘工具─CATAR之發展與應用。圖書館學與教育科學,37(1),31-49。曾元顯、林瑜一(2011)。內容探勘技術在教育評鑑研究發展趨勢分析之應用。教育科學研究期刊,56(1),1-32。曾元顯(2014)。自動化資訊組織與主題分析近二十年來的研究與發展。教育資料與圖書館學,51(特刊),3-26。項潔、涂豐恩(2011)。什麼是數位人文。在項潔編,從保存到創造:開啟數位人文研究(9-28)。臺北市:臺大出版中心。黃筠芝(2020)。檔案主題新聞之數位人文研究。〔未出版之碩士論文〕。國立政治大學圖書資訊與檔案學研究所,臺北市。鄭彥棻(1978)。往事憶述。傳記文學出版社。鄭惠珍(2016)。分類理論在權威控制的應用─以VIAF人名權威紀錄為例。國家圖書館館刊,105(2),147-170。蔣以仁(2009)。運用文本探勘建置九二一地震數位檔案知識庫。檔案,8(3),44-67。蔡宗勳(2013)。基於中國餐廳過程之在線學習方法〔未出版之碩士論文〕。國立交通大學資訊科學與工程研究所。劉振隆、李懿巡(2020)。以環境適應值為基礎之鯨魚演算法應用於肝病資料集分類。管理資訊計算,9(特刊1),28-39。劉維開(1994)。中國國民黨職名錄/劉維開編輯(初版)。中國國民黨中央委員會黨史委員會。劉維開(2013年11月22日)。《蔣中正總裁批簽檔案目錄》編輯經過。「新史料、新視野:總裁批簽與戰後中華民國史研究」學術研討會,臺北市,臺灣。盧家慶(2007)。臺灣古契書自動分類與依分類定義契書角色〔未出版之碩士論文〕。國立臺灣大學資訊工程學研究所,臺北市。蕭屹灵(2008)。日治法院檔案系統及其後分類呈現〔未出版之碩士論文〕。國立臺灣大學資訊網路與多媒體研究所,臺北市。謝心妤(2019)。圖書館之多層式圖書自動分類系統之實證研究〔未出版之碩士論文〕。國立中興大學圖書資訊學研究所,臺中市。BinMakhashen, G. M., & Mahmoud, S. A. (2020). Historical document layout analysis using anisotropic diffusion and geometric features. International Journal on Digital Libraries, 21(3), 329–342. https://doi-org.autorpa.lib.nccu.edu.tw/10.1007/s00799-020-00280-wChae, G., Park, J., Park, J., Yeo, W. S., & Shi, C. (2016). Linking and clustering artworks using social tags: Revitalizing crowd-sourced information on cultural collections. Journal of the Association for Information Science & Technology, 67(4), 885–899. https://doi-org.autorpa.lib.nccu.edu.tw/10.1002/asi.23442Chang, Y.H., Chang, C.Y., & Tseng, Y.H. (2010). Trends of Science Education Research: An Automatic Content Analysis. Journal of Science Education and Technology, 19(4), 315-331.Blei, D.M., Ng, A,Y.,& Jordan, M.I(2003). Latent Dirichlet allocation. Journal of MachineLearning Research. Retrieved from : https://dl.acm.org/doi/10.5555/944919.944937.Duoduo, X., Dean, K., Bingenheimer, M., & Bond, F. (2020). Chinese singaporean temples: digital humanities approaches to frequency lists of sponsors. Journal of Digital Archives and Digital Humanities,5, 37-71. doi:10.6853/DADH.202004_(5).0002Chung, E., Miksa, S.,& Hastings, S. K. (2010). A framework of automatic subject term assignment for text categorization: An indexing conception-based approach. Journal of the American Society for Information Science & Technology, 61(4),688–699. https://doi-org.autorpa.lib.nccu.edu.tw/10.1002/asi.21272Garner, S.R.(1995),WEKA: The Waikato Enviroment for Knowledge Analysis. New Zealand Computer Science Research Students Conference, Hamilton, NewZealand.https://www.cs.waikato.ac.nz/~ml/publications/1995/Garner95-WEKA.pdfMühling, M., Meister, M., Korfhage, N., Wehling, J., Hörth, A., Ewerth, R., & Freisleben, B. (2019). Content-based video retrieval in historical collections of the German Broadcasting Archive. International Journal on Digital Libraries, 20(2), 167–183. https://doi-org.autorpa.lib.nccu.edu.tw/10.1007/s00799-018-0236-zTseng, Y.H., & Tsay, M.Y. (2013). Journal clustering of library and information science for subfield delineation using the bibliometric analysis toolkit: CATAR. Scientometrics, 95(2), 503 -528.Tseng, Y.H., Chang, C.Y., Tutwiler, M. S., Lin, M.C., & Barufaldi, J. P. (2013). A scientometric analysis of the effectiveness of Taiwan’s educational research projects. Scientometrics, 95(3), 1141-1166.Tseng, Y.H. (2020). The Feasibility of Automated Topic Analysis: An Empirical Evaluation of Deep Learning Techniques Applied to Skew-Distributed Chinese Text Classification. Journal of Educational Media & Library Science, 57(1), 121-144.Yuan, Y., Gretzel, U., & Tseng, Y.H. (2014). Revealing the Nature of Contemporary Tourism Research: Extracting Common Subject Areas through Bibliographic Coupling. International Journal of Tourism Research, 17(5), 417-431.Yuan, Y. Y., Tseng, Y.H., & Chang, C.Y. (2014). Tourism subfield identification via journal clustering. Annals of Tourism Research, 47, 77-80. zh_TW dc.identifier.doi (DOI) 10.6814/NCCU202201290 en_US