學術產出-Theses

Article View/Open

Publication Export

Google ScholarTM

政大圖書館

Citation Infomation

  • No doi shows Citation Infomation
題名 以深度學習模型自動序列標記客語詞性之研究
A study on part-of-speech sequential tagging with deep learning models for Taiwan Hakka language
作者 吳明宗
Wu, Ming-Tsung
貢獻者 劉吉軒
Liu, Jyi-Shane
吳明宗
Wu, Ming-Tsung
關鍵詞 深度學習
自然語言處理
中文詞性標記
預訓練模型
Simple RNN
LSTM
transformer
Bert
deep learning
natural language processing
Chinese part-of-speech tagging
pre-training model
Simple RNN
LSTM
transformer
Bert
日期 2023
上傳時間 1-Sep-2023 15:39:01 (UTC+8)
摘要 目前客語語料的蒐集非常困難,如何利用少許的客語語料,建立出一個詞性對應辭典,進而快速而準確的標記客語詞性,就是一個重要的議題。目前深度學習相關的模型都有此相關的應用,所以透過實際將標記過的資料處理成深度學習相關模型可以讀取的格式後,進行訓練再比較各模型的預測詞性結果,本文先後使用了Simple RNN、Bi LSTM、Bert模型各別訓練更預測後,將結果比較分析,抉擇出較好的詞性預測方法。
針對Transformer的Bert部分,由於中研院有提供了中文的預訓練模型(Bert-base-Chinese-Pos),本文則是使用了Finetune方式並將客語字彙加入訓練。實驗結果SimpleRNN準確性約為91%、BiLSTM準確性約為93%及Bert準確性約為93%。
The collection of Hakka language corpus is currently very difficult. How to use a small amount of Hakka language data to establish a part-of-speech dictionary and quickly and accurately tag the parts of speech is an important issue. Deep learning models have been widely applied in this regard. By processing the data into formats readable by deep learning models, different models such as Simple RNN, LSTM, and Transformer were trained and their prediction results were compared and analyzed. Regarding the Transformer model with the Bert component, the study utilized the pre-trained Chinese Bert model (Bert-base-chinese-pos) provided by the Institute of Information Science, Academia Sinica, and fine-tuned it by incorporating Hakka vocabulary during training. The experimental results showed that Simple RNN achieved an accuracy of 91%, BiLSTM achieved an accuracy of 93%, and Bert achieved an accuracy of 93%.
參考文獻 [1]維基百科自然語言處理,2020-12-19
https://zh.wikipedia.org/wiki/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%
E5%A4%84%E7%90%86
[2]《結構句法基礎》(1959年),L.Tesniere。
[3]詞向量,2019-09-05
https://ithelp.ithome.com.tw/articles/10213711
[4]轉換-生成語法
https://www.newton.com.tw/wiki/轉換生成語法
[5]畫句法樹的線上服務,2020-09-26
https://hambao.pixnet.net/blog/post/17704163
[6] 分佈式語義 Distributional Semantics
https://academic-accelerator.com/encyclopedia/zh/distributional-semantics
[7] word2vec的學習心得及glove介紹,2018,gentelyang
https://www.twblogs.net/a/5b8b200e2b717718832d7a0e
[8] 客家話怎麼說?基礎客語自學教學與學習筆記(臺灣客家語四縣腔為主)
https://www.wpchen.net/zh/posts/hakka-language#11_%E5%AE%A2%E8%AA%9E%E7%9A%84%E4%BD%BF%E7%94%A8%E7%8F%BE%E6%B3%81
[9] 斷開中文的鎖鍊!自然語言處理 (NLP)是什麼?,
https://aiacademy.tw/what-is-nlp-natural-language-processing/
[10]自然語言處理-用人工智慧看懂中文,鄭捷,2018.01
[11] 客語文句轉語音及語音辨認之研究,陳信宏,96 年 8 月 1 日至 99 年 7 月 31 日。
[12] 中文轉客文文轉音系統中的客語斷詞處理之研究,黃豐隆、余明興、林昕緯、林義証,2014。
[13] 臺灣客語語料庫,https://corpus.hakka.gov.tw/#/
[14] 第一個開放的客語斷詞工具(jieba 的演算法替換其詞庫及 HMM 機率表所製作的客家語斷詞程式), https://github.com/ldkrsi/jieba-Hakka
[15]獨熱編碼,2019-09-18
https://ithelp.ithome.com.tw/articles/10216967
[16] [常見的自然語言處理技術] 文本相似度(I): Word Embeddings,2021-09-21,https://ithelp.ithome.com.tw/articles/10268404
[17]CNN(卷積神經網絡)、RNN(循環神經網絡)、DNN(深度神經網絡)的內部網絡結構的區別,201-02-23
https://kknews.cc/zh-tw/news/6n84mm3.html
[18]深度神經網絡(DNN),2017-10-12
https://zhuanlan.zhihu.com/p/29815081
[19]Yann LeCun, Yoshua Bengio & Geoffrey Hinton(2015).Deep learning.Nature 521(7553):436-44
[20] Understanding LSTM Networks,2015-08-27
https://colah.github.io/posts/2015-08-Understanding-LSTMs/
[21]Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, vol. 9, no. 8, 1735-1780.
[22]Vaswani, Ashish, et al. "Attention is all you need." Advances in Neural Information Processing Systems . 2017.
https://arxiv.org/pdf/1706.03762.pdf
[23] Bidirectional Encoder Representations from Transformers,Bert,https://zh.wikipedia.org/zh-hant/BERT
[24] [Notes] BERT / BERT 架構理解,Haren Lin,2021。
https://haren.medium.com/paper-notes-bert-bert-%E6%9E%B6%E6%A7%8B%E7%90%86%E8%A7%A3-31c014d7dd63
[25]《臺灣客語語料庫》,客家委員會委託國立政治大學團隊建置之國家型語料庫,https://corpus.hakka.gov.tw/#/about-us
[26] Toxic Language Detection in Social Media for Brazilian Portuguese,João A. Leite, Diego F. Silva, Kalina Bontcheva, Carolina Scarton,2020,P.4。
[26] Self-Supervised Learning,李宏毅,2021。
https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/bert_v8.pdf
[27] 李宏毅_ELMO, Bert, GPT,shaoeChen,2021。
https://hackmd.io/@shaoeChen/Bky0Cnx7L#ELMO-Bert-GPT
[28]【機器學習】交叉驗證 Cross-Validation,2019,Jason Chen
https://jason-chen-1992.weebly.com/home/-cross-validation
[29] Open AI,2023,Wiki
https://zh.wikipedia.org/zh-tw/OpenAI
[30] ChatGPT 與 LLM 的技術原理剖析、發展歷程,2023,Kordan Ou
https://hitripod.com/chatgpt-technical-introduction-history/
[31] 大型語言模型(large language model,LLM),2023,Wiki
https://zh.wikipedia.org/zh-tw/%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B
[32] 鍾屏蘭、江俊龍,學術研究基礎建置暨客家文化研究計畫,屏東教育大學客家文化所計畫成果報告書,2009。
描述 碩士
國立政治大學
資訊科學系碩士在職專班
105971011
資料來源 http://thesis.lib.nccu.edu.tw/record/#G0105971011
資料類型 thesis
dc.contributor.advisor 劉吉軒zh_TW
dc.contributor.advisor Liu, Jyi-Shaneen_US
dc.contributor.author (Authors) 吳明宗zh_TW
dc.contributor.author (Authors) Wu, Ming-Tsungen_US
dc.creator (作者) 吳明宗zh_TW
dc.creator (作者) Wu, Ming-Tsungen_US
dc.date (日期) 2023en_US
dc.date.accessioned 1-Sep-2023 15:39:01 (UTC+8)-
dc.date.available 1-Sep-2023 15:39:01 (UTC+8)-
dc.date.issued (上傳時間) 1-Sep-2023 15:39:01 (UTC+8)-
dc.identifier (Other Identifiers) G0105971011en_US
dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/147093-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 資訊科學系碩士在職專班zh_TW
dc.description (描述) 105971011zh_TW
dc.description.abstract (摘要) 目前客語語料的蒐集非常困難,如何利用少許的客語語料,建立出一個詞性對應辭典,進而快速而準確的標記客語詞性,就是一個重要的議題。目前深度學習相關的模型都有此相關的應用,所以透過實際將標記過的資料處理成深度學習相關模型可以讀取的格式後,進行訓練再比較各模型的預測詞性結果,本文先後使用了Simple RNN、Bi LSTM、Bert模型各別訓練更預測後,將結果比較分析,抉擇出較好的詞性預測方法。
針對Transformer的Bert部分,由於中研院有提供了中文的預訓練模型(Bert-base-Chinese-Pos),本文則是使用了Finetune方式並將客語字彙加入訓練。實驗結果SimpleRNN準確性約為91%、BiLSTM準確性約為93%及Bert準確性約為93%。
zh_TW
dc.description.abstract (摘要) The collection of Hakka language corpus is currently very difficult. How to use a small amount of Hakka language data to establish a part-of-speech dictionary and quickly and accurately tag the parts of speech is an important issue. Deep learning models have been widely applied in this regard. By processing the data into formats readable by deep learning models, different models such as Simple RNN, LSTM, and Transformer were trained and their prediction results were compared and analyzed. Regarding the Transformer model with the Bert component, the study utilized the pre-trained Chinese Bert model (Bert-base-chinese-pos) provided by the Institute of Information Science, Academia Sinica, and fine-tuned it by incorporating Hakka vocabulary during training. The experimental results showed that Simple RNN achieved an accuracy of 91%, BiLSTM achieved an accuracy of 93%, and Bert achieved an accuracy of 93%.en_US
dc.description.tableofcontents 第一章 緒論 1
1.1研究背景及動機 1
1.2研究問題及目的 1
1.3研究貢獻 2
1.4論文架構 2
第二章 文獻探討 3
2.1 語言學 3
2.1.1 語句句型分析 3
2.1.2 華語句型 4
2.1.3 客語句型 4
2.2 自然語言處理 5
2.2.1斷詞介紹 5
2.2.2詞性標註(Part-of-speech tagging) 6
2.3 語言特徵工程 7
2.3.1 詞袋 (Bag-of-words)模型 7
2.3.2 TF-IDF 8
2.3.3 詞向量表示(Word Representation) 8
2.4 深度學習(Deep Learning) 9
2.4.1深度神經網路(Deep Neural Network,DNN) 9
2.4.2遞迴神經網路(Recurrent neural network,RNN) 9
2.4.3長短期記憶網路(Long Short-Term Memory,LSTM) 10
2.4.4 基於變換器的雙向編碼器表示技術(Bidirectional Encoder Representations from Transformers,Bert) 11
2.5 資料集來源 13
第三章 自動詞性標註技術框架 14
3.1 系統架構流程 14
3.2 客語語料初步處理及斷句定義 14
3.3資料前處理 23
3.3.1第一階段資料前處理 23
3.3.2第二階段資料前處理 24
3.3.3第三階段資料前處理 24
3.3.4 Bert資料前處理 25
3.4 分類模型選擇 26
3.4.1 Simple RNN模型 26
3.4.2 Bi-LSTM模型 27
3.4.3 Bert 模型 27
3.5模型建立及預測 28
3.6模型評估 29
第四章 實驗設計與結果討論 31
4.1 實驗設計 31
4.1.1 實驗資料集 31
4.1.2 資料集句子長度統計 31
4.1.3 資料集句子詞性相關統計 34
4.2實驗結果分析 40
4.2.1 Simple RNN 分析結果 40
4.2.2 Bi-LSTM 分析結果 45
4.2.3 Bert模型 分析結果 50
4.2.4 結果驗證方法 55
4.2.5 模型結果綜合比較分析 58
4.3 研究限制 60
4.3.1 過擬合 60
4.3.2 字彙增加 62
4.3.3 錯誤分析 62
第五章 結論與未來研究方向 78
5.1 結論 78
5.2 研究方法的延伸應用 79
第六章 參考文獻 81
附錄A 臺灣客語語料庫斷詞標記編碼表 84
附錄B 臺灣客語語料庫轉寫標記表 87
zh_TW
dc.format.extent 7259935 bytes-
dc.format.mimetype application/pdf-
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0105971011en_US
dc.subject (關鍵詞) 深度學習zh_TW
dc.subject (關鍵詞) 自然語言處理zh_TW
dc.subject (關鍵詞) 中文詞性標記zh_TW
dc.subject (關鍵詞) 預訓練模型zh_TW
dc.subject (關鍵詞) Simple RNNzh_TW
dc.subject (關鍵詞) LSTMzh_TW
dc.subject (關鍵詞) transformerzh_TW
dc.subject (關鍵詞) Bertzh_TW
dc.subject (關鍵詞) deep learningen_US
dc.subject (關鍵詞) natural language processingen_US
dc.subject (關鍵詞) Chinese part-of-speech taggingen_US
dc.subject (關鍵詞) pre-training modelen_US
dc.subject (關鍵詞) Simple RNNen_US
dc.subject (關鍵詞) LSTMen_US
dc.subject (關鍵詞) transformeren_US
dc.subject (關鍵詞) Berten_US
dc.title (題名) 以深度學習模型自動序列標記客語詞性之研究zh_TW
dc.title (題名) A study on part-of-speech sequential tagging with deep learning models for Taiwan Hakka languageen_US
dc.type (資料類型) thesisen_US
dc.relation.reference (參考文獻) [1]維基百科自然語言處理,2020-12-19
https://zh.wikipedia.org/wiki/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%
E5%A4%84%E7%90%86
[2]《結構句法基礎》(1959年),L.Tesniere。
[3]詞向量,2019-09-05
https://ithelp.ithome.com.tw/articles/10213711
[4]轉換-生成語法
https://www.newton.com.tw/wiki/轉換生成語法
[5]畫句法樹的線上服務,2020-09-26
https://hambao.pixnet.net/blog/post/17704163
[6] 分佈式語義 Distributional Semantics
https://academic-accelerator.com/encyclopedia/zh/distributional-semantics
[7] word2vec的學習心得及glove介紹,2018,gentelyang
https://www.twblogs.net/a/5b8b200e2b717718832d7a0e
[8] 客家話怎麼說?基礎客語自學教學與學習筆記(臺灣客家語四縣腔為主)
https://www.wpchen.net/zh/posts/hakka-language#11_%E5%AE%A2%E8%AA%9E%E7%9A%84%E4%BD%BF%E7%94%A8%E7%8F%BE%E6%B3%81
[9] 斷開中文的鎖鍊!自然語言處理 (NLP)是什麼?,
https://aiacademy.tw/what-is-nlp-natural-language-processing/
[10]自然語言處理-用人工智慧看懂中文,鄭捷,2018.01
[11] 客語文句轉語音及語音辨認之研究,陳信宏,96 年 8 月 1 日至 99 年 7 月 31 日。
[12] 中文轉客文文轉音系統中的客語斷詞處理之研究,黃豐隆、余明興、林昕緯、林義証,2014。
[13] 臺灣客語語料庫,https://corpus.hakka.gov.tw/#/
[14] 第一個開放的客語斷詞工具(jieba 的演算法替換其詞庫及 HMM 機率表所製作的客家語斷詞程式), https://github.com/ldkrsi/jieba-Hakka
[15]獨熱編碼,2019-09-18
https://ithelp.ithome.com.tw/articles/10216967
[16] [常見的自然語言處理技術] 文本相似度(I): Word Embeddings,2021-09-21,https://ithelp.ithome.com.tw/articles/10268404
[17]CNN(卷積神經網絡)、RNN(循環神經網絡)、DNN(深度神經網絡)的內部網絡結構的區別,201-02-23
https://kknews.cc/zh-tw/news/6n84mm3.html
[18]深度神經網絡(DNN),2017-10-12
https://zhuanlan.zhihu.com/p/29815081
[19]Yann LeCun, Yoshua Bengio & Geoffrey Hinton(2015).Deep learning.Nature 521(7553):436-44
[20] Understanding LSTM Networks,2015-08-27
https://colah.github.io/posts/2015-08-Understanding-LSTMs/
[21]Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, vol. 9, no. 8, 1735-1780.
[22]Vaswani, Ashish, et al. "Attention is all you need." Advances in Neural Information Processing Systems . 2017.
https://arxiv.org/pdf/1706.03762.pdf
[23] Bidirectional Encoder Representations from Transformers,Bert,https://zh.wikipedia.org/zh-hant/BERT
[24] [Notes] BERT / BERT 架構理解,Haren Lin,2021。
https://haren.medium.com/paper-notes-bert-bert-%E6%9E%B6%E6%A7%8B%E7%90%86%E8%A7%A3-31c014d7dd63
[25]《臺灣客語語料庫》,客家委員會委託國立政治大學團隊建置之國家型語料庫,https://corpus.hakka.gov.tw/#/about-us
[26] Toxic Language Detection in Social Media for Brazilian Portuguese,João A. Leite, Diego F. Silva, Kalina Bontcheva, Carolina Scarton,2020,P.4。
[26] Self-Supervised Learning,李宏毅,2021。
https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/bert_v8.pdf
[27] 李宏毅_ELMO, Bert, GPT,shaoeChen,2021。
https://hackmd.io/@shaoeChen/Bky0Cnx7L#ELMO-Bert-GPT
[28]【機器學習】交叉驗證 Cross-Validation,2019,Jason Chen
https://jason-chen-1992.weebly.com/home/-cross-validation
[29] Open AI,2023,Wiki
https://zh.wikipedia.org/zh-tw/OpenAI
[30] ChatGPT 與 LLM 的技術原理剖析、發展歷程,2023,Kordan Ou
https://hitripod.com/chatgpt-technical-introduction-history/
[31] 大型語言模型(large language model,LLM),2023,Wiki
https://zh.wikipedia.org/zh-tw/%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B
[32] 鍾屏蘭、江俊龍,學術研究基礎建置暨客家文化研究計畫,屏東教育大學客家文化所計畫成果報告書,2009。
zh_TW