學術產出-國科會研究計畫

文章檢視/開啟

書目匯出

Google ScholarTM

政大圖書館

引文資訊

TAIR相關學術產出

題名 一個能兼具相似度與差異度計算以及再學習機制的有效率電子文件辨識方法:以色情及醫學網頁辨識為例
作者 許志堅
貢獻者 傳播學院
關鍵詞 文件分類;資料探勘;決策樹;色情網頁過濾
Filtering Porn Sites; Decision Tree; Data Mining; Document Classification
日期 2014
上傳時間 25-十二月-2017 15:02:50 (UTC+8)
摘要 本研究提出一個系統化而且有效的的電子文件辨識方法,除了計算相似性,也能分析其差異性以避免誤判。我們以色情網頁與醫學相關網頁為例,利用機器學習方法當中的決策樹資料探勘演算法來進行不同類型網頁所擁有的特徵屬性的知識學習,尋求其關聯式規則作為未知文件之判斷。並且具備以下特色: 一、色情資訊與醫學資訊的個別知識與混合知識的關聯式規則分析:我們分析色情資訊以及醫學相關資訊可供比對與過濾的特徵,分別設計三種不同類型資料進行決策樹計算:(1)色情網頁決策樹分析:針對色情網頁的特徵進行訓練與計算,尋求單獨過濾色情網頁時的關聯式規則;(2)醫學網頁決策樹分析:針對醫學網頁的特徵進行訓練與計算,尋求單獨辨識醫學網頁時的關聯式規則;(3)色情網頁與醫學網頁混合資料決策樹分析:針對混和色情、醫學資訊之網頁特徵進行訓練與計算,找出在二者資訊可能同時並存的情形下,如何辨識雙方的關聯式規則。除了希望提高對於色情網頁的過濾能力之外,也能正確辨識醫學相關網頁,避免產生誤判與混淆。 二、再學習機制:色情網頁內容可能隨著時間或是當時熱門的事件而有變化、不斷推陳出新,而造成過濾上困難。我們利用機器學習的方式設計一套“再學習”機制,以獲取色情文件特徵值的動態關鍵字變化。 三、提出兼具效率與正確性的色情網頁與醫學(含性教育)網頁過濾機制:本研究以特徵值擷取為基礎,避免對圖片進行費時的分析、同時避免耗時的語意分析計算;運用ID3演算法來建構一個系統化的具備效率的過濾機制,並且獲得較高的過濾準確性。
In this study, we apply decision tree data mining technique to basic attributes of porn sites to analyze the association rules for indentifying an unknown web site to be either legitimate or porny. We focus on web’s context and apply decision tree data mining technique to analyze the association rules for medical pages and pornographic pages. Then we propose a systematic method to accurately identify an unknown web to be either porny or legitimate. There are three major parts in this project, which are described as follows: (I)To compute associative rules for medical page and pornographic page respectively: We design three kinds of rule database for the computation of decision tree:(1) Database of pornographic page; (2) Database of medical page; (3) Database of mix of medical page and pornographic page. (II)The re-learning mechanism: Since the keywords of pornographic page are constantly changing, we construct a re-learning mechanism of recording new pornographic keywords. (III) An effective filtering mechanism with outstanding ability of recognizing porn sites: Without handling pictures and semantic analysis, we propose our effective filtering method by applying associative rules and keywords only.
關聯 執行起迄:2014/08/01~2015/07/31
103-2410-H-004-112
資料類型 report
dc.contributor 傳播學院zh_Tw
dc.creator (作者) 許志堅zh_TW
dc.date (日期) 2014en_US
dc.date.accessioned 25-十二月-2017 15:02:50 (UTC+8)-
dc.date.available 25-十二月-2017 15:02:50 (UTC+8)-
dc.date.issued (上傳時間) 25-十二月-2017 15:02:50 (UTC+8)-
dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/115375-
dc.description.abstract (摘要) 本研究提出一個系統化而且有效的的電子文件辨識方法,除了計算相似性,也能分析其差異性以避免誤判。我們以色情網頁與醫學相關網頁為例,利用機器學習方法當中的決策樹資料探勘演算法來進行不同類型網頁所擁有的特徵屬性的知識學習,尋求其關聯式規則作為未知文件之判斷。並且具備以下特色: 一、色情資訊與醫學資訊的個別知識與混合知識的關聯式規則分析:我們分析色情資訊以及醫學相關資訊可供比對與過濾的特徵,分別設計三種不同類型資料進行決策樹計算:(1)色情網頁決策樹分析:針對色情網頁的特徵進行訓練與計算,尋求單獨過濾色情網頁時的關聯式規則;(2)醫學網頁決策樹分析:針對醫學網頁的特徵進行訓練與計算,尋求單獨辨識醫學網頁時的關聯式規則;(3)色情網頁與醫學網頁混合資料決策樹分析:針對混和色情、醫學資訊之網頁特徵進行訓練與計算,找出在二者資訊可能同時並存的情形下,如何辨識雙方的關聯式規則。除了希望提高對於色情網頁的過濾能力之外,也能正確辨識醫學相關網頁,避免產生誤判與混淆。 二、再學習機制:色情網頁內容可能隨著時間或是當時熱門的事件而有變化、不斷推陳出新,而造成過濾上困難。我們利用機器學習的方式設計一套“再學習”機制,以獲取色情文件特徵值的動態關鍵字變化。 三、提出兼具效率與正確性的色情網頁與醫學(含性教育)網頁過濾機制:本研究以特徵值擷取為基礎,避免對圖片進行費時的分析、同時避免耗時的語意分析計算;運用ID3演算法來建構一個系統化的具備效率的過濾機制,並且獲得較高的過濾準確性。zh_TW
dc.description.abstract (摘要) In this study, we apply decision tree data mining technique to basic attributes of porn sites to analyze the association rules for indentifying an unknown web site to be either legitimate or porny. We focus on web’s context and apply decision tree data mining technique to analyze the association rules for medical pages and pornographic pages. Then we propose a systematic method to accurately identify an unknown web to be either porny or legitimate. There are three major parts in this project, which are described as follows: (I)To compute associative rules for medical page and pornographic page respectively: We design three kinds of rule database for the computation of decision tree:(1) Database of pornographic page; (2) Database of medical page; (3) Database of mix of medical page and pornographic page. (II)The re-learning mechanism: Since the keywords of pornographic page are constantly changing, we construct a re-learning mechanism of recording new pornographic keywords. (III) An effective filtering mechanism with outstanding ability of recognizing porn sites: Without handling pictures and semantic analysis, we propose our effective filtering method by applying associative rules and keywords only.en_US
dc.relation (關聯) 執行起迄:2014/08/01~2015/07/31zh_TW
dc.relation (關聯) 103-2410-H-004-112zh_TW
dc.subject (關鍵詞) 文件分類;資料探勘;決策樹;色情網頁過濾zh_TW
dc.subject (關鍵詞) Filtering Porn Sites; Decision Tree; Data Mining; Document Classificationen_US
dc.title (題名) 一個能兼具相似度與差異度計算以及再學習機制的有效率電子文件辨識方法:以色情及醫學網頁辨識為例_TW
dc.type (資料類型) report-