碩士畢業論文 Dissertation
應用機器學習與深度學習方法在網路傷害性新聞與惡意評論偵測辨識上之研究
完成於 2021年6月

※ 因未正式投稿與發表,故無法放置相關檔案
- 主要為運用機器與深度學習方法於自然語言處理(NLP)問題上。
- 針對文字資料斷詞後進行特徵擷取工程,取得情緒、詞向量特徵。
- 利用機器學習方法建立分類器,以及使用BERT架構建模。
- 解釋與分析特徵內容與模型成效,
例:詞袋分布、特徵選擇、混淆矩陣。
使用套件工具與程式語言:
- (特徵工程) NLTK、tidytext、setimentr、gensim
- (BERT建模) SimpleTransformer
- (分類器建模) Scikit-Learn
- (資料分析) Pandas、matplotlib
摘要
現今資訊傳播快速的時代下,大眾每日接收成千上萬的媒體資訊,這些資訊大多來自於網路新聞媒體、網路社群與評論。許多新聞媒體為了迅速抓住讀者目光與點擊率,使用聳動、色情、暴力等帶有強烈字眼於新聞文章中,或因媒體偏見及立場,而發表出具有攻擊或傷害目標對象的文章;而網路社群與評論在近年來的自由快速發展,不論是個人意見表達、或是培養網軍刻意經營風向的理由,也都導致惡意評論的發生更為氾濫。惡意的傷害性新聞與惡意評論一樣,兩者皆是蓄意使用具傷害性意圖的語言描述來造成接收者的立場與情緒波動,在報導文章或評論內容的負面傷害成分越高時,也越容易對接收者和整體社會造成負面的情緒負擔與傷害。因此,本論文提出一個探討使用機器學習與深度學習方法在傷害性新聞與惡意評論文本上之研究,提出並探討能有效預測傷害性新聞與惡意評論的方法,並針對機器與深度學習方法使用於傷害性新聞與惡意評論之間的差異進行討論。
最終本研究提出的方法在整體傷害性文本的平均辨識準確率為81%,惡意評論文本辨識準確率達到94%,較複雜的傷害性新聞文本的辨識準確率則有68%。另外,本研究也利用特徵選擇方法與詞袋模型特徵,針對傷害性新聞、惡意評論於傷害性內容上的特徵集合與關鍵字進行探討與分析。