目錄
摘要 I
Abstract III
1緒論 1
1.1研究背景與研究意義 1
1.1.1研究背景 1
1.1.2研究意義 2
1.2國內外文獻綜述 2
1.3研究目標與研究內容 5
2文本挖掘與情感分析理論 7
2.1文本挖掘 7
2.2文本預處理 7
2.2.1文本分詞 8
2.2.2去停用詞和詞性標注 8
2.3文本特征選取 9
2.3.1TF-IDF 方法 9
2.3.2Word2vec 模型 10
2.3.3TF-IDF 加權 Word2vec 模型 12
2.4文本情感分析 13
2.4.1基于詞典的方法 13
2.4.2基于機器學習的方法 13
2.5LDA 主題模型 15
3文本獲取與預處理 19
3.1評論文本的獲取 19
3.2數據預處理 20
3.2.1數據清洗 20
3.2.1文本分詞和詞性標注 21
3.2.2去停用詞 22
3.2.3詞頻統計 23
V
4文本情感傾向分類 25
4.1有標簽數據的情感分類 25
4.1.1基于詞典的情感分類 25
4.1.2基于機器學習的情感分類 27
4.2無標簽數據的情感分類 34
4.2.1情感詞典預測結果 34
4.2.2隨機森林分類器預測結果 35
4.2.3支持向量機分類器預測結果 36
4.2.4邏輯回歸分類器預測結果 37
4.3本章小結 39
5文本特征分析 41
5.1詞云圖可視化分析 41
5.2LDA 主題模型分析 42
5.2.1最優主題數確定 43
522正面評價LDA主題分析 47
523負面評價LDA主題分析 48
5.2.4無標簽數據LDA主題聚類 48
5.3本章小結 51
6總結與展望 53
6.1總結及建議 53
6.2不足與展望 55
致謝 57
參考文獻 59
個人簡歷、在學期間發表的學術論文及取得的研究成果 63
VI
1緒論
1.1研究背景與研究意義
1.1.1研究背景
隨著互聯網的普及和移動支付的快速發展,網上購物成為許多人生活中不可或缺 的一部分。許多電商平臺,例如淘寶,京東,拼多多,亞馬遜等等,都提供了非常便 捷的一站式服務,人們足不出戶就能買到心儀的商品。網絡購物不僅價格透明,物流 迅速,更能對購買的商品發表評論,使消費者掌握更多的商品信息。電商評論系統不 僅能對用戶決策提供幫助,同時也鼓勵了更多的消費者參與到商品評價中來。
據國家統計局電子商務交易平臺調查結果表明,從2013 年至2021 年這幾年時間 里,整個中國網絡購物零售總額達到了約12 萬億人民幣,同比增長約11個百分點, 已經連續八年位居世界網絡購物總額榜一。調查數據表明,在這 12萬億中,約 10 萬億為實物商品,同比增長15個百分點,占到了社會消費品零售總額的比重為24.9%, 比上年提高4.2個百分點[]。另外,根據CNNIC《中國互聯網絡發展狀況統計報告》 顯示,截至到2020年 12 月,中國網絡購物用戶規模達7.82 億,較2020年 3月來說, 網絡購物金額增長 7215 萬,占網民整體的 79.1%,互聯網普及率達 70.4%,較 2020 年 3月提升5.9個百分點[]。越來越多的消費者正參與到電商交易中來,他們一邊購 物,一邊像以往一樣向別人分享購物心得,只不過這一次是發表在網上,有成百上千 的人可以看到。Diana和Maria[3]在他們的《關于在線評論和評級對網上預定酒店的影 響》的文章中說到,人們在看到其他人的評論被很多人關注并參考的時候,由于自身 也想被關注的欲望會激發出更多的評論,網上評論系統因此很可能會更大程度的釋放 人們分享和表達的愿望,這意味著評論會激發出更多的評論,而電商的各個參與者需 要做的則是很好地挖掘海量評論背后的信息。對電商平臺來說,可以根據文本信息更 好地調整產品排布,產品關鍵詞鎖定,廣告設計等等;廠商亦可以根據大量的用戶評 論的傾向性改進產品,提升用戶滿意度;對用戶而言,則可以在購買之前就獲取到更 多的產品信息,減少信息不對稱進而有效決策。學術研究方面,文本情感傾向性分析 和消費者評論文本特征分析逐漸成為自然語言處理(NLP)領域的主要研究方向之一, 越來越多的學者從微博、新聞、電商、酒店等各個平臺積累的文本評論開始著手研究, 運用多種理論和方法試圖挖掘海量文本中的關鍵信息。文本情感分析也逐漸成為探索 文本背后蘊含信息的第一步,許多學者從挖掘文本情感開始,繼續了更多深入的研究。
1.1.2研究意義
比起各個網上零售商投入大量人力物力財力展示給用戶的商品詳情頁,用戶似乎 對商品的評論更感興趣,研究發現絕大多數用戶在網上購物成交之前都會查看自己要 購買產品的評價信息,從而做出決策。基于電商在線評論文本在用戶購買環節的重要 性,且由于海量評論文本的復雜性與主觀性等因素,逐條查看篩選評論的方法耗時耗 力。為了快速了解消費者的使用感受,本文提出一種基于情感詞典和機器學習結合的 方法來挖掘文本情感傾向信息,并且研究大量評論中的產品特征和消費者偏好,大量 減少人力工作,對企業經營分析和產品銷售提供支持。真實有效的評論能夠最大程度 地吸引購買,探究最真實的消費者市場,了解消費者購買產品時最關注的因素,這對 企業精準化營銷,減少資源浪費,提升顧客滿意度具有重要意義。
理論意義方面,本文基于有標簽的評論數據和無標簽的評論數據分別運用了情感 詞典,隨機森林,支持向量機和邏輯回歸等四種分類方法對文本情感進行分類并做了 對比分析,利用主題詞分析模型提取高頻出現的產品特征詞以及消費者在給出好評或 差評時最關注的產品特征,進而對商品的優勢和劣勢進行討論。不僅豐富了文本情感 分析的方法,也為市場營銷和線上產品宣傳部門做決策分析時提供參考。本文所用的 分析方法相比單一模型能夠更直觀和多元地判斷產品評論的情感傾向,提高了海量評 論的利用率,能夠更好地預測產品在市場中的聲譽變化。
現實意義方面,電商平臺可以參考本文提出的關于有標簽和無標簽數據的情感分 類方法以及主題抽取模型結果有的放矢,在了解消費者偏好之后對平臺上各個品牌的 投放資源以及網頁排布進行合理安排。對于產品制造商來說,本文的研究可以用來分 析特定產品在市場上的聲譽以及發展前景,了解消費者最關注的產品的特征、賣點, 還能對廣告的精準投放提供幫助。對于電商平臺的用戶來說,本文可以幫助他們掌握 更多產品信息,包括產品的優勢和劣勢,消費者可以根據自己的需求結合產品特征決 定是否購買,減少交易過程中信息不對稱帶來的損失。如此,不僅使平臺和企業更加 了解用戶,用戶也對企業更加了解,不僅節約了成本,提升了顧客滿意度,也在一定 程度上降低了售后投訴機率,樹立了優質的產品形象,從而刺激出更多的消費。因此, 本文的研究具有重要的理論意義和實際研究價值。
1.2 國內外文獻綜述
國內外學者對海量評論的情感分析主要基于兩種方法,一是基于詞典的方法,二 是基于統計的方法,其中,基于詞典的方法也叫做基于語義傾向的方法,其主要思想 是對文本進行分詞后,利用詞典對分好的詞進行匹配,詞典可以直接從網絡上獲取也 可以采用現存詞典與自己補充的詞典相結合[4]。然后對出現在詞典中的詞賦予權重并 2 計算,最后獲得整個句子的情感傾向;基于統計的方法也叫機器學習的方法,其主要 是通過文本特征提取方法獲得文本對應的句子向量,并用這些向量訓練高效的機器學 習分類器從而實現文本基于情感的分類。
本文運用了情感詞典和三種機器學習方法對文本情感進行對比研究。 基于情感詞典方法的文本情感傾向性分析,主要對象集中在微博評論,新聞,網 絡輿情以及其他網絡媒體的大數據評論文本上,以研究微博的中短評論文本居多,結 合情感詞典創建和運用算法模型對在線評論文本進行挖掘和研究。目前國內學者的研 究主要包括:陳曉東[5]基于情感詞典的方法對微博評論展開了研究,他整理了情感詞 典的詞匯并且通過微博文本中的否定詞和帶有強烈情感的句子以及微博表情符號等 元素對整條微博消息作加權的方法來計算微博文本的情感傾向,實現了一個面向中文 微博的情感傾向分類系統。易劍波[4]討論了電商評論系統的優缺點,并對基于詞典方 法的情感分析以及系統實現做了詳細闡述,提出了新的情感值計算以及判定情感傾向 的方法,并詳細介紹了該方法的系統實現,驗證了基于詞典的情感分析方法的可行性 與準確性。魏慧玲[3]則對小米公司的產品評論信息做了挖掘和研究,對基于詞性模板 和句法關系抽取產品特征詞和情感詞對的方法做了探討,基于情感詞典對產品特征進 行情感分類,設計并實現了一個產品評論挖掘系統。丁蔚[7]發現了情感詞典的不足之 處,提出了把情感詞典和機器學習方法結合起來的方法,她以手機評論文本作為研究 對象,先運用詞典方法對文本進行計算,得到文本對應的的情感權值、標準差等結果。 然后再利用機器學習的方法提取的特征,將詞典的計算結果與機器學習的特征相結 合,并構造了幾種機器學習的分類器對提出的方法進行驗證,得出詞典和機器學習結 合的方法得到的情感特征組合分類準確率最高的結論。國外學者關于基于詞典的情感 分析研究較少,Jamilah and Wadee[8]提出了一種基于客戶的推文來衡量客戶對云服務 提供商滿意度的技術,側重于將情緒文本歸類為正面或負面,其將 Twitter 推文分為 了五類,并為此開發了基于字典和模糊推理過程(FIP)的混合方法以便準確識別輸 入文本的情緒,同時使用各種模糊參數來解決情緒分析面臨的挑戰。
基于機器學習方法的文本情感傾向性分析的研究主要集中于采用自然語言處理 技術對情緒文本進行篩選,向量化處理以及采用各種機器學習方法構造分類器,進而 對分類結果作進一步數據可視化處理,或者根據評論文本預測產品聲譽和銷量等等。 目前國內外學者的研究主要包括:ErickKauffmannW]利用通常的定量星級評分,采用 了情緒分析(SA)工具來檢查評論的文本內容,并分類買家的意見;使用自然語言 處理(NLP)技術,包括情緒分析、文本數據挖掘和聚類技術,根據消費者對不同產 品功能的情緒來獲得產品特點排名,從而實現對不同類的客戶推薦不同特點的產品。 Conor Gallagher"]則以逐字反饋的形式分析非結構化客戶情緒與結構化數據之間的 關系,將情緒評分分配給逐字反饋,然后將其歸類為正、負或中性。使用此規范化的
3
情緒評分,將它與相應的評級評分進行比較,調查潛在的業務可能。YaoLiu[15]提出 了一種基于社交媒體UGC (用戶生成的內容)的產品競爭分析方法:基于有監督學 習識別來自 UGC 的競爭產品;特定于域的情緒分析用于量化客戶態度,為企業進行 質量管理和營銷戰略制定提供了重要依據。Noor Farizah Ibrahim[16]使用了組合的文本 分析方法,包括主題建模、情緒分析和網絡分析來分析英國五大在線零售商相關的推 文(Twitter)。得出結論交付、產品和客戶服務是Twitter上討論最多的主題之一, 然后重點介紹了那些收到客戶負面情緒最多的領域,提出可行性建議以幫助企業更好 地了解客戶,提高他們的業務績效。FangLyu[17]通過淘寶平臺上的有機產品評論,采 用情緒分析法將有機產品評價分為正面評價和負面評價。使用隱含狄利克雷分布 (LDA)方法,提取關鍵字,識別銷售有機產品的重要因素,然后對有機產品銷售的 網絡營銷策略提出建議。李德源[18]利用京東電商平臺手機的 4000條評論,提出了三 元組的方法提取特征詞,并將提取到的特征詞向量化與SVM模型相結合最終構建了 PROST 模型,實現了對消費者最關注的商品特征和其相應情感傾向的提取。張芷欣[18] 提取了天貓平臺上6個品牌掃地機器人的數據,利用Python軟件對數據進行處理, 并把文本評論數據分為積極、中性以及負面三大部分,將其中的積極和負面評論進行 LDA 主題模型分析,提取相對應的主題以及高頻特征詞,從而對產品進行評價。高 陽[20]提出了一種基于Word2vec與TF-IDF和情感詞加權的Word2vec++模型來對文本 進行向量化,并基于酒店評論進行了實證分析,驗證了 Word2vec++模型的有效性。 李明[21]提出了以點互信息結合機器學習分類器的方法來對商品評論進行情感分析,實 現方式是利用卡方檢驗方法來對文本的特征進行提取,該方法試圖提供一種更加細粒 度的用戶喜好研究方法,最終得出結論支持向量機結合卡方檢驗的分類效果最好。陳 俊宇[21]以京東商城某品牌電腦評論數據為研究對象,用構建詞典的方法獲得的預測標 簽作為原始分類標簽,結合機器學習的方法構建了 SVM模型、K近鄰以及樸素貝葉 斯三種分類器做有監督的文本分類。通過三種分類效果評價指標綜合評價得到基于支 持向量機的分類效果最好的結論。另外,陳還對爬取的數據進行了文本特征分析,利 用詞云圖初步分析,再利用LDA主題模型找出了正面評論和負面評論的主題詞并對 產品提出了可行性建議。張謙[23]對微博短文本分類提出了基于 Word2vec 與 TF-IDF 加權的文本向量化方法,比較了基于Word2vec,基于TF-IDF和基于TF-IDF加權的 Word2vec 模型在支持向量機上的微博文本分類效果,得到了基于 TF-IDF 加權的 Word2vec 模型提取的特征向量構造的支持向量機分類器分類效果最好的結論。
從國內外關于文本挖掘的應用研究可以發現,基于情感詞典分析方法的文本情感 挖掘或傾向性分析最重要的是情感詞典的構建和情感計算方法的實現,情感詞典所涵 蓋的詞匯越全面,匹配度越高,所獲得的每一個評論文本的情感傾向性也越明確。但 是沒有與樣本完全匹配的情感詞典,此時往往需要手工的標注,增加的詞語的情感得
4
分也需要斟酌給出,然后根據一定的情感計算方法得出整條評論的情感得分。而基于 機器學習的方法雖然不用手工標注,但往往需要已經獲得分類標簽的文本進而評估機 器學習分類器的準度,但是很多時候我們獲得的樣本都是沒有分類標簽的數據,對無 標簽的文本數據的研究往往是直接利用機器學習做無監督訓練,或使用基于深度學習 的方法,這種方法雖然快捷,但沒有數據預測結果的對比。因此,本文選擇采用情感 詞典和構建三種機器學習分類器結合的方法對文本情感進行研究,由于機器學習方法 中比較重要的一步是特征選取,本文因此采用了三種不同的特征提取方法來研究提取 的不同特征向量對機器學習分類器的影響。然后對有標簽的文本數據和無標簽的文本 數據分別做了情感傾向分析,并給出了無標簽數據情感傾向的預測方法,為無標簽數 據的情感傾向研究提供了新的思路。
1.3研究目標與研究內容
本文的研究目標是基于挖掘的有標簽的嬰兒奶嘴評論文本數據應用情感詞典以 及隨機森林、支持向量機和邏輯回歸三種機器學習方法的分類器對評論文本做情感傾 向性分類,然后基于好評和差評分別應用LDA主題模型提取出主題和對應的主題詞, 對產品的優勢和劣勢進行分析,構建一個文本數據挖掘-分類-傾向性分析-提出建議的 評論分析系統以期對企業的經營提出建議。最后,對于構建的電商用戶評論分析系統, 繼續爬取了無標簽的嬰兒奶嘴數據數據集進行標簽預測和LDA主題聚類。
全文共六個章節,每章內容介紹如下:
第一章為緒論。從研究背景以及研究意義對本文選題進行介紹,接著闡述了國內 外學者在基于詞典和基于機器學習的文本情感方面的研究,最后是本文研究目標以及 研究內容。
第二章為文本挖掘與情感分析理論。首先簡要介紹了文本挖掘的過程和對象,然 后介紹了文本數據的預處理技術,再介紹了基于分布式表示的文本特征提取方法 —Word2vec 模型和基于離散式表示的 TF-IDF 文本特征提取方法以及二者的優缺點。 接著對情感詞典的分類方法和三種機器學習分類器的原理進行了介紹,最后闡述了 LDA主題模型的原理和實現。
第三章文本獲取與預處理。本章基于爬取的嬰兒奶嘴數據按照第二章的步驟進行 了預處理,包括去重和壓縮去詞,然后是進行分詞,詞性標注和詞頻統計等操作對爬 取到的文本數據有一個初步的描述性統計分析。
第四章為嬰兒奶嘴評論數據的情感傾向分析。本章分為有標簽數據的情感分類和 無標簽數據的情感分類。對有標簽的數據:在第三章獲得的分詞文本基礎上,利用情 感詞典分類并得到其分類效果。然后利用三種特征提取方法對分詞文本進行處理并獲
5
得特征向量,將特征向量劃分訓練集和測試集,訓練隨機森林、支持向量機和邏輯回 歸分類器,輸出每種方法的分類效果并對比分析。對無標簽的數據:將構建好的情感 詞典和三種分類器應用于無標簽數據的分詞文本,輸出其預測標簽。
第五章為文本特征分析。基于爬取的有標簽的分詞文本,分別基于好評和差評進 行詞云圖可視化分析,并利用pyLDAvision可視化工具對其好評和差評分別提取LDA 主題。對無標簽的文本,仍利用LDA主題聚類將其聚為了五類并分析聚類結果。
第六章為總結與展望。結合本文文本挖掘分析的結果,分別為銷售商和消費者提 供可行性意見,最后闡述了本文研究中存在的不足及后續研究的展望。
2文本挖掘與情感分析理論
本章按照文本挖掘、處理的流程介紹了相關方法,基于情感詞典的文本分類方法 在文本獲取和預處理階段與機器學習的分類方法基本相同,從詞性標注以后,基于情 感詞典的方法把與預處理后的文本與詞典進行匹配,而機器學習的方法則開始進行文 本特征選取和向量化處理。本章接著介紹了基于情感詞典的文本分類方法的基本原 理,文本特征選取的方法以及三種常用的機器學習分類器。
2.1 文本挖掘
文本挖掘是采用統計的方法利用計算機從海量的文本語料中抽取文本隱含的信 息或特征的過程,海量的文本語料可以是來自于網頁循環爬取的文本,也可以是現有 的txt等文本文件,對這樣的文本無法直觀的了解其特征,因此需要進行文本挖掘, 文本挖掘是數據挖掘的一種,通過文本挖掘可以試圖獲得半結構化或非結構化數據中 潛藏的信息和重要的模式[24]。半結構化數據的意思是數據可能有標簽,但數據的結構 混亂,標簽和內容混在一起,無法進行明顯的區分,不符合數據庫或者數據表的典型 形式。例如: HTML 文檔,以及本文爬取的 JASON 格式文本等就屬于半結構化數據。 而日常生活中的辦公文檔,圖片,表格等沒有固定結構的數據就叫做非結構化數據, 這些數據不具備典型數據庫的結構,是非結構化的。因此,本文從京東商城爬取的電 商評論數據也是非結構化數據。非結構化數據需要經過清洗及處理轉變為結構化數據 才能被計算機所識別,進而開始下一步研究。
2.2 文本預處理
對于獲取的原始評論文本數據,需要進行一些必要的刪除和清洗,去除廣告,導 航欄, HTML, js 代碼,注釋等等并不需要的信息,對于重復的評論和“該用戶未填 寫評價”等無效評論內容進行刪除,另外,由于商品評論的特殊性,用戶可能會填寫 與商品完全不相關的評論以及將一句短評論復制多次湊字數來獲取評論的積分獎勵, 因此,文本預處理時還需要刪除一些無關評論以及壓縮去詞,避免其對分類結果造成 影響。
2.2.1文本分詞
獲得較為干凈的語料之后,由于計算機不能直接識別非結構化數據,因此要對文 檔進行分類操作只能通過先識別文檔中的一個個詞語。第一步就是對文本進行分詞, 簡單來說就是把所獲得的句子全部切分成詞。目前分詞對象較多的是對中文文本和英 文文本分詞,由于英文文本自帶空格,因此可以直接利用空格切分單詞,而中文沒有 類似空格這樣自帶的分詞符,并且由于中文語義博大精深,一句話經不同的切分情感 傾向可能會不同。因此不同的分詞方法獲得的分詞結果會直接影響計算機對文本信息 的識別。
針對中文分詞,出現了很多分詞的算法,根據分詞算法特點的不同,可以把分詞 算法暫分為四大類:基于規則的分詞方法,基于統計的分詞方法,基于語義的分詞方 法和基于理解的分詞方法[58]。基于規則的分詞方法是將文本語料中的詞語分詞方法自 帶詞典中的詞相對應,若文本中的兩個或幾個字符串在詞典中,則認為這幾個字符串 是一個詞語,將其切分;基于統計的分詞方法則是認為成詞的詞對會大概率的以固定 形式出現在文本中,計算各個相鄰字對出現的頻率,若某兩個相鄰的字同時出現的頻 率比其他含有該字的相鄰字對出現的頻率高于某一個閾值,可以認為此字組是一個 詞,將其切分;基于語義的分析方法基于語義分詞,可以很好地解決分詞的邏輯問題, 以及漢語分詞的歧義。基于理解的分詞方法的主要思想是讓計算機學習人理解句子的 過程,在分詞的同時對文本進行語義和句法的分析,利用分析出的語義和句法信息來 可以避免部分歧義現象。
目前比較常用的分詞工具包括盤古分詞、Yaha分詞、Jieba分詞、清華THULAC 等,本文利用 Python 軟件調用結巴分詞包對文本進行切分。 Python 中的 jieba 庫詞匯 量非常豐富,但由于評論數據的特殊性,所爬取的文本語料中可能會出現一些新詞, 因此在分詞過程中可根據需要向jieba詞典添加新詞,提高分詞的精確度。
2.2.2去停用詞和詞性標注
根據上述步驟得到文本的分詞結果中往往含有一些沒有實際意義的詞,例如句 號、是、的,我們,這個,就...,這些詞占據了大量的詞典空間,并且對文本挖掘沒 有幫助,因此需要去除。大多數語言的停用詞表都是都可以從網絡直接獲得,采用合 適的停用詞表可以很好地過濾掉這些無實際意義的詞,對于含有特定詞的文本,也可 以采用基于給定語料庫來自動生成停用詞表的方法。其中有一種快速有效的找到特定 文檔停用詞的方法就是統計文檔的詞頻,對于出現頻率過低的詞將其加入到停用詞表 中,可以優化文檔詞庫,也可以提升計算機運算速度,后期做文本分類時的效果也會 有所提升。
對去停用詞后的文本做詞性標注,就是對詞語按照詞性添加名詞,動詞,形容詞
8
等標簽,在Python中直接調用jieba分詞包就可以同時獲得分詞結果和對應的詞性標 注,這是因為jieba分詞在設計之初就綜合了基于字符串與字典匹配的詞性標注算法 和基于統計的詞性標注算法。對于字典中沒有的詞,采用了 HMM 隱馬爾科夫模型和 viterbi 算法來識別。標注詞性后可根據需要去掉指定詞性的詞,例如嘆詞,時間詞等。 Jieba分詞詞性標示兼容ICTCLAS漢語詞性標注集,ICTCLAS漢語詞性標注集[27]如 表 2.1 所示:
表 2.1 ICTCLAS 漢語詞性標注集
標注 詞性 標注 詞性 標注 詞性 標注 詞性
a: 形容詞 i: 習用語 ni: 機構名 q: 量詞
b: 區別詞 j: 簡稱 nl: 處所名詞 r: 代詞
c: 連詞 k: 后接成分 ns: 地名 u: 助詞
d: 副詞 m: 數詞 nt: 時間詞 v: 動詞
e: 嘆詞 n: 普通名詞 nz: 其他專名 wp: 標點符號
g: 語素字 nd: 方位名詞 o: 擬聲詞 ws: 字符串
h: 前接成分 nh: 人名 p: 介詞 x: 非語素字
2.3 文本特征選取
一篇文檔按上述步驟預處理之后將出現大量詞條,文檔越多,詞條數量越大,如 果將獲得的全部詞都作為文檔的特征,并將其轉換成向量,那么每篇文檔最終的句子 向量將會是一個超高維的稀疏矩陣,因為在表示文檔中的每個詞時,往往會用上詞典 中所有的詞來轉換出該詞對應的one-hot編碼,而詞典中所有的詞數通常有上萬個, 這樣的稀疏矩陣對文本的分析并沒有太大的幫助,反而使得計算機運行負擔重,并且 無法突出重要信息。如果可以從詞袋中選擇一部分相關特征構建模型,這個問題就可 以得到一定程度的解決。所以,在這些分詞中,如何選擇適合的方法并能較好的代表 該文檔的主要特征至關重要。通過查閱相關文獻表明,目前比較常用的特征選取方法 —TF-IDF (詞頻-逆文檔率)方法和Word2vec模型。
2.3.1TF-IDF 方法
TF-IDF 的方法,是根據一個詞在一篇文本中出現的次數,以及該詞在所有文本 中出現的次數來計算的,用于表示一個詞的重要程度。該方法可以區分詞頻差不多的 詞語的重要程度,原理是如果一個詞在一篇文檔中詞頻很高,但在語料庫的其他文檔 中很少出現,那么認為它是這篇文檔的關鍵詞;如果這個詞在語料庫的所有文檔中詞
頻都很高,那么該詞就不那么重要了。某詞的tfidf的計算公式如下[33]:
詞頻(TF)=某個詞在文章中出現的次數 (2.1)
為了避免文章長度對詞頻的影響,可以進行“詞頻”標準化。需要準備一個語料庫(corpus),用來模擬語言的使用環境。
若一個詞條出現的頻率較大,那么該公式中的分母就越大,那么,其逆文檔頻率 就越小;甚至接近于0。為了避免分母為 0(即所有文檔都不包含該詞),在分母加 上1[33]。
TF - IDF =詞頻(TF) x 逆文檔率(DF) (2.4)
計算出文檔的每個詞的TF-IDF值,該值代表了一個詞按照詞頻逆文檔率方法算 出的重要程度,值越大代表該詞越重要,可以認為 TF-IDF 值排在最前面的幾個詞就 是該文檔的關鍵詞,通過設置閾值可以保留文檔中的關鍵詞語,去掉那些不重要的詞 語,以此來達到特征選擇的目的。每個詞的 TF-IDF 值可以作為后續文本向量化加權 的權重。通過Python中sklearn庫的TfidfVectorize()函數可以輸出文檔對應的TFIDF 向量,該方法比直接轉化的one-hot向量增加了詞語的重要程度信息。
2.3.2Word2vec 模型
Word2vec模型由谷歌的Mikolov[34]于2013年創建,是一種基于預測的深度學習 模型,本質上它是一種無監督的模型,可以接收大量的文本語料庫,創建可能的單詞 的詞匯表,并為表示該詞匯表的向量空間中的每個單詞生成連續的單詞嵌入, Word2vec 可以有效地對特征進行降維。 Word2vec 方法克服了 TF-IDF 模型沒有語義、 上下文以及特征稀疏的缺點,把單詞嵌入到基于語義和上下文的連續向量空間中。該 方法通過訓練,將每個詞通過映射轉換成一個較短的詞向量,這些詞向量的長度可以 人為指定,一般取100?300維,這意味著Word2vec模型構建的詞向量空間的維度會 大大低于文檔具有的全部特征數,該方法構建的向量空間也會遠低于 TF-IDF 模型構 建的高維稀疏的向量空間。
Word2vec的神經詞嵌入依賴Skip-grams或連續詞袋(CB0W)兩種模型,二者 的輸入都是one-hot編碼數據,該數據從訓練的文檔中抽選出來,且要滿足不重復, 最后由抽取出來的n個不同的詞匯形成詞匯表;然后對該n個次進行編碼組成一個n 維向量,該向量的每個維度值僅有1 或0, 1 所在的位置正是指定詞的位置,因此也
10 是位置索引。訓練好的 CBOW 和 Skip-gram 模型并不用來進行進一步的測試,而是 選取此時輸入層和隱藏層之間的權重矩陣進行下一步的文本分析。而 Skip-gram 模型 的思路則與 CBOW 不同,其區別在于,將一個特定詞的詞向量作為輸入,特定詞對 應的上下文詞向量作為輸出,圖2.1展示的是CBOW和Skip-gram模型的網絡結構[35]。
圖 2.1 CBOW 和 Skip-gram 模型的網絡結構示意圖
(1)CBOW 模型
CBOW 模型根據窗口數把指定詞的上下文的詞向量進行加總作為輸入,然后基 于神經網絡去除隱藏層,因此,模型結構發生了改變,其改變在于由神經網絡變為對 數線性結構。 CBOW 模型的特點是將指定詞的上文和下文中的詞語的詞向量相加, 然后再求它們的均值,因此,不同詞語之間的相關順序從而沒有被考慮到[35]。 CBOW 模型包括三層:輸入層、投影層和輸出層。下面以樣本(Context(w), i)為例(這里假設 (Context(w))由w前后各c個詞構成),對這三個層做簡要說明。
①輸入層: 包含(Context(w))中2c個詞的詞向量v(context(w), 1), v(context(w),2),…,v(context(w),2c) e Rm,Rm表示維度為 m 的向量空間。
(2投影層:將①中的2c個詞向量進行累加求和,即xw =工v(context( w), i) °
i =1
③輸出層:基于各詞在語料中出現的頻率不同,將該頻率轉化作為權值,從而構 造出一顆最優二叉樹,也叫 Hufman 樹。在這棵 Hufman 樹中,葉子結點共 N(=|D|) 個,分別對應詞典 D 中的詞,非葉子結點有 N-1 個[35]。
(2)Skip-Gram 模型
Skip-Gram 的輸入則是一個特定詞的詞向量, 這與 CBOW 模型是不同的,
11 Skip-Gram 模型認為不相鄰的詞相似度應該遠遠低于相鄰的詞,并且與距離有關系, 當詞的距離越遠時,其相似度越低,當詞的距離越近時,其相似度越高,若相鄰的詞 出現,那么中心詞出現的概率隨之增加,即可采用中心詞與相鄰詞的關系,即采用中 心詞來預測相鄰詞。 Skip-Gram 模型通過指定窗口的大小(一般是 2?5)切片獲取樣 本,窗口值越大,樣本越多 。
Skip-Gram模型網絡結構與CBOW模型的一樣,包括三層:輸入層、投影層和輸 出層,下面以樣本(Context(w), i)為例(這里假設(Context(w))由w前后各c個詞構成), 對這三個層做簡要說明[35]。
①輸入層:特定中心詞w的詞向量v(w) e Rm。
(2投影層:這是個恒等投影,把v(w)投影到v(w) o
(3輸出層:仍是一棵Hufiman樹。
Skip-Gram 模型與 CBOW 模型各自存在優缺點,前者優點在于其語義準確率比 后者高,但其缺點在于計算復雜率更高,訓練時間較后者較長,同時后者受到窗口大 小的限制因此無法預測與窗口以外詞匯的關系。綜上,若不考慮訓練時常, Skip-Gram 模型總體較好。 Skip_gram 模型通過跳躍詞匯來構建詞組避免了因窗口大小限制導致 的丟失語義信息問題[23]。
2.3.3TF-IDF 加權 Word2vec 模型
TF-IDF 能夠通過提取詞匯重要程度實現特征提取,但是沒有考慮到詞匯的語義 信息, Word2vec 方法能夠將詞嵌入上下文語義空間,充分考慮了詞匯的語義信息, 但沒有考慮詞匯的重要性及重要的程度。綜合考慮兩種模型各自的的長處及各自的短 處,本文將采取 Word2vec 方法與 TF-IDF 結合的方法來表示文檔的特征向量。首先 利用 Word2vec 方法提取文本的特征向量,并將提取到的特征向量與對應特征詞的 TF-IDF 值相乘作為加權的 Word2vec 模型的特征向量,將上述向量作為特征訓練提前 選擇的三種機器學習分類器,通過分類器對測試集進行分類,然后根據一定的分類效 果評價指標可以獲得該文本特征提取方法在不同分類器上的表現。在實際操作時,會 將該加權的方法與上面兩種單獨的特征提取方法基于數據與分類器一起做對比分析, 從而比較特征提取方法的優劣。
具體實施的方式為:首先,利用本文嬰兒奶嘴的文本分詞語料輸入Word2vec模 型中進行訓練,通過訓練提取語料庫的詞向量;然后再訓練TF-IDF模型,方法是利 用利用Python中sklearn庫的TfidfVectorize()函數計算每條語料中詞匯的TF-IDF權 重;再將第一步獲得的每個詞語的 Word2vec 詞向量乘以詞語對應的 TF-IDF 值,得 到該詞的加權Word2vec詞向量;最后,將文檔中各個加權后的詞向量相加并平均, 得到加權的Word2vec文檔向量,本文將每一條評論看成是一篇文檔。
12
2.4 文本情感分析
文本情感分析的步驟一般為首先對文本進行預處理,分詞,去停用詞,對清洗后 的詞對采用情感詞典的方法或者基于統計的方法對詞對所在的逐條文本進行分類,一 般可以把文本分為積極,中立和消極三類或者多類,最常見的是把文本情感分為積極 和消極兩類。下面分別介紹基于詞典的方法和基于機器學習的方法。基于統計(機器 學習)的方法本文介紹三種方法:樸素貝葉斯分類,支持向量機和邏輯回歸。
2.4.1基于詞典的方法
基于詞典(語義傾向)的方法具體做法是首先要獲得清洗干凈的分詞文本,然后 根據構建的正面情感詞典和負面情感詞典分別與分詞文本進行匹配,情感詞典可以直 接利用網絡開源的詞庫也可以利用現存+自己補充的詞庫[4]。通過遍歷分詞文本,分 別統計正面情感詞和負面情感詞的個數,如果正面情感詞個數大于負面情感詞個數, 則判斷整個文本情感極性為正面;若二者相等則判斷為中立;正面情感詞個數小于負 面情感詞個數時判定為負面[25]。對于二分類來說當正面情感詞個數等于負面情感詞個 數時,不判定為中立而是認為其情感傾向為 0將其從文本中刪去,這也是情感詞典做 二分類時的一個缺點。除了統計正面情感詞個數和負面情感詞個數,更細化的做法是 把事先處理情感詞典(由于有的詞典沒有自帶情感極性值)并給定情感極性值,然后 再與分詞進行匹配,如果情感詞典中有該詞,那么給該詞賦值情感詞典的中的情感極 性值,通過計算所有情感詞的情感極性值,得到一個句子的情感極性值,然后得到整 篇文檔的情感極性值,最后實現把文檔進行情感分類。基于詞典的方法的關鍵是:構 建盡可能覆蓋更大范圍的情感詞典,獲取文本分詞和詞性標注,篩選情感詞并計算詞 組的語義傾向,最后加總所有情感詞的語義傾向得到句子或文檔的情感傾向。最終的 情感傾向分類結果會極大地受到情感詞典的準確度和覆蓋率的影響。
2.4.2基于機器學習的方法
基于統計的方法即基于機器學習的方法,該方法是一種有監督的學習,需要已經 標注好的文本數據作為訓練集,通過提取文本特征,將文本向量化輸入機器學習分類 器訓練然后實現情感的分類。
本文采用三種常見的基于機器學習的方法:隨機森林(Random Forest),支持 向量機模型(SVM)和邏輯回歸(LogisticRegression)。
(1)隨機森林(Random Forest),隨機森林是指用隨機的方式建立一個決策樹 森林,森林中的每一棵決策樹之間不存在關聯,樹的棵樹可以指定,在訓練得到隨機 森林之后,當有新的輸入樣本進入時,讓其通過森林中的每一棵決策樹分別進行判斷,
13
決定輸入的樣本應該屬于哪一類,最多決策樹選擇的那一類就認為是該輸入樣本的類 別,隨機森林可以既可以處理屬性為離散值的量,如 ID3 算法,也可以處理屬性為連 續值的量,如C4.5算法旳。
隨機森林的基礎模型是決策樹模型。決策樹(decisiontree)模型[37]的原理是按 照一定的方法選擇有區分性的特征屬性,使得按照該特征屬性進行分類后,數據的熵 得到最大程度的降低。決策樹的每個內部結點表示在某個變量上的測試,每個分支表 示一個測試輸出,每個葉結點代表一種類別。在多個內部節點一步一步地決策,最終 形成了一棵“樹”結構。決策樹的決策過程模擬了人的決策過程,從根節點開始,選 出第一個能把待分類項劃分為兩類的特征屬性,再接著選出第二個,第三個,……, 按照事先確定的最大樹深,輸出所有的分支和葉子節點,葉子節點上儲存的結果接作 為最終分類的結果。隨機森林模型通過對數據集進行隨機采樣,利用采樣的數據訓練 多棵決策樹,最終將其結果整合,算法流程如圖2.2所示:
圖 2.2 隨機森林算法流程圖
(2)支持向量機(Support Vector Machine, SVM),支持向量機是人工監督下的 一個二元分類器,其思想是試圖找到最佳的直線或平面,將數據分為兩類,由于支持 向量機的基本模型是定義在特征空間上的間隔最大的線性分類器,其找到的最優直線 或平面可以使分類后的結果呈現最魯棒狀態,因此SVM的學習策略也是求得分類間 隔最大化[38]。支持向量機[18]模型可被劃分為線性可分和線性不可分兩種情況,第一
14
種情況適用于容易區分并且結構簡單的數據,這時利用 SVM 模型進行劃分不僅分類 結果準確度高,對于分出的兩類結果還能找到一個最優的超平面使得二者被分開的距 離最大化。第二種情況適用于非線性結構的或者含有噪聲的數據,這時找不到一個超 平面將數據劃分為兩類,是線性不可分的,此時需要引入核函數,核函數的主要作用 將在低維空間不可分的數據影射到高維空間,利用非線性關系使其變得可分。目前核 函數主要包括多項式核函數、高斯核函數和s型核函數二類[19]。
(3)邏輯回歸(Logistic Regression) [41][45],邏輯回歸的原理是利用邏輯函數 (Sigmoid函數)把線性回歸的結果從(-8,8)映射到(0,1)上來。當面對一個分類問題, 邏輯回歸首先建立代價函數,再建立優化方法,通過迭代的方式最優的模型參數可以 被求出,最后通過測試驗證求解出的模型的好壞。本文處理的文本分類是二分類問題, 二分類的輸出標記為y=0或1,而線性回歸產生的預測值為z = &Tx + b,令T=z,把 z的表達式帶入到邏輯函數(Sigmoid函數)(式(2.5))中得到式(2.6),再做變 換就得到式(2.7)。 y 是我們要求的正例, 1-y 則是反例,二者比值則可稱為幾率, 所以式(2.7)可以稱作“對數幾率”[44]。
由此得到邏輯回歸概率模型。邏輯回歸可以直接對數據樣本進行邏輯概率建模, 無需事先給出預測數據分布,減少了由分步估計不準確帶來的誤差。邏輯回歸在預測 類別的同時給出了預測概率,對數據分析和數據挖掘工作給出了輔助參考。
2.5 LDA 主題模型
LDA是一種最常用的概率主題模型,也叫隱含狄利克雷分布,由Blei, David M.,
15 Ng, Andrew Y.,Jordan[46]于2003年提出,該模型的基本思想是:在一篇文檔中可能包 含多個主題,意味著一個主題會在多個文檔中出現,但出現在每篇文檔的概率有所差 別。而對每個主題來說,會包含多個關鍵詞,同一個關鍵詞也會在多個主題中出現, 但出現在每個主題的概率有所差別。因此主題模型認為,主題是以一定的概率選擇了 文檔,二者之間應當對應一個概率分布;同理,關鍵詞也是以一定的概率選擇了某個 主題,此二者之間也應當對應一個概率分布。文檔和關鍵詞是可以直觀看到的,而主 題是潛藏的,文檔和關鍵詞通過主題這個隱變量相連接,最終可以根據關鍵詞推斷文 檔的主題,當這個概率分布選擇狄利克雷分布時,就叫做LDA主題模型。
LDA中運用了貝葉斯學派的思想,認為主題和詞必須遵循同一個核函數分布, 而其中多項式分布與狄利克雷分布均為共軛結構,所以在LDA中的主題分布與詞分 布,均采用了 Dirichlet分布為它們的共軛先驗方法。具體的提取流程是將文本語言材 料進行特征提取后,先將帶有潛在主題信息的詞匯提取出來,然后再經過對特征詞匯 的不同維度進行分析對比,最后再篩選出符合標準的詞匯建立特征詞庫。
LDA生成文檔的流程如下[30]:
•以一定的先驗概率P0m)選擇一篇文檔dm ;
•從超參數為a的Dirichlet分布中取樣生成文檔dm的主題分布0m ;
•從主題的多項式分布久中取樣生成文檔dm的第n個詞的主題Z巾,”;
•從超參數為卩的Dirichlet分布中取樣生成主題zm,”對應的詞分布;
•根據詞的多項式分布©””采樣最終生成詞語%,” ;
LDA模型示意圖如下所示[48]:
圖 2.3 LDA 模型
圖中M是全評論文檔數,K是選取的主題個數,Nm為第m篇文檔的總詞數,a
16 是文檔主題的狄利克雷分布的超參數,卩是主題詞語的狄利克雷分布的參數。整個生 成文本的過程可以解釋為:先以一定的概率值從全文檔中選擇一篇文檔,對本文來說 是選取某條評論;再基于該文檔從文檔-主題的狄利克雷分布中選取某個主題,該過 程重復多次選出的主題應當服從一個多項式分布;然后根據上一步選到的某個主題, 根據主題-詞語的狄利克雷分布選擇某個詞,因為上一過程選出的主題是變化的,因 此這一過程中,變化的主題選出的詞應當服從一個多項式分布。所有重復過程完成之 后最終生成所有詞語,并組合形成文檔。
LDA模型可以認為是兩個狄利克雷分布和兩個多項式分布的組合,也可以認為 是兩個狄利克雷-多項式共軛分布的組合,其中:
第一個超參數為a的狄利克雷分布用于生成主題分布模型,因為一篇文檔的可能 主題有多個,因此主題分布模型應服從一個多項式分布;
第一個多項式分布用于生成某一個主題,對每一個確定的主題分布,可以獲得其 確定的主題;
第二個狄利克雷分布用于生成詞分布模型,因為一個主題下有多個詞,因此詞分 布應當服從一個多項式分布;
第二個多項式分布用來生成某一個詞,對每一個確定的詞分布,可以獲得確定的 詞,該詞就是與前面選出的特定主題相關的[47]。
3文本獲取與預處理
3.1 評論文本的獲取
本文選取的商品為嬰兒奶嘴,數據來源于京東商城某品牌嬰兒奶嘴自營旗艦店評 論,嬰兒奶嘴評論數據非常多,相較于其他的產品,其評論內容趨于更加多樣化,消 費者所關注的產品特征更多。由于京東商城商品在線評論文本的網頁源碼是jason格 式,所以本文直接采用Python代碼對jason格式的網頁內容進行抽取。除去直接利用 Python代碼爬取網頁,還可以通過第三方采集器八爪魚或者后羿采集器進行采集。
由于京東網頁限制一個商品一個型號的評論最多爬取 100 頁,為了避免數據過 少,本文將該品牌下多個型號的奶嘴評論爬取之后混合并作為有標簽的原始評論數 據。原始數據共爬取6310 條,其中包括正面評價2970條,負面評價3340條。表3.1 為爬取到的部分評論數據:
表 3.1 商品評論部分數據
ID Nick name Label Content
14368298891 ****4 pos 材質非常柔軟,從寶寶出生就開始使用,從最小號奶嘴用到 最大號奶嘴,安全放心,每天晚上會用沸水消毒貝親奶瓶和 奶嘴,完全不會變形,賣家還很貼心的送了奶瓶刷,而且比
16682619927 倆***媽 pos 在母嬰店買要劃算很多。只要用到合適的尺碼完全不用擔心 嗆奶問題,準備二寶也繼續用貝親啦,推薦推薦。
孩子剛出生買了奶嘴,很耐熱,奶嘴材質好很好清洗,帶有 一個排氣孔,外形設計非常好?,孩子很喜歡使用,包裝嚴
14368298891 ****4 pos 實,價位實惠物流快
材質非常柔軟,從寶寶出生就開始使用,從最小號奶嘴用到 最大號奶嘴,安全放心,每天晚上會用沸水消毒貝親奶瓶和 奶嘴,完全不會變形,賣家還很貼心的送了奶瓶刷,而且比
14529055173
145587590 彤***安
u***f pos
neg 在母嬰店買要劃算很多。只要用到合適的尺碼完全不用擔心 嗆奶問題,準備二寶也繼續用貝親啦,推薦推薦。
不錯的奶嘴,正品,使用很方便,哺乳還是選擇大瓶靠譜的 品牌比較好,小寶寶用著也安心,首次使用,一定要清洗干 凈,水中煮沸 5分鐘,經常清洗消毒,經常更換奶嘴,不錯 的奶嘴,比以前買的好用,下次還來買,京東快遞真給力 幾小時就降價還不退差價
1986561874 h***0 neg 買貴了,比最低價貴好多
11007039784 ****a neg 送來的時候外包裝壞了
292905146 吳***鶯 neg 一直用貝親的東西,還可以
3.2 數據預處理
3.2.1數據清洗
從爬取到的部分數據可以看出,評論中會出現重復的評論,原因可能是消費者對 自己多次購買的商品給出了同樣的評價,亦或是為了獲得類似積分而復制了別人的評 價。重復的評價在文本處理時應當及時去除,否則統計詞頻和后續獲取產品關鍵詞時 會造成較大誤差。另外,評價文本中大量的出現重復的詞語,例如“很好很好很好”, “還不錯不錯不錯”等,應當采用壓縮去詞的方法進行清洗,表 3.2 展示的是部分評論 壓縮去詞結果。
20
表 3.2 部分評論壓縮去詞結果
壓縮去重復詞前 壓縮去重復詞后
我要京豆。我要京豆。我要京豆。我要京豆。 我要京豆。我要京豆。我要京豆。我要京豆。 我要京豆。我要京豆。我要京豆。我要京豆。 垃圾垃圾貨垃圾貨垃圾貨垃圾貨垃圾貨垃圾 貨投訴京東。店大欺客!投訴京東。店大欺 客!投訴京東。店大欺客!投訴京東。店大 欺客!投訴京東。店大欺客!投訴京東。店 大欺客! 京東的假貨京東的假貨京東的假貨京東的假 貨京東的假貨京東的假貨京東的假貨京東的 假貨京東的假貨京東的假貨京東的假貨京東 的假貨京東的假貨京東的假貨京東的假貨京 東的假貨京東的假貨 我要京豆。
垃圾垃圾貨投訴京東。店大欺客!
京東的假貨
本文原始數據經清洗后獲得有效數據共5861條,正面評價 2782 條,負面評價 3079 條。
3.2.2文本分詞和詞性標注
爬取到的評論數據經過簡單的去重處理之后,可以得到較為干凈的素材。接下來 是對文本進行分詞和去停用詞以獲得分詞詞庫。本文使用的分詞工具是 Python 中第 三方庫jieba分詞,該工具主要是針對中文分詞開發的。jieba中文分詞支持的三種 分詞模式包括[27]:
a.精確模式:是按照將句子最精確切分的思想來將句子切開,多用于文本處理;
b.全模式:掃描全文本并將可以成詞的字符全部切分成詞,速度快但無法兼顧 歧義;
c.搜索引擎模式:在第一個模式的基礎上,對精確切分的長詞再進行二次切分, 多用于搜索引擎處理分詞;
本文對商品評論數據基于中文分詞處理時使用結巴分詞中的精確模式。結巴分詞 操作簡單,分詞時直接加載結巴分詞包進行操作,如果文本中存在大量專有名詞,也 可以對結巴分詞默認的詞典進行添加新詞,可以有效地提高分詞的準確度,本文數據 是商品評論數據,不具有特別的新詞,因此直接采用默認的分詞詞典進行操作。
調用Python的jieba分詞包中對應的函數可以同時獲得分詞結果和對應的詞性標 注。標注詞性后可以根據需要去掉指定詞性的詞,例如嘆詞,時間詞,非語素詞等。 經過分詞處理和詞性標注的部分評論結果如表 3.3 所示:
21
表 3.3 分詞和詞性標注后部分數據
Index content word nature content type Index word
1 軟 a pos 0
1 無味 d pos 1
1 用料 n pos 2
1 卡 n pos 3
1 不難 d pos 4
1 操作 v pos 5
1 三個 m pos 6
1 月 m pos 7
1 換 v pos 8
1 不用 v pos 9
1 囤 v pos 10
1 多個 m pos 11
1 備用 v pos 12
1 總體 n pos 13
1 滿意 v pos 14
2 耐熱 a pos 0
2 高溫 n pos 1
2 煮 v pos 2
2 燙 v pos 3
2 蒸 v pos 4
其中, index_content 是分詞結果屬于第幾條文本, word 是分詞結果, nature 是分 詞結果對應的詞性,第四列content_type是分詞結果所屬評論的標簽,index_word是 該詞在句中的位置,詞性標注采用 ICTCLAS 漢語詞性標注集中的詞性。經過分詞處 理后共得到206018 個詞。
3.2.3去停用詞
上一步分詞處理是直接對整個文檔中所有文本進行分詞,并給出詞性標注結果。 事實上,分詞,詞性標注和去停用詞并沒有嚴格的處理順序,可以根據需要調整先后 順序。可以先對文本去停用詞再做分詞和詞性標注,也可以先分詞再去停用詞,最后 標注詞性。本文基于全部的分詞在標注詞性之后再去停用詞,這樣處理有一個方便之 處就是可以直接去除固定詞性的詞,例如標注為“x”的符號詞,當然,也可以直接在 去停用詞表中輸入所有的符號以刪除文本中的這些符號。本文所用的停用詞表是哈工 大停用詞表,此外,由于本文數據是京東電商產品評論數據,文本中會大量出現“京
22
東”、“嬰兒”、“奶嘴”、“寶寶”、“京豆”等詞,這樣的詞也需要添加在停用詞表中, 最終停用詞表共包含 5891個詞,然后遍歷分詞結果,如果停用詞在文本中,將其刪 去。最終過濾掉所有停用詞后剩余164289 個詞。
可以看出評論文本中最常出現的關鍵詞都是關于嬰兒奶嘴的使用信息,包括材 質,耐熱屬性,質量和清洗等等。
高校學術論文網提供專業的碩士畢業論文寫作、畢業論文輔導寫作、博士論文寫作發表、碩士論文寫作發表、SCI論文寫作發表、職稱論文寫作發表、英文論文潤色的服務網站,多年來,憑借優秀的服務和聲譽贏得了社會的廣泛認可和好評,為畢業生解決寫論文的煩惱