目錄
內容摘要 I
ABSTRACT Ill
1緒論 1
1.1 選題背景 1
1.2國內外研究現狀 2
1.3研究目的和意義 4
1.4 論文結構安排 5
1.5本文研究主要內容 5
1.6本章總結 6
2相關理論基礎和技術概述 7
2.1情感分析的內涵 7
2.2情感分析相關技術 7
2.2.1數據獲取 8
2.2.2數據預處理 8
2.2.3文本表示方法 12
2.3 圖神經網絡 17
2.4 多屬性排序 19
2.4.1權重的賦值方法 19
2.4.2主成分分析方法的數學模型 19
2.4.3因子分析方法的數學模型 20
2.5 本章小結 21
3基于用戶情感分析模型的排序算法設計 22
3.1 需求分析與方案設計 22
3. 2融合BERT語義與全局關系的情感分析模塊設計 24
3. 2. 1基于BERT的語義加權模塊設計 24
3.2.2基于圖神經網絡的文本全局關系建模設計 28
V
3.2.3 語義與全局關系融合模塊 31
3.3綜合情感分析的排序算法設計 32
3.3.1 基于主成分分析的排序模型 32
3.3.2 基于因子分析的排序模型 33
3.4 本章小結 34
4基于用戶情感分析模型的排序算法實現 35
4.1 數據集構建 35
4.2 數據預處理 39
4.2.1 數據清洗 39
4.2.2 數據標注 41
4.3 數據可視化 42
4.4 實驗環境配置 44
4.5 用戶情感分析模型性能分析 45
4.5.1模型評估指標 45
4.5.2 實驗對比模型介紹 46
4.5.3 實驗結果對比分析 49
4.6 商品綜合排序模型性能分析 51
4.6.1 基于主成分分析的排序模型 51
4.6.2 基于因子分析的排序模型 54
4.7 本章小節 56
5總結與展望 58
5.1 全文總結 58
5.2 展望 59
參考文獻 60
致謝 66
VI
圖目錄
圖 1-1 中國網絡市場零售總額占比圖 1
圖 2-1 BiLSTM-CRF 網絡結構 12
圖 2-2 CBOW 模型架構圖 15
圖 2- 3 Skip-gram 模型架構圖 15
圖 2-4 BERT 的模型結構 16
圖 2-5 歐幾里得空間數據與非歐幾里得空間數據 17
圖 2-6 圖濾波和圖池化操作 18
圖 2-7 主成分分析模型示意圖 20
圖 2-8 因子分析模型 21
圖 3-1 整體方案設計框架 23
圖 3- 2 Transformer 總體結構 24
圖 3-3 自注意力計算流程 25
圖 3-4 基于 BERT 的語義加權的情感分析結構圖 26
圖 3-5 語義加權示意圖 27
圖 3-6 文本全局關系模型結構 29
圖 3-7 語義與全局關系融合示意圖 31
圖 4-1 商品詳細信息頁面 35
圖 4-2 獲取數據流程圖 36
圖 4-3 采集商品的詳細字段信息 37
圖 4-4 產品產地可視化 42
圖 4-5 價格分布可視化 43
圖 4-6 產品毛重可視化 44
圖 4-7 TextCNN 模型結構示意圖 47
圖 4-8 TextRNN 模型結構示意圖 47
圖 4-9 Word2vec-BiLSTM 模型結構示意圖 48
圖 4-10 BERT 文本分類模型結構示意圖 48
VII
圖 4- 11 商品最終排序結果 1 53
圖 4-12 不同排序結果中自營商品數量 53
圖 4-13 不同排序結果下商品情感得分平均分對比 54
圖 4-14 商品最終排序結果 2 55
圖 4-15 不同排序方式下店鋪得分平均分 56
VIII
表目錄
表 2-1 不同樣本特征表 13
表 2-2 不同樣本特征 14
表 2- 3 使用 One-hot 編碼特征表 14
表 4-1 新鮮水果類商品詞頻及總評價數 37
表 4-2 海鮮水產類商品詞頻及總評價數 38
表 4-3 精選肉類商品詞頻及總評價數 38
表 4-4 冷飲凍食類商品詞頻及總評價數 38
表 4-5 蔬菜蛋品類商品詞頻及總評價數 39
表 4-6 無實際意義評論示例 40
表 4- 7 商品信息數據結構表 41
表 4-8 評論信息數據類型分布 42
表 4-9 開發環境配置 44
表 4-10 混淆矩陣 45
表 4-11 模型參數設置 49
表 4- 12 不同層對應的情感分類結果 50
表 4-13 五種模型的實驗結果 50
表 4-14 消融實驗結果 51
表 4- 15 主成分因子方差貢獻率 52
表 4-16 KMO 和 Bartlett 檢驗 54
IX
1緒論
1.1選題背景
隨著互聯網相關產業的崛起發展,越來越多的消費者傾向于網絡購物,網購 不僅便利了我們的日常生活,同時也創造了許多新興的就業崗位。網購平臺商品 種類齊全,物美價廉,其蓬勃的發展也帶動生鮮品類的商品逐步從線下轉向線上。 2021 年上半年,有官方數據顯示我國通過網絡購物的線上零售市場規模已經達 到 6.27 萬億元,預計 2021 年全年網絡零售達 13.64 萬億元,增長率較上年同期 提高 14.43%,近十年來我國社會消費品的零售總額中網絡零售的市場規模占比 如圖 1-1 所示[1]。特別是 2020 年以來受新冠疫情影響,更多的線下消費方式被網 絡零售取代,網銷在社會消費品中所占的比重大幅提升至 30.40%。網絡零售在 保證了疫情期間安全購物的同時,也使得整個購物過程更加便捷方便。
圖 1-1 中國網絡市場零售總額占比圖
網絡購物作為一種被廣泛應用的購物載體平臺受到廣大用戶的喜愛,其在很
大程度上改變了零售商和消費者的運營方式。電商平臺發展日趨成熟,平臺鼓勵
用戶的到貨反饋行為,同時消費者自身也有表達欲,于是當購物結束后消費者可
1
以選擇將自己對該次購物從商品本身到服務態度再到物流運輸的全過程進行真 實的評價,這樣便捷、共享的消費評價一方面可以使零售商根據消費者的評論對 其商品進行改善。另一方面,商品的評論也會直接影響其他用戶消費決策,因此 商品評論信息在網購過程中的售前與售后都是消費者與零售商的關注熱點[2]。
通常情況下,消費者在進行購物行為的過程中希望通過商品的評價信息獲取 更多真實有效的商品信息,但是絕大多數電商平臺采用的商品排序方式默認都是 按照綜合排序進行商品推薦,且平臺僅僅通過三級評價計算商品好評率,用戶的 評價頁面默認展示好評,這樣也使得一些差評不易被用戶查看到,繼而在某種程 度上降低了網購的有效性與真實性,故此這種排序方式也不能給到用戶很客觀的 推薦參考[]。所以如何利用計算機技術從大量的評論數據中高效、準確并快速處 理和分析文本數據,繼而對商品進行重新排序就尤為重要。本文根據當前的研究 背景提出新的排序推薦方法,這種新的排序方法融合了用戶對產品的評價。首先 利用情感分析技術獲取到商品評價內容的情感分類,再綜合商品的其余特征屬性 為每個商品計算出其對應的綜合得分,最后按照綜合得分進行由高到低的推薦排 序,這種排序方式能幫助用戶更高效地找到心儀的商品。
1.2國內外研究現狀
情感分析又被稱作傾向性分析(opinion analysis),是指通過文本所包含的 情感信息將其分成消極、中性、積極的三種或幾種類型。通俗來說,判斷文本作 者的觀點和立場的過程就是文本的情感分析。研究者主要通過對含有情感傾向的 文本進行觀點提取,從而判斷出情感傾向[4]。情感分析作為分類問題中的一種, 既有與一般分類問題的共通之處,也存在其特殊性,包括語義表達的隱蔽、多義 等特點。近年來前赴后繼的學者們在不斷攻克情感分類問題,在該領域也提出了 大量的分析算法。
基于詞典的情感分析算法是在基于語法規則分析方法的基礎之上發展出來 的,其依賴于專業人士構建的情感分析詞典,這種方法首先將所有表達情感的詞 匯按照知識積累和經驗分類為兩個或多個不同的情感類別,然后情感極性的確定
2
就可以通過計算語段文本中各個類別情感詞的數目來確定。通過方法原理可以知 道所構造的情感詞典的質量直接決定了算法的準確率。2011年Taboada等人[5] 構造了一組范式詞匯包含消極與積極詞,利用潛在語義分析與點互信息計算構造 出的范式詞和當前主題詞的差值,并基于此提出基于詞匯的情感分析法。 2014 年又有Saif等人[6]把不同文本里上下文間詞的共現模式考慮了進去,提出了 SentiCircles 情感分析方法去捕捉單詞的語義,同時基于此來更新這些單詞被預 先設定好的極性及強度[7]。基于規則和詞典的樸素情感分析算法在一定程度上具 有比較好的修復和解釋性,但是該方法依賴于大量的手工規則,使得其無法獲取 文本更準備的表征,且算法復雜,魯棒性較差。
隨著該領域的深入研究,深度學習技術逐漸被應用于自然語言處理領域且取 得了不錯的效果,于是學者們開始提出各類基于深層神經網絡的算法模型。
TextCNN[8]模型就是利用卷積神經網絡來獲取文本的特征向量并進一步實現情 感分類,而MV-RNN[9]則是利用了循環神經網絡。在TextCNN與MV-RNN方法 中所提出的神經網絡結構有著不同的特點,前者的算法模型在抽取文本局部特征 方面表現更好,而基于循環神經網絡的算法模型對具有序列特性的數據效果顯著, 其擅長挖掘文本中的時序信息以及語義信息。基于兩種神經網絡各自具有的顯著 優勢進而提出了一系列融合算法,并且顯示出了更高的性能。后來,在進一步的 發展中又提出了基于注意力機制(Attention mechanism) [10]的算法模型,這樣的 神經網絡模型能夠模仿人類而更多的著眼在文本中的有效信息上,據此Pan[11] 和Zhou[12]等人又提出了基于注意力機制的循環結構神經網絡模型,模型的分類 效果優勢顯著。2017 年 A. Vaswani 等人提出了基于 Seq2Seq( Sequence to Sequence) 架構的Transformed13】,該模型直接掀起了 Transformer網絡結構在自然語言處理 領域的一陣研究熱潮,它的競爭力體現在學習文本特征向量的能力上,它的出現 打破了學者們對于循環神經網絡等同于序列建模的認識[14]。在2018年末,Google 公開了 BERT[15]模型,BERT在模型預訓練階段使用了 Transformer雙向模型來提 取特征,這種兩階段式的訓練法體現出了強大的普適性幾乎覆蓋了所有自然語義 處理的問題,并且獲得了最優的實驗效果。同年Zheng[16]等人在語義抽取中使用 3 了新的策略方法,將聯合學習模型轉化成了序列標注問題。2020 年 Li 等人[17]利 用上下文感知在嵌入層產生表征提升了 BERT 模型輸入層表征單一的問題,此方 法被稱為GBCN。GAO[18]等人提出了基于BERT的情感分類模型,該模型是在 目標詞后添加了兩層,分別是全連接網絡層和池化層,在情感分析中取得了出色 的成績。王安君等人[19]在基于微博文本的情感分析中將 BERT 模型和卷積神經網 絡模型進行融合以判斷文本極性,并通過在 NLPCC2016 數據集的測試中展現出 了比較好的性能。胡春濤等人[20]在輿情分類時也使用了 BERT 模型。總得來說, 與傳統基于詞典方法相比,基于深度學習的方法在情感分析任務中表現得更好。
1.3研究目的和意義
在線商品的銷量日復一日累積的同時也產生了大量的商品評論數據,特別是 對一些暢銷商品,其相對應的評價更是多達成千上萬條。當消費者選購商品時, 很難從如此龐大的信息中獲取到商品的真實評價數據,另外再加上這些評價中還 包含了對商家服務、物流等來自商品各個方面的評價,消費者就很難在瀏覽時快 速的把握該商品的綜合品質。與此同時,還有另外一種可能性的存在:一些消費 者對商品客服的服務滿意但對商品本身不滿意,或者對商品品質滿意卻對物流不 滿意,所以好評不代表商品質量被認可,差評也不能代表商品一定存在質量問題。 因此,根據評價文本的情感傾向鑒別好評與差評就顯得異常重要。
本文針對以上問題,將評論文本信息的情感傾向作為一種指引信息融入到商 品排序算法中,以其豐富商品推薦排序的參考來源。對于評論文本中存在的情感 傾向,本文致力于研究更加有效的算法來進行情感分類,進而為商品排序算法提 供額外的參考信息。在情感分析模型結構方面,本文將基于 BERT 的情感分析模 型的結構,針對商品評價文本的特殊性進行結構上的改進,使其更好地判斷文本 情感傾向。通過后文的實驗數據可以看出與已有的情感分析模型相比,本文提出 的改進模型在原有的基礎上進一步提高了文本情感分類的準確率,同時將分類結 果結合特征工程得到商品的綜合得分,這樣依照綜合得分的排序方式可以大大提 高消費者選購商品的效率,進一步說明了其研究價值。
4
1.4論文結構安排
本論文結構如下:
第一章:首先闡述了課題的研究背景;接著對國內外不同學者所采用的情感 分析方法現狀和研究的主要意義做了介紹;最后闡述了主要研究內容與結構安排。
第二章:闡述情感分析技術領域的理論知識。包括情感分析的流程、文本分 詞方法、文本表示方法、圖神經網絡以及多屬性排序方法等,以便在后文應用。
第三章:本章首先概括性描述了基于情感分析模型的排序算法的設計需求和 整體思路;然后,根據需求分析和現存問題提出了融合BERT語義與全局關系的 情感分析模型。最后,基于已提出的情感分析模型,介紹了商品綜合排序算法的 思想和原理。
第四章:講解了數據集的構造方法,并利用可視化方法對相關商品信息進行 分析;然后對比了不同情感分析模型的實驗結果,全面評估了本文提出的改進模 型的性能;之后,基于已提出的情感分析模型,結合商品其余屬性的特征,借助 因子分析和主成分分析兩種統計方法進行加權求得到商品綜合得分并進行推薦 排序,對比了不同方法下的最終商品推薦排序結果并解釋差異造成的原因。最后, 分析了本文提出的基于商品評論信息的排序算法的性能。
第五章:本章概括性地總結了論文中提出的新方法,同時展望了該方法的應 用前景。
1.5本文研究主要內容
本文受到注意力機制的啟發,改進了 BERT的原有模型,盡量地提升模型在 短文本情感分類領域的準確率,同時結合改進后的算法模型得到的分類結果設計 出一個新的電商平臺商品的推薦排序方法。
主要研究內容為:
(1)基于BERT模型經典的微調結構中只是單一的將首個分類字符[CLS] 作為最終的特征輸出結果,從而忽略了其他位置特征的表達這一問題,為了能盡
5
可能地捕捉文本中所有位置的表征提升模型準確率,本文在現有 BERT 模型的結 構中增添一種基于注意力機制的語義加權模塊,并利用模型在本文制作的電商評 論文本數據集上進行實驗,分析討論結果。
(2) 為了克服以往情感分析方法僅僅關注于文本語義而忽略全局關系的問 題,建立了文本中的詞語共現關系,并以圖的形式建立它們之間的聯系。本文使 用數據集中的所有樣本構造成一個大型異構文本圖,然后基于圖神經網絡在樣本 標簽的監督下學習圖中的每個節點表示,在基于語義加權的基礎上進一步提升了 模型性能。
(3) 提出了基于評價信息文本的電商商品推薦排序方法。把用戶評價信息 文本內容的情感數據作為一個屬性納入商品推薦排序當中,并把其余商品屬性值 借助特征工程進一步融合其中,由此可以得到商品的綜合得分,再按照綜合得分 從高到底進行排序并展示給用戶,使消費者更高效的進行商品選購。根據因子分 析和主成分分析兩種不同的方法可以得到不同的統計結果,最終比較兩種不同方 法之下推薦排序的差異及差異產生的原因。
1.6本章總結
本章主要講了情感分析這一領域的研究背景,說明了研究本課題的意義。介 紹了基于生鮮商品用戶評價的商品推薦排序方法的主要研究內容及論文的組織 結構。
2相關理論基礎和技術概述
2.1情感分析的內涵
情感分析其本質也即是挖掘意見或觀點的過程[21]。基于本文的研究背景,對 商品評論的情感分析也就是從主觀的評論文本中提取出消費者對于該實體商品 的看法、態度和情感傾向。借助這一情感傾向分析結果,消費者可以更加直觀地 了商品的真實信息,提高購物效率。對于商品賣家而言,也可以通過用戶對商品、 服務和物流的反饋信息,有針對性地對其商品進行改進,從而提高商品的競爭力。
情感分析的目標是從文本中識別出那些顯式或隱式表達的褒貶觀點情感,同 時包括這些觀點或者情感所描述的對象。一般來說,情感分析包含四個過程,分 別是[22]:
1、 定義情感分類中的極性類別,即確定主觀評論文本中的情感極性類別數 量。
2、 鑒別評論文本內容是否為真實客觀評價,即需要對包含虛假惡意信息的 垃圾評論文本進行檢測。
3、 對評論文本所蘊含的情感傾向(積極、中性、消極)做出判斷。
4、 情感傾向的強弱判斷。也就是在情感分類的基礎上再對不同分類的傾向
性做出強度判別。常用一些離散化的評分來表達情感的強度。常常分為 5檔,這
5 檔情感評分可分為:感性正向、理性正向、中立、理性負向、感性負向。
情感分析研究伴隨著社會媒體的興起而快速發展,由于其研究對于整個商業 和社會的重要性,近年來,在工業界,情感分析的相關產業也蓬勃發展起來。除 此之外,情感分析技術近年來也被廣泛應用在許多日常應用中,例如問答系統、 推薦系統、市場動向分析等。
2.2情感分析相關技術
情感分析任務觸及到包括數據挖掘和機器學習以及NLP等多個領域,其本
7
質就是對所需的文本數據收集后并加以處理和分析的過程。
2.2.1數據獲取
數據獲取實際就是收集語料階段。從數據來源的渠道角度考慮,通常有兩種 情況:一是開放域的。如面向微博等社交平臺構建輿情檢測系統,數據自然來自 其公開的社交網絡;另一種是封閉域的,如面向醫療的數據挖掘任務存在于醫院 專用的網絡中,普通用戶是無法獲取其語料的。以上兩種情況是現階段就情感分 析領域被廣泛使用的兩種情感分析數據集的獲取來源,本文的語料數據是利用網 絡爬蟲獲取到的生鮮平臺上的評論數據。
2.2.2數據預處理
由于從公開的網址獲取得到的數據含有較多的噪聲和非規范語言現象,這就 為后續任務的模型學習造成了很大的障礙。因此在獲取數據之后,通常還需要對 文本進一步做預處理,以保證任務開展于規范與合理的數據之上。中文分詞和數 據清洗是數據預處理階段的兩個主要步驟。
2.2.2.1 數據清洗
來自于公開社交網絡的評論數據由于其本身的無規律以及復雜多樣性,不可 避免的帶有噪聲或者含有無意義的文本,所以第一步就要對收集得到的數據進行 清洗,通常包含以下三個步驟:
(1)噪聲處理:從網站上抓取得到的中文文本中可能還有一些英文的評論, 這就需要對字符串的語言類型進行識別,刪除那些不需要的語言數據。另外,抓 取得到的文本中可能含有無任何意義的語言數據,例如:亂碼、表情、特殊符號 等等,需要做特殊處理,可以利用規則或者模板等方法進行判斷后刪除。
(2)刪除過短的文本:對于英文的評論,可以直接利用空格統計評論文本 的詞匯數。而對于中文文本,通常需要進行分詞之后統計詞匯數目,通常刪除詞 匯數量少于某個閾值的評論。
8
(3)標簽對應:不同網站上提供的標簽類別不盡相同,而標簽類別和希望 學習的分類器類別也會有所差異,因此需要進行標簽或者類別對應。如從網站上 抓取得到的評論文本的打分制是5分制,而情感分類只需要區分褒、貶兩類,因 此需要把不同打分的評論標簽對應到“褒義”或“貶義”兩個類別上。
有效的數據清洗可以更加全面的篩除數據中的無效信息,減少噪聲并降低后 續建模成本和運算成本,更重要的是可以提高模型的學習效率。
2.2.2.2 中文分詞
中文分詞就是把文本內容切分成詞序列的自動化過程。不同于英語等歐語系 可以直接利用空格進行分割,中文文本的特點是連續性,字符串之間在表達完一 條清晰的語義后才會出現分割符號,所以在對中文文本數據進行預處理時,就需 要對文本數據做分詞處理,即將其分割為符合中文語言邏輯的單詞序列。分詞步 驟對于中文的自然語言處理是一個必要條件,情感分析結果的準確度在一定程度 上取決于分詞的好壞。國內外學者在中文自動分詞領域已經提出了大量切分方法, 早期提出了基于字符串匹配的分詞[切,再后來提出基于n元語法(n-gram)的方 法[24],一直到近年來使用更廣泛的基于深度學習的分詞[25]。
(1)字符串匹配分詞法
這種方法也被稱做是基于字典的分詞,方法的邏輯就是首先建立一個“足夠 大”的詞典,再根據規定的匹配策略將待配字符與已構建的詞典做匹配,若該詞 被找到,則表明完成匹配,識別成功。同時這種分詞方法又依據掃描詞條方向的 不同被分成正向、逆向匹配;依據所匹配詞條長度的區別被分為最大、最小匹配。
a.正向最大匹配
這種方法就是按照從左到右的方向,對輸入的語句進行最大長度詞的貪心匹 配,如果不能構成詞,則會被劃分開來。若給定的詞典中包含的最長詞有k個中 文字符,則利用待切分語段的前k個字符在詞典中進行查找匹配。如果詞典中恰 好存在一個同樣的字符串則代表匹配成功,同時該匹配字段會被切分。若未能匹 配則去掉待切分語段的最后一個字,將剩余的內容重新與詞典依次匹配,直至匹
9
配完成。對剩余的文本內容采用如上所述的方法,直至掃描完整個文本。
b.逆向最大匹配
逆向最大匹配分詞法的原理與正向最大匹配是相同的,但其分詞順序不是從 文本中的第一個字符開始掃描,而是從最后一個字符開始掃描。這種分詞法是利 用經過逆序的分詞詞典,每一個詞典中的詞條也都是逆序進行存儲。所以在實際 應用該方法進行切詞處理時,首先要對文本中的語句進行倒序排列,對生成的逆 序文本利用逆序詞典進行正向最大匹配,由此產生分詞結果。
c.最小匹配分詞法
最小匹配分詞法的目標是將一段文本應該分成數量最少的詞串,雙向最大匹 配分詞法首先會查找詞典中最長的詞,并判斷其是否為所尋找的目標字符串,判 斷為真則進行切分,然后不斷重復執行以上步驟。之后每次都會在剩余的字符串 中查詢長度最長的詞進行分詞,最終得到子字符串數量最少的分詞結果。
以上方法除了可以單獨使用以外,也可以將它們相互組合使用,比如正向最 大匹配組合逆向最大匹配可以相互結合形成雙向匹配分詞方法。有數據結果顯示, 相比于正向最大匹配方法,逆向匹配可以取得更高的準確度。但在實際運用中, 這樣的錯誤率遠遠無法滿足需要,所以除了初始的機械分詞,還需要通過其他手 段來提高中文分詞準確率。
針對此方法已產生了兩類改進方式,可以通過改變掃描的方式,也可以使標 注和分詞相結合。前者又被稱作標志切分或者特征掃描,方法是優先找出帶有明 顯情感特征的詞語作為斷點將原始文本切分成更短的字符串再進行機械分詞。后 者在分詞過程中可以利用到詞類信息,同時標注過程也可以校驗分詞結果,如此 能提高切分的準確率。
(2)基于統計的分詞
該方法的思想為利用統計學方法從已被分詞的大量文本中學習到詞的切分 規律,并利用這一規律實現對新文本的分詞。若存在兩串字符出現在相鄰位置的 頻次越高,則說明其組成詞的可能性更高。因此,詞的可信度可以由字與字出現 的概率反映,由此可得到它們之間的互現信息,它更能明確的反映字間的聯系緊
10
密程度。當此統計量數值超過某閾值時,就可以認為這些漢字會構成一個詞,這 種基于統計的方法也稱為無字典分詞。
互現信息是指相鄰的兩個字之間共現的概率。令c=cc2…cm,C為待分詞 的文本字符串,w = ww…w”,w是分詞結果,設p(w | C)是文本字符串C分 詞成為W的概率值,w,,wb,…,wk是C可能被切分成的所有結果,那么,基于 統計的分詞方法就是得到目的詞W,使W滿足如下公式(2-1):
P(W | C) = MAX(P(Wa | C), P(Wb | C),…,P(Wk | C)) (2-1)
即估計概率為最大之詞串,也稱函數P(W | C)為評價函數,進一步求解 p(w | C)在不同資源需求下的值。
基于統計的分詞方法在進行分詞時依賴于字與字之間在大量語料中的互現 信息,雖然這類方法不用再消耗人工資源進行字典的構建,但這樣的方法也存在 一定的局限性,一些共現率很高但其本身并非詞組的組合經常被認為是詞,例如 “你的”、“這一”等,造成了分詞的準確率不高且計算消耗巨大。所以在實際 應用中,一般會將基于字典的匹配方法和互現信息結合的方式來提高準確率。
(3)基于深度學習的分詞 近年來,得益于深度學習技術的日益發展,以深度學習為基礎的模型在中文 分詞任務中表現出了極佳的性能表現。這種方法是通過端到端的訓練進行特征的 學習,更適合語料庫較大的場景,同時基于深度學習的分詞法能表現出如此超群 的效果也正是在于深度學習在自動提取特征上卓越的能力。
研究者們先后提出多種基于深度學習的中文分詞方法。其中,由字構詞的分 詞方法是中文分詞研究中最為經典的一種方法,通過這種方法就可以中文分詞問 題就會被轉換成序列標注問題,例如,在一段文字中,可以將文本中的每個字依 照他們在詞中的位置進行標注,常用的標記有以下四種:詞首字(記為B, Begin)、 詞尾字(記為E, End)、詞中字(記為M, Middle)和單字詞(記為S, Single)。 分詞流程即通過向模型中輸入字符得到對應的序列標記,再據此對字符進行分詞。
11圖 2- 1 BiLSTM-CRF 網絡結構
在自然語言處理領域中,BiLSTM-CRF[26]作為文本序列標注的經典網絡,其 網絡結構如上圖 2-1 所示。其中輸入輸出層分別為 Word embedding 和 CRF 層。 整個分詞過程中在得到字嵌入特征后利用雙向 LSTM 層輸出得分,這個得分就 是各詞詞性在當前位置的得分,在當前位置得分的基礎上由于模型中加入的 CRF 層又增加了一層詞性概率轉移約束,通過這種方法可以使某些語法規則的先驗信 息被考慮進去。
2.2.3文本表示方法
數據在經過數據清洗等預處理步驟之后便可以得到可用于訓練的數據集,但 是此時的數據集仍是由中文字符構成的,不能夠直接喂入模型中直接參與計算。 而是需要將文本轉換成數值型的數據才能被計算機所識別和處理。計算機處理圖 片的本質是把圖片作為了三維矩陣,圖片中的像素點對應于矩陣中的值。同樣的, 文本中的單詞、短語也可以通過數值張量來表示,這樣的表示方法被稱作文本表 示法。文本表示法又被劃分為兩類,分別是離散表示方法以及分布表示方法。離 散表示方法只是對詞進行向量化表示,而沒有關注到單詞的語義信息,且得到的 向量矩陣稀疏,也無法對詞向量間的相似性進行度量。分布式假設指的是若兩詞 有著相似的上下文則可以推出這兩次也相似,而分布式表示是從這一個角度,利 用共生矩陣來獲取詞的語義表示,將所有單詞映射到一個低維、稠密的空間中。
12 按照發展的歷程來分類,分布式表示又可以分成靜態詞嵌入方法和動態詞嵌入方 法。比如Word2Vec[27]、GloVe[28]等這些模型生成的詞向量都是靜態的,ELMo[29] 及BERT[30]這類模型會考慮單詞的上下文信息,所以同一個單詞由于上下文不同 也會生成不同的單詞向量。
2.2.3.1 離散表示方法
將文本轉為向量常用的離散表示方法就是 One-hot 編碼。這種編碼方式的思 想是把每個單詞表示成一個唯一的整數索引,再從索引轉為二進制向量,這個向 量的長度為 N, N 也就是詞表大小,且這個向量僅在索引處標記為 1,其余處元 素均為 0。例如:給定四個樣本,且每個樣本包含三種特征,如下表 2-1 所示:
表 2- 1 不同樣本特征表
特征-1 特征-2 特征-3
樣本2 1 4 3
樣本2 2 3 2
樣本3 1 2 2
樣本4 2 1 1
如上表所示,每種樣本的特征值都用十進制進行了數字編碼,其中特征-1, 特征-2,特征-3 分別具有不同的取值范圍。根據上文的介紹可知 One-hot 編碼要 求每個樣本中只有一個有效位表示特征。這里特征-3 有三種狀態,使用 One-hot 編碼不同樣本的統一特征就需要用 3 個狀態位表示以便于每個樣本中只有一位 狀態位為 1。則 1-3 分別可以表示為:001、 010、 100。接著對其余的特征也用這 種方法表示,則上表變為如表 2-2 所示:
13
表 2- 2 不同樣本特征
特征」 特征-2 特征-3
樣本2 01 1000 100
樣本2 10 0100 010
樣本3 01 0010 010
樣本4 10 0001 001
由上文,可以將4 個樣本的特征向量表示為:
表 2- 3 使用 One-hot 編碼特征表
特征向量
樣本2 [0,1,1,0,0,0,1,0,0]
樣本2 [1,0,0,1,0,0,0,1,0]
樣本3 [0,1,0,0,1,0,0,1,0]
樣本4 [1,0,0,0,0,1,0,0,1]
One-hot 編碼雖簡單卻也有許多的缺點。語料庫通常都是很大的集合包含了 大量的單詞數,當每個單詞都映射為一個向量時,則向量維數過大會使得矩陣十 分稀疏。另外由于每條詞向量只有一位為 1而其余位置都是 0導致不同的詞向量 間均是兩兩正交,這也進一步導致通過詞向量并不能得到不同詞間的相似性。
2.2.3.2 分布式表示方法
傳統的one-hot編碼無法刻畫詞語的語法和語義信息,那么如何將語法和語 義信息編碼在語言的表示中,成為研究者關注的重點。Harris和Firth等人由此 提出分布式假說:該單詞所在的上下文決定了該詞的語義,所以若上下文相似則 對應詞語的語義也相似。由該假說可知單詞的表征準確度很大程度上源于對上下 文的建模。
(1)Word2Vec
Word2Vec是Google開源的計算低維詞向量的預訓練模型,由Tomas Mikolov 等人于2013年提出,其中包括了 Skip-gram以及CBOW模型[31]。它們不再是嚴
14
格意義上的語言模型,而是完全基于詞與詞之間的共現信息實現詞向量的學習。
CBOW模型根據一定的窗口大小內的上下文C對t時刻的詞wt進行預測,
CBOW 模型可以表示成圖 2-2 所示的前饋神經網絡,與一般的前饋神經網絡相比,
CBOW 模型的隱含層只對詞向量層取平均操作,這也是 CBOW 模型具有訓練效 率的主要原因。CBOW模型預測目標詞是通過將上下文窗口中單詞的集合作為 條件輸入來計算得到,即P(Wt|ct),其中ct = wt_k,…,wt_1,wt+1,^,wt+k。
圖 2- 2 CBOW 模型架構圖
針對于此 Skip-gram 模型進行了更進一步精簡,其思想是在預測目標詞時利 用ct中每個詞當作獨立的上下文,由此可知,Skip-gram模型建立的是詞與詞之 間的共現關系,即P(wt+j | wt),其中j g{±1,... 土 k},其模型可以表示為圖2-3的 結構。
圖 2- 3 Skip-gram 模型架構圖
15
(2)BERT
2018年,BERT語言表征模型由Devlin等人提出,其英文全稱為Bidirectional Encoder Representations from Transformers,模型基本結構如圖 2-4 所示。傳統的 基于條件概率建模的語言模型結構會受到單向語言模型(從左到右或從右到左) 的限制,因而也限制了模型的表征能力,使其只能獲取單方向的上下文信息。而 BERT構建出的整個模型利用了兩個自監督任務來實現預訓練同時還采用了雙 向Transformer的深層組件,使得最終生成的表征向量能夠結合上下文語義,是 一種深層的雙向語言表征。
BERT
E, e2
圖 2-4BERT 的模型結構
BERT 模型是由 Masked Language Model (MLM)和 Next Sentence Prediction
(NSP)這兩個自監督任務來實現模型的預訓練。MLM借鑒了 CBOW “完形填 空”的模式創新性的提出了掩碼語言模型,迫使模型使用被掩碼詞的上下文信息 還原掩碼位置的詞,從而實現了真正的雙向語言模型。此外,為了建模兩段文本 之間的關系,NSP用來學習句間關系與順序邏輯,即預測兩個句子A和B中A 的下一句是否為B,以建模兩段文本之間的關系。
在經過大規模無監督數據訓練之后,BERT能夠在最大程度上獲取長距離語 義信息。通常情況下,經過預訓練之后的語言模型的應用方式有以下兩種。第一 種方式是直接利用 BERT 提取文本特征,生成對應的上下文語義表示,而 BERT 本身不參與目標任務的訓練。由于預訓練語言模型本身不參與下游任務的訓練, 所以其在訓練效率上相對較高,但這種方法也有一定的缺點,因為預訓練語言模
16 型本身不參與下游任務的訓練,本身無法根據下游任務進行適配,更多依賴于任 務模型的設計;第二種方式是利用 BERT 作為下游任務模型基底,生成文本對應 的上下文表示,并參與下游任務的訓練,在訓練的過程中 BERT 對自身參數也會 進行更新,所以需要更大的參數存儲量以存儲模型,進而在模型訓練效率上存在 一定的劣勢[32]。對于 11 個經典 NLP 任務, BERT 模型均能獨占鰲頭。它的出現 在語言表征模型中具有里程碑式的價值,與此同時,在 NLP 領域也有了可以學 習的全新范式,即首先預訓練出通用模型,在這個通用模型中,字和詞以及句子 之間的關系都得到了充分的捕捉,其在不同的應用場景只需要微調就可以適應特 定的任務。
2.3圖神經網絡
近年來,由于深度學習領域研究的不斷深入,大多機器學習任務已經發生了 巨大的變革。無論在自然語言處理還是計算機視覺領域,任務中的數據一般都是 在歐幾里得空間中來進行表示的,如圖 2-5 左邊即為歐式數據。然而,在越來越 多的實際應用中,數據是從非歐幾里得空間得到生成的,而傳統的神經網絡結構 如 CNN、RNN 等都是接受歐幾里得空間的數據作為輸入,并不能處理非歐幾里 得空間的數據結構,比如圖數據和流形結構,所以圖神經網絡(graph neural network, GNN)的優勢便顯現出來了[33]。
圖 2-5 歐幾里得空間數據與非歐幾里得空間數據
圖神經網絡是旨在將深度神經網絡應用于非結構化數據的方法,其可以看作
一個關于圖的特征的學習過程[34]。由于圖神經網絡對圖中相鄰的節點共享參數,
17
所以可以學到圖結構的某種特征。對于側重于節點的任務來說,圖神經網絡模型
旨在學習每個節點的代表性特征,這些節點特征將有助于該類任務的后續處理。 對于側重圖的任務來說,圖神經網絡模型的目標是學習整個圖的代表性特征,而 學習節點特征通常只是它的一個中間步驟。
A G {0, 1}NxN,創if) e 欣恥咖 A e {0, 1}Nxn, F(o® € 欣Nx血
(a)
A(ip> e {0, i}^x^p, f^p) G ^op} G {0,1}^,Fw G
(b)
圖 2- 6 圖濾波和圖池化操作
一般而言,將節點特征和圖結構作為輸入,以一組新的節點特征作為輸出的 過程稱為圖濾波(Graph Filtering)操作。公式(2-2)涉及到的上標和小標中的 if和of分別表示濾波過程中的輸入和輸出,圖2-6中(a)圖描述了一個典型的圖 濾波操作,其中圖濾波操作只改變節點的特征而不會改變圖結構,通常通過連續 堆疊多個圖濾波操作來生成最終的節點特征。而對于側重圖的任務,還需要其他 的操作從節點特征生成整個圖的特征,池化(pooling)操作用于匯總節點特征以 生成圖特征,公式(2-3)中的i和o分別表示池化操作的輸入和輸出,圖2-6中 (b)圖描述了一個典型的圖池化操作,其中圖池化利用圖結構(鄰接矩陣)指導 池化過程。
F) = h( A, F(if)) (2-2)
A(o), F(o) = pool (A(,), F(i)) (2-3)
在自然語言處理中,圖被廣泛應用于表示語言結構[35]。自然語言的圖表示以 明確的結構方式承載了豐富的語義和結構信息,其通過節點信息的傳遞規則和語 法結構信息的建模,為多種自然語言處理任務提供了新穎的解決思路。
18
2.4多屬性排序
在實際應用中面對綜合性評價,評價中涉及到了多種屬性,這種情況下需要 把各種屬性可能導致的排序結果綜合考慮進去時就涉及到了權重。權重賦予了該 種屬性的重要度,因此多屬性排序問題的要點之一就是客觀的對各種影響因素賦 予其合理的權重值。
2.4.1權重的賦值方法
主觀賦權法是對權重進行賦值的主要方法之一,這種賦值方法完全依靠于專 家或決策者的主觀意志,依賴其自身經驗和專業知識,雖然這種方法可以靈活地 應對環境的變化,然而,即便是同一事物,不同的專家或決策者可能也會產生不 同的理解,甚至在不同時期同一專家也可能有不同的理解。所以這種方法存在很 大的隨機性,如何避免也就成了決策者和專家們需要面臨的挑戰[36]。
基于以上主觀賦權法的諸多局限性,又隨之提出了一種客觀賦權法。通過建 立的數學模型來確定權重值的過程就是客觀賦權,這一模型通過各屬性間的相互 聯系創建,由于權重值是通過模型計算而得到的客觀值,相較于完全依賴人為判 定的主觀賦權來說有一定的理論基礎,結果也會較為客觀。但是這種方法由于沒 有專家通過自己的經驗去做一些人工干預,可能會會導致出現權重的大小與實際 情況相違背,是因為不重要的屬性不一定權重小且不同屬性之間可能具有較大差 異。本實驗中對權重賦值用到的兩種方法分別是主成分分析和因子分析。
2.4.2主成分分析方法的數學模型
主成分分析屬于許多統計方法的其中之一,也稱 PCA(Principal Component Analysis)。主成分分析方法的算法本質就是把原有的眾多變量最大程度的進行 組合,得到的是相互無關的幾個綜合變量,另外也可以依照實際需求再從中提取 出更少的綜合變量,這幾個變量也可以盡可能全面的反應所有的原變量。主成分 分析方法的目的就是重新將原本存在相關性的許多指標合并成一組新的綜合指
19標,這組新指標互不相關且可以最大程度的取代原有指標。從數學角度來說處理 方式即為對原始指標進行線性組合就可以得到新的一組綜合指標。主成分分析的 模型如圖2-7所示,其中X1到X5是指可觀測變量,PC1和PC2是指代主成分。
2.4.3因子分析方法的數學模型
因子分析的本質就是把共性因子從可能存在相關關系的眾多變量中提取出
來[37],通常來說用到的方法是方差貢獻率,即用因子和方差貢獻率去代替屬性和 權重,其數學表達式為:
‘ / = auF1 + 他耳 + ... + a1 mFm +芻,
X2 = a21F1 + a22F2 + …+ a2 mF.m + &2,
.Xp = ap1F1 + ap2F2 + ... + apmFm + &p, 寫作矩陣形式為:
矩陣可以寫成表達式:X = AF + 8 ,式中F代表公共因子向量,矩陣A是 因子載荷矩陣,8代表特殊因子向量,一般會做出這樣的假設:
20
一 E (F ) = 0,
E (&) = 0,
<V (F) = I,
V (&) = D = diag&, b;,.. q;),
Cov( F) = 0.
因子分析的模型如圖 2-8 所示,其中 X1 到 X5 是指可觀測變量, F1 和 F2 代表因子, e1 至 e5 表示誤差。
圖 2- 8 因子分析模型
2.5本章小結
本章基于用戶評價的生鮮電商商品的推薦系統,主要介紹了相關的理論知識。 首先介紹了情感分析的含義及情感分析的流程,其中著重介紹了幾種分詞法,并 講解了文本表示方法。其次簡單概括圖神經網絡的理論和特性。然后介紹了多屬 性排序的兩種數學模型,對比了主觀及客觀賦權法的區別,介紹了客觀賦權法涉 及到的因子分析和主成分分析的基本定理及公式。以上內容都將作為本文研究課 題的基礎理論前提。
21
3基于用戶情感分析模型的排序算法設計
近年來 BERT 模型在 NLP 領域的大放異彩,但是基于現有的 BERT 模型只 將首個分類字符[CLS]作為最終分類結果,而忽略了其他位置特征的表達這一問 題,本章將提出利用注意力機制對原有模型進行改進,盡量地提升模型在短文本 情感分類領域的準確率。同時為了克服以往情感分析方法僅僅關注于文本語義而 忽略全局關系的問題,提出利用圖的形式建立文本中詞語間的共現關系,以進一 步提高模型性能,最終結合改進后的算法模型得到的分類結果設計出一個新的電 商平臺商品的推薦排序方法。
3.1需求分析與方案設計
隨著我國電子商務產業的蓬勃發展,越多越多的傳統商業模式被取代,規模 越來越大的網絡購物平臺以及各類琳瑯滿目的商品數量在不斷擴張。與服飾等品 類不同,生鮮作為眾多品類中一員其特點是產品均為標品,產品線較為單調,顧 客在選購時的影響因素相對較少且比較客觀,那么顧客如何在這種情況下更加快 速高效的選擇到更加心儀的商品、商家如何打造更具吸引力的產品、購物平臺可 以從哪些角度優化推薦算法等都成了十分值得關注的問題。所以本文將商品評論 這一因素加入生鮮商品綜合排序的范疇,基于生鮮商品下的用戶評論進行情感分 析,使商品在排序時不僅考慮到銷量、價格等客觀因素,還能綜合考慮到已購買 用戶的真實評價因素。
(1) 對于消費者群體而言,消費者在選購生鮮時除了關注商品價格、銷量、 克重等因素,還會花費大量的時間用來瀏覽其他用戶的評價,所以針對用戶評價 的情感分析可以在很大程度改善商品排序質量,從而節約消費者挑選商品的時間, 使整個購物體驗更加快捷高效。
(2) 從電商平臺角度出發,當用戶的真實評價內容會影響商品的權重時, 電商平臺會一定程度上對產品品質和相關服務進行更嚴格的把關。同時用戶在購 物過程中的售前和售后中的服務質量都會對用戶的決策造成很大程度的影響,無
22
論是服務態度冷漠或是惡劣低俗的營銷套路等都會降低用戶的購物欲,因此營造 一個良好的購物環境會大大增加用戶對商品的好感度,為消費者提供更優質的產 品及服務。
本文通過分析生鮮商品的用戶評論信息的情感傾向,數值化每一條評論的情 感得分,從而得到某一生鮮商品的整體情感傾向,之后再結合快遞服務、商品價 格、售后質量等多個因素計算該商品的綜合排序得分,最終按照從高到底的順序 向用戶進行推薦。綜上,本文整體的研究方案設計如圖 3-1 所示。
圖 3- 1 整體方案設計框架
首先從生鮮平臺獲取數據,經過預處理后得到本文所需的數據集,然后根據 需求分析和現存問題在 BERT 原有的模型結構基礎上增添一種基于注意力機制 的語義加權模塊以獲得更準確的分類效果,并將該模型命名為BERT-ATT。此外, 實驗利用數據集中的所有樣本構造成一個大型異構文本圖并基于圖神經網絡學 習圖中每個節點的表示,并將該模型命名為BERT-GCNo為獲得更好的分類效果,
23
實驗將 BERT-ATT 模型與 BERT-GCN 模型進行進一步融合得到 BERT-ATT-GCN 模型(下文簡稱 BAGC 模型)進一步提高了準確率。最終,把由 BAGC 模型得 到的情感數據作為商品的屬性之一并利用特征工程得到商品綜合得分,再借助因 子分析和主成分分析得到不同的綜合排序結果供消費者參考。
3.2融合 BERT 語義與全局關系的情感分析模塊設計
3. 2. 1基于BERT的語義加權模塊設計
BERT 作為一種基于多層 Transformer 的預訓練語言模型,不僅利用了大規 模無標注文本來挖掘其中豐富的語義信息,同時還進一步加深了自然語言處理模 型的深度。BERT的基本模型結構由多層Transformer構成,完全使用自注意力 機制進行文本的編碼和處理[38] 。 Transformer 的總體結構如圖 3-2 所示,編碼模 塊是由多個 Encoder 層組成,解碼層也是類似的結構[39]。圖 3- 2 Transformer 總體結構
從宏觀角度來說,BERT模型實現了真正意義上的雙向Transformer。根據自 注意力機制,編碼器對于所有輸入的單詞都會根據整體輸入序列進行加權求和輸 出一個新的表征,由此所有輸出的單詞表征均涵蓋了整體序列當中所有詞的信息。 在這樣的機制下相同的詞由于整體輸入序列的不同也會得到完全不同的詞表征。 更具體一點,自注意力機制將文本以矩陣形式輸入,然后輸入矩陣會基于不同的 三個線性層映射后得到輸入向量Q,K,V,而多頭特殊機制如圖3-3所示[40],就是
24
通過向量Q,K,V分別利用不同的線性映射層映射得到的,再拼接得到的不同子 空間的輸出并將結果輸入至線性層。
其中自注意力中的Attention計算如公式(3-1)所示[41]。每個字的key和query 向量維度由dk表示,式中通過計算獲得的結果是一個矩陣,即Attention值。矩 陣中的行表示的是每個字的Attention向量,句中的每個詞與其他位置詞的關聯 性程度是由 Softmax 層計算得到。
Attention(Q, K, V) = Softmax ( )V (3-1)
dk
BERT 模型的訓練過程極為耗時耗力,所以在一般情況下研究者都會直接使 用其提供的預訓練參數在對應的下游任務上進行微調。具體地,針對情感分析這 類句子級文本分類任務,BERT模型在文本前插入一個[CLS]符號,[CLS]通過自 注意力機制來獲取句子級別的信息表示,在不同的任務上微調之后,[CLS]會捕 捉特定環境下的上下文信息表示,并將該符號對應的輸出向量作為整篇文本的語 義表示,作為文本分類的依據[42]。然而這種方式下的特征表達只會利用到模型結 構中的首個分類字符[CLS],而其他的所有位置都會做忽略處理,由此便會造成 文本向量表征部分缺失,直接導致在后續分類中性能下降。
和以往方法不同的是,本實驗在BERT原有的模型結構基礎上增添一種基于 注意力機制的語義加權模塊,盡可能的使模型輸出BERT編碼層中所有位置的特 征,以獲得更準確的分類效果。改進之后的BERT模型如圖3-4所示,本實驗引
25入語義加權模塊位于 BERT 編碼輸出層和分類器之間,下面針對情感分析任務的
建模的方法進行說明。
評論文本
圖3-4基于BERT的語義加權的情感分析結構圖
(1)輸入層
詞向量(Token Embedding)、塊向量(Segment Embedding)和位置向量 (Position Embedding)之和共同組成了 BERT的輸入表示。為了方便計算,這 三種向量維度均為e,因此可以通過下式計算輸入序列對應的輸入表示K :
V = V + Vs + Vp (3-2)
式中,V、Vs、V-分別表示詞向量、塊向量和位置向量。其中詞向量通過 查表的方式將輸入文本轉換成實質向量表示;塊向量用來編碼當前詞屬于哪一個 塊(Segment),當輸入序列是兩個塊時,第一個句子中的每個詞對應的塊編碼 為 0,第二個句子中每個詞對應的塊編碼為 1。位置向量用來編碼每次詞的絕對 位置,將輸入序列中的每個詞依照其下標書序一次轉換為位置獨熱編碼。
為了描述方便,輸入層的操作統一歸納為公式(3-3),其中xjD代表輸入的 第i個語句中的第j個詞,[CLS]與[SEP]分別是輸入序列的開始字符以及子序列
26
間的分隔字符。
X = {[CLS],x11),x21),..必1), [SEP],xn+],xn+2,…,xmp, [SEP]} (3-3)
經過對原始輸入X通過如下處理后,BERT的輸入表示V可以寫作:
V = InputReresentation(X ) (3-4)
( 2) BERT 編碼層
在BERT編碼層中,BERT的輸入表示V經過L層Transformer,借助自注意 力機制充分學習文本中的每個詞之間的語義關聯。由于 Transformer 編碼方法已 在前文介紹,此處不再贅述。
t"] = Transformer-Block(t[ 1 _1]),Vl w {1,2,…,m} (3-5)
式中,t[l] w Rmxd表示在第m層Transformer的隱藏層輸出,同時規定t0 = v, 以保持公式的一致性,t[m]為最后一層Transformer的輸出,為了方便描述,將最 終輸出的上下文表示記為T w Rmxd ,其中d表示BERT的隱含層維度。
(3)語義加權層 在輸出層和編碼層之間的語義加權模塊結構如圖 3-5 所示。該模塊利用注意 力機制對所有位置的單詞進行語義加權得到最終文本表示,避免了以往方法中只
將[CLS]符號作為整個文本表示的語義缺失問題。 編碼層輸出T
權重矩陣
HXH
注意力圖譜Map
HXL
圖 3- 5 語義加權示意圖
27
基于注意力的語義加權的權重計算如公式3-6和3-7所示,式中%和W2分 別是初始化的權重矩陣, tanh 為激活函數。首先通過雙線性變換計算權重矩陣對 應的注意力圖譜進而可以通過 Softmax 層得到歸一化的注意力分值,再將相同位 置元素的注意力分值向量和編碼層的輸出向量加權相乘,最后相加得到最終的特 征向量 P。
SCORE = Softmax (W2 tanh(W1T)) (3-6)
P =工 ZSCORE, T (3-7)
3.2.2基于圖神經網絡的文本全局關系建模設計
圖是一種可用來描述和建模復雜系統的通用語言,相比較于將自然語言建模 為序列(sequence)或詞袋(bag),圖可以捕捉到自然語言中更豐富和細節的信 息,因此對于很多自然語言處理任務,圖是一種非常合理的表示方式,其可以有 效處理文本中豐富的關系結構,從而克服以往傳統深度學習方法僅僅關注于文本 語義而忽略全局關系的問題[43]。對于文本情感分析任務,如果能夠建立文本中的 詞語共現關系,并以圖的形式建立它們之間的聯系,就可以有效幫助文本理解。
為了捕捉全局詞間的共現關系,從而加強文本句間的聯系,本文將情感分類 任務中的語料庫構造成一個大型異構文本圖,然后基于圖神經網絡在樣本標簽的 監督下學習圖中的每個節點表示,在此過程中應用 3 個圖濾波層來確保每個節點 都可以訪問到多個鄰居的豐富信息。針對情感分析任務,整個建模步驟分為三步, 分別是文本-單詞關系圖構建、基于圖神經網絡節點特征聚合、基于注意力機制 的信息篩選,其整體架構如圖 3-6 所示,其中異構文本圖是由文本節點(以 S 開 頭的節點)和單詞節點以及兩種類型邊所構成的。
28
(1)文本-單詞關系圖構建
當構建關系圖時,將數據集中的文本與單詞分別視為圖中兩種不同類型的異 質性節點,其中節點的數目為數據集中的樣本數目和單詞總數之和,節點與節點 之間的邊類型包括文本-文本邊和單詞-單詞邊。單詞節點與文本節點間的邊是否 存在取決于該單詞是否出現于該文本中,單詞與單詞之間的邊是否存在取決于兩 單詞是否處于同一文本中。
單詞節點與文本節點間的邊權重信息取決于詞頻與逆向文本頻率的乘積,該 權重衡量了某一單詞在文本中的重要程度[44]。其計算公式如下:
Kij = IiTij (3-8)
上式中,Tj為詞頻,其中i, j分別表示單詞索引與文本索引,其統計的是給 定單詞在文本中出現的頻率。I為逆向文本頻率,其值是由文本的總數量除以包 含該單詞的文本總數目計算得到,用來衡量一個詞語普遍重要性。詞頻與逆向文 本頻率的計算公式如下所示:
T = nj 工 k nkj (3-9)
1 = log(D|/{j : t e色}) (3-10)
如公式3-9,文本dj中單詞t的頻次用n表示,文本中包含單詞的總量用 工k nkj表示。在公式3-10中,D|表示數據集所有樣本總數目,{j: t e d}}為包 含詞語tt的句子總數。
29
計算兩個單詞節點之間的權重值則使用點互信息,統計兩個單詞在同一文本 中同時出現的概率,概率值越大則說明這兩個單詞的關聯程度越高,其由單詞i, j 分別出現在數據集中的概率P, Pj與共同出現在數據集中的概率計算得到:
Pmi = log2 (Pij /PiPj) (3-11)
至此,實驗完成了文本-單詞關系圖的構建,其中沒有連接的節點之間的權 重設置為0,相同節點間的權重設置為1,最終可得到包含異構文本圖中所有節 點關系的鄰接矩陣A , A w Rnxn。
(2)基于圖神經網絡節點特征聚合
在已構建的文本-單詞關系圖上, 再構造一個三層的 GCN (Graph Convolutional Network, GCN) [45]。在第一步中構建的關系圖中有n個節點,每 個節點的特征都可以表示為特征矩陣X w Rnxd ,其中文本節點表示由文本中所有 單詞表示向量平均得到。隨后將鄰接矩陣A與特征矩陣X通過GCN,就會得到 下一層 GCN 的輸入:
-1 -1
H舊)=b(D「2AD 2H°)W(l)) (3-12)
如3-12公式所示,A為鄰接矩陣,D表示A的度矩陣,各節點的度用矩陣D 中各對角線元素來表示,H®為l層的輸出,對于輸入層而言,H⑼=X , o為 非線性激活函數。
基于圖神經網絡的節點特征聚合是通過已構建的鄰接矩陣A將各自節點的 特征信息發送給對應的鄰居節點,因此圖中每個節點都會接受到鄰居傳來的特征 信息,當節點接受到所有的鄰居信息之后,接著對節點的表示做非線性變換,輸 出的節點表示即為更新后的表示。
(3)基于注意力機制的信息篩選
注意力機制作為一種從大量信息中篩選重要關鍵信息的一種方法,已在深度 學習中廣泛應用。在使用圖神經網絡對不同節點的特征進行提取之后,使用注意 力機制對不同節點分配不同的注意力權重來實現對關鍵信息的篩選,使得該模塊 加強特征內部的聯系,以提高情感分類的準確率[46]。針對圖中的文本節點G , 其加權求和的過程如下:
30
G =工;=M
S = tanh(wTh + b)
eSs
通過以上公式就可以借助加權平均的方式計算文本節點的輸出,其中公式 3-14計算每個輸入的得分S,,以此來評估對輸出G的權重,公式3-15計算S’經過 歸一化后的權重值冬。
3.2.3語義與全局關系融合模塊
對于給定的生鮮商品評論文本M, ={X],x2,…,xm}。由于本文提出的情感分 析模型由加權模塊和文本全局關系建模模塊構成,因此再分別得到兩者的輸出值 后,對由BERT得到語義信息與由圖模型得到關系信息進行拼接得到最終的文本 表征向量,如下圖 3-7所示,最后通過分類器進行情感分類。
分類層包括全連接和Softmax層兩部分,首先將拼接得到的特征向量輸入到 全連接,然后通過 Softmax 將實數映射為結果和為 1 的概率分布,最終得到情感 極性的分類結果。
31
3.3綜合情感分析的排序算法設計
基于前文提出的 BAGC 模型可以獲得更高準確度的文本情感傾向,于是進 一步提出將商品評價情感傾向作為一個屬性引入商品排序中。將情感傾向結合特 征工程得到商品的綜合得分,依據不同的排序模型獲得不同的綜合得分結果,按 照得分的高低對商品進行排序進一步提升了消費者選購商品的效率。
3.3.1基于主成分分析的排序模型
主成分分析在眾多統計方法中較為常見。該方法的思想即是把可能有關聯性 的一組變量利用正交變換的方法使各變量間線性不相關,則不相關的這組新變量 被稱作主成分。由此可知這種方法主要借助于正交變換,可以使原隨機向量的分 量變得不相關,從代數層面來看體現為原隨機向量轉換成為對角形陣,從幾何層 面來看則是原坐標轉換成了正交坐標系,經過如上的變換后還需要再進行降維, 盡可能的使其能依舊保持較高的精度。
原隨機變量的協方差矩陣可以度量樣本間的維度關聯性,而非樣本本身的關 系[47]。對于協方差矩陣,樣本在各個維度上的方差可以用矩陣中主對角線元素來 表示,而除主對角線外的其他元素則表示兩兩維度間的相關性。由于本文研究需 要獲取關于商品的各維度間的方差以及相關性,所以需要借助到協方差矩陣來表 現。第一步需要對協方差矩陣進行“降噪”,所謂“降噪”就是盡可能的使矩陣 中非對角線元素為 0,對矩陣進行對角化處理為了盡量減少不同維度間得相關性, 對角化處理后的矩陣對角線上的值即為矩陣的特征值,這里的特征值不僅是各個 維度上本具有的能量而且還是各維度上的新方差。最后還需要對矩陣進行去冗余, 對于對角化后的矩陣保留具有較大能量(即特征值)的維度,舍去對角線上具有 能量值較小的維度就是去冗余。所以主成分分析這一過程歸根結底就是對角化協 方差矩陣[48]。
利用主成分分析法實現商品綜合評價的思路如下:
(1)首先把不同指標之間存在的數量級和量綱等影響消除掉,即標準化數
32) 求得每一主成分的特征值和方差貢獻率以及累計方差貢獻率。
(4) 利用各個主成分的指標系數與貢獻率相乘再求和,然后再分別與對應 的累計貢獻率做商,獲得各指標對應的權重即各主成分的評價指標。
根據上述求得的權重可以進一步求得綜合得分F,計算出不同商品對應的綜 合得分,按照得分對商品進行重新排序。
3.3.2基于因子分析的排序模型
因子分析也是統計學中非常重要的分析方法之一,它也是在主成分分析的基 礎上發展起來的[49]。從字面意思來看就是指有一些特征沒有從表面顯現出來,需 要從分析中把它們挖掘出來,這種方法是用來簡化和探索多變量復雜關系的常用 方法。基于因子分析方法的本質把公共因子從眾多的信息與特征中抽取出來的過 程,由之形成的得分函數就是因子得分乘上該因子的方差貢獻率,然后再對每個 因子的得分函數值進行求和[50]。判斷條件是否具備是進行因子分析的前提,具體來說是進行KMO和Bartlett 的檢驗,若符合則可進行因子分析。因子分析提取的因子所能解釋變量的程度可 以用公因子方差來表示,另外累計方差貢獻率越高,說明該因子能更好的解釋原 始變量、代表原始變量,效果越好。利用公因子方差作為權重,得到計算得分如 公式(3-17):F =特征lx權重+特征2x權重+ •••+特征nx權重 (3-17)F 就是商品最終的綜合得分,按照 F 值大小降序排列。排序越靠前,則代表 商品評分越高,該商品被平臺推薦展示曝光的機會也就越多。
3.4本章小結
本章首先概述了本文的研究動機和對應的方案設計,之后對本文提出的融合 BERT語義與全局關系的情感分析模型進行了詳細的介紹。在對其中的語義加權 模塊和文本全局關系建模模塊分別進行闡述之后,最后介紹了商品綜合排序算法 的思想和原理。
高校學術論文網提供專業的碩士畢業論文寫作、畢業論文輔導寫作、博士論文寫作發表、碩士論文寫作發表、SCI論文寫作發表、職稱論文寫作發表、英文論文潤色的服務網站,多年來,憑借優秀的服務和聲譽贏得了社會的廣泛認可和好評,為畢業生解決寫論文的煩惱