目 次
摘要 I
Abstract III
插圖和附表清單 V
目 次 VII
1緒論 1
1.1研究背景與意義 1
1.2研究現狀 2
1.3研究內容與組織結構 5
2理論基礎和研究方法 8
2.1數據分析法 8
2.2基于復雜網絡的傳遞熵 9
2.3機器學習方法 11
3 基于多源大數據調查公眾對教育均衡的關注度 16
3.1引言 16
3.2實驗數據集 17
3.3教育均衡公眾關注度的時空分析框架 17
3.4本章小結 22
4我國城市級學區住房信息流動的分析 24
4.1引言 24
4.2實驗數據集 25
4.3基于復雜理論和傳遞熵的時序數據分析框架 26
4.4本章小結 31
5基于機器學習的家長教育焦慮預測研究 33
5.1引言 33
5.2實驗數據集 35
5.3基于機器學習的家長教育焦慮分析框架和先導指數 37
VII
5.4本章小結 45
6總結與展望 46
6.1工作總結 46
6.2工作展望 46
參考文獻 47
致謝 54
在校期間科研成果 55
VIII
1 緒論
1.1研究背景與意義
隨著電子信息技術與通信技術的高速發展,網絡大數據為個人、企業、政府在信息 獲取、數據整合和網絡服務中做出巨大貢獻,但由于數據樣本量少、噪音大、數據異質 等局限性存在,大數據對政府大規模宏觀決策的改進并不明顯[1]。網絡搜索數據作為當 前獲取公眾情緒和集體行為的主要研究來源,能夠對公眾行為進行實時、準確和有效地 追蹤刻畫。通過對其有效挖掘、預測和診斷,有利于揭示公共治理中的關聯性、邏輯性 和復雜性,實現科學決策。
網絡搜索數據作為記錄數億用戶搜索行為的“意圖數據庫”[2],可以反映用戶對某 一社會事件的關注和意圖,并折射于用戶現實中的行為趨勢,被廣泛應用于各國社會經 濟指標中[3]。相比通過集會、集社、游行、抽樣調查、民意調查、產品銷售額、媒體閱 讀量等傳統方式表達方式[4],網絡搜索通過計算機、智能手機等上網工具提供給用戶更 直觀、更及時地對網絡新聞報道、描述的社會事件進行搜索、瀏覽的快捷方式[5]。目前 全球最大搜索引擎谷歌搜索提供的谷歌趨勢被國際學者作為一種開源的數據集用于分 析人類集體行為,例如預測消費者信心指數[6]、汽車銷售量[7]、景點游客量[8]、失業率 [9]等經濟指標。行為經濟學家認為,網絡搜索數據與包括投資者關注度、游客關注度等 公眾關注度有關[10],為預測人類集體行為提供新的解決方案。
百度作為我國最大的搜索引擎,連接著信息資源和用戶意圖,其搜索數據更能代表 國內用戶對某一事件的關注度,預示著國內社會或某一社會群體在真實生活中的行為趨 勢。其提供的百度指數與其他社會經濟數據源組成異構數據源,幫助提高模型預測效果。 例如,為了提高預測模型準確性,楊欣等人將百度指數作為投資者關注度變量預警國內 股市變動[11];朱曦等人利用百度指數反映社會經濟形式,預測中國公路運價指數,為公 路運輸業提供決策參考[12];高爽等人通過選取旅游相關關鍵詞來反映旅游者行為需求, 構建旅游需求模型[13];黃婕等人利用“新型冠狀病毒”關鍵詞分析公眾關注度,證明早期 開展迅速、實時地輿情監測有利于政府精確引導輿情走勢[14]。百度指數顯示了關于不同 搜索詞查詢量的聚合信息以及這些查詢量隨時間的變化情況[15],在研究公眾搜索行為、 公眾關注度中具有很高的可信度和可靠性。在本文中,百度指數被用于客觀地反映人們 對教育關注的潛在行為。
當前大數據已成為教育領域重要組成部分[16],是國家重點實施的公共服務大數據之 一[17]。傳統研究中的網絡數據主要來源于師生互動行為數據、學生答疑數據、學習過程 數據庫、題庫大數據、用戶行為記錄大數據等學習和教學數據[18],缺少教學之外數據源, 使得國內對教育規律、教育管理以及教育決策的大數據應用研究極少。這種特定渠道的
1 數據源已經無法滿足現代科學化的教育決策需要。搜索引擎不僅為學生參與在線學習內 容提供了便捷途徑,也為教育決策提供了潛在的數據來源。在可持續發展過程中,人們 形成教育意識和態度至關重要。僅僅依靠國家戰略計劃無法解決,但可以通過搜索引擎 有效地映射。一方面,公眾在做教育相關決策時,通常會提前搜索相關信息。另一方面, 現代教育不平衡現象可以被映射于不平等的互聯網使用行為中[19]。
在大規模決策中,全球區域教育研究主要以專家評委為主,依靠其豐富經驗和專業 知識進行評分,決策比較主觀。大數據雖然有利于輔助決策,但當變量數遠大于觀測值 數時,一些不相關的變量會影響模型準確性。因此,本文引入復函數、機器學習模型和 復雜網絡中的傳遞熵方法,分析網絡搜索數據與政府官方數據、教育商業數據之間的關 系,提高決策變量選擇準確率,去除無關變量,提高模型性能(如圖 1.1 所示)。復雜網 絡理論作為一種常用研究網絡結構的網絡行為研究方法,廣泛應用于謠言擴散[20]、計算 機病毒傳播[21]、企業風險傳染[22]等研究中,有助于本文對無規律系統的了解和解釋。以 梯度增強和神經網絡為基礎的機器學習模型通過捕獲非線性特征,在數據預測分析中具 有極高的準確性。但由于模型內部工作機制難以理解,相比于經典統計學模型,機器學
習預測模型無法估計每個特征對模型預測結果的影響,在實際應用中缺乏可解釋性。本
文利用SHAP模型挖掘異質數據中多影響因素和突發事件的動態特征,提高長短期記憶
循環神經網絡模型可解釋性。
1.2研究現狀
1.2.1教育評價指標構建研究現狀
早在 20 世紀初,國際組織就提出了教育指數、全球教育監測報告和世界教育指標
2
等多項教育評價指標,表明了對地區教育發展情況進行評估和監測的重要性[23]。國內教 育評價指標研究起步較晚,充分借鑒了諸多國際經驗與方法,提出了中國教育指數[24]、 中國教育小康指數[25]和中國各地教育指數(HDI分項指數)[26],分別從教育法律法規、 教育滿意度、教育公平、教育投入、政策偏向性等方面對國內教育狀況多角度評估。近 兩年,公眾參與為社會變革過程提供了內部和外部反饋的關鍵驅動力[27],因此公眾關注 度可以被視作一個新的教育評價指標。
針對公眾教育關注度的國內外常見研究方法通常基于實地調查或訪談部分成員和 相關利益相關者。例如,通過匿名問卷的方式了解可持續性游戲對學生學習成績的影響 [28];構建定性的、結構化的觀察性設計探究學生對學習分析的真實態度、期望和關注[29]; 基于文獻回顧、問卷調查、訪談和觀察,開發動態模型來衡量高等教育學生的可持續發 展能力[30]。上述方法為描述公眾關注度提供了解決方案,但這些方法存在一定的局限性, 如時延性、有限數據庫規模、事件低估等。近年來,搜索引擎不僅為學習者提供在線學 習內容,現有的教育不平衡可通過不平等的互聯網使用行為映射。基于網絡搜索行為的 數據方法具有開放性、連續性和及時性的特點,廣泛用于研究公眾對熱點問題的關注, 國外研究表明,根據牙科學位、護理理學學士和醫學學位的谷歌趨勢搜索量可以及時有 效地預測公民對健康職業教育的興趣[31]。國內學者證明百度指數可以作為中國省級教育 指數中法治宣傳報道維度的觀察指標[32]。百度指數顯示了百度搜索自2010 年 1 月 1 日 以來不同搜索詞的查詢量的聚合信息,以及這些查詢量隨時間的變化。以上研究表明, 百度指數作為公眾關注度指標具有一定的可行性和可靠性[33]。
1.2.2學區房溢價研究現狀
近年來一些學者開始關注學區房溢價問題,主要圍繞兩個理論機制探討優質教育資 源對學區周邊住宅價格的影響。首先,關注優質教育資源的富豪家庭會直接抬高重點學 校附近的房租和出售價格[34];其次,鄰里特征變化對房價間接產生的溢出效應[35],例如 公共設施和政策刺激[36, 37]。早期關注學區房溢價問題的實證研究主要采用特征價格模型 固定邊界法、工具變量法、差分估計法或者這些方法的組合[38]。國外學者最先于 1969 年利用經典特征價格模型從宏觀角度分析地方公共支出對房價的影響。直到 1996 年, 國內外學者不約而同開始從微觀角度將學校教學質量的邊際變化作為判斷影響學區住 宅價格的重要指標。例如,新加坡國立大學利用特征價格模型研究學校可達性在住宅物 業價值決定因素的重要程度時發現,在其他條件不變的情況下,個人愿意為更容易進入 名校的房產支付更高的價格[39]。美國學者 Youngme Seo 和 Robert A. Simons 使用空間誤 差模型分析了 2000 年到 2005 年俄亥俄州學校質量對個人住宅銷售的影響,結果表明, 學區評級和績效指數很容易影響住宅價格[40]。日本學者Yata Kuroda以松江市為研究對 象發現日本學校質量對房屋租金有積極影響[41]。研究表明,韓國首爾小學學校的績效對
3 房價和人口流入均有正向影響,同時房價的上漲阻礙了居民向好學區的遷移,韓國學者 通過構建聯立方程模型發現高房價的抑制性大于好學校對人口的吸引力,使得首爾市人 口流動性減少[42]。隨著信息化水平的提高,美國、韓國等發達國家在近幾年開始研究現 行政策對于學區周邊住房價格的影響。例如,Chung, I H發現韓國的擇校改革政策使得 高績效學區相對于低績效學區的房價降低了約10-27%[43]。國內學者Haizhen, Wen等人 將享樂價格模型與空間計量經濟模型相結合,發現杭州的教育政策加強了教育資本化進 程[44, 45]。Lirong, Hu等人首次結合社交媒體方法研究上海“租購同權”政策的實施影響, 結果證明該政策使得部分優質學區住房租金溢價高達 13.5%,對緩解教育資源緊張的效 果并不理想[46]。美國學者最早基于數據分析技術于2015年利用2007年到2011 年公開 發布的學校質量數據和房價數據分析得出洛杉磯家長對學校與教師的升值排名并不敏 感[47]。
分析發現,上述方法的研究者普遍通過保持住房結構、地理位置和鄰里特征等變量 不變來獲得教育對住房的隱性貢獻,但由于部分變量不宜觀察因此還存在爭議。從研究 內容來看,國外雖然對房地產價格研究成熟,但是因為沒有學區房概念,所以無法滿足 我國國情。國內學者主要從房地產經濟學和城市經濟學方面研究,分別探討了可支配收 入、抵押貸款利率、土地成本和建造成本等房地產因素對房價的影響以及城市規模、交 通條件、人口密集度、公共品供給等城市因素對房價的影響,但對學區房溢價的定量研 究少于定性研究。而基于這些宏觀經濟變量數據對房價的預測模型在時效性與可靠性方 面均存在諸多問題,因此探索利用數據挖掘和分析技術重新解構倭國學區房溢價十分必 要。
1.2.3家長教育焦慮研究現狀
隨著信息科技和經濟的快速發展,家長教育焦慮是國家轉型時期無法回避的社會心 態問題。盡管教育改革解決了諸多民眾感到困難、困惑甚至焦慮的問題,然而中國家長 對子女的教育焦慮不僅未能解決,反而大有愈演愈烈之勢。目前國內對于家長教育焦慮程 度的評估還處于起步階段,學者普遍采用定性研究方法,結合具體政策或者特定群體對 這一現象進行主觀分析[48, 49],較少考慮跨城市跨年級家長焦慮情緒的大規模量化研究[50] 從研究對象來看,國內外學者以往大多集中于從病理上關注焦慮病患者的行為表現 和家庭成員有關的原因上,而從社會心理角度上對正常人的研究較少。例如,孩子剛被 診斷為 1 型糖尿病時,他們的父母有可能會經歷焦慮和抑郁,且一定程度上與父母在兒 科養育過程中所經歷的壓力有關[51]。同時,對學生群體研究較多,對家長研究較少。例 如,澳大利亞學者研究家長對學生造成焦慮的原因與應對措施,印度學者關心高中生的 學業壓力、父母壓力、焦慮和心理健康狀況[52]。從研究重點來看,國內研究大多把重點 放在政策背景下的家長教育焦慮表現形式和主觀分析上,客觀量化分析較少。國外學者 4
除了研究公立學校升學壓力所造成的家長焦慮,還關注校園中存在的種族歧視和性別歧 視。從研究方法來看,目前對家長教育焦慮的介紹性報道和評論比科學的實證性研究較 多,可能的原因是相關研究工具的缺乏,這導致家長教育焦慮嚴重缺乏量化研究。目前僅 有少部分學者進行了這方面的嘗試,如韓海棠采用對南京、武漢、佛山市部分初三家長 進行問卷調查的方法,從 5個層面研究中產階層家長的教育焦慮。結果表明孩子的學習 態度以及升學擇校是中產階層家長在子女教育問題上最焦慮的問題[53]。李琳通過對 30 名初中學生家長訪談,編制了“教育焦慮問卷”,從“就業”“考試”“健康”三個維度 測量家長教育焦慮情況[54]。這些學者的研究表明,來自社會、家庭、學校的壓力對家長 教育焦慮程度的影響。綜上所述,由于研究成本和范圍受限,以往家長教育焦慮的研究 在研究對象、重點及方法方面都需要補充和改進。因此,在互聯網時代,有必要利用新 的研究方法,解決時間上的滯后效應和動態變化的多維性,加強定量研究與質性研究相 結合,綜合反映家庭、社會環境和教育資源對中國家長心理焦慮影響程度。
1.3研究內容與組織結構
本文研究內容圍繞做多源大數據背景下機器學習和統計學方法在城市教育時空數 據中的應用展開,具體研究內容如下:
基于多源大數據調查公眾對教育均衡的關注度:從網上搜索數據和政府官方數據選 擇 8 個指標,調查和分析了四川省 21 個市公眾教育均衡公眾關注度及其對政府教育財 政投入的影響。利用皮爾森相關系數法對2011年1月1日至2018年12月31日四川省 21 個市、州的政府官方數據和百度指數之間的相關性進行分析并篩選出適合指標,再利 用熵權法和復函數法構建四川省公眾教育關注度,最后基于K-means++機器學習算法從 時空角度分析關注度對四川省教育均衡關注度進行分析和評價。
基于我國城市級學區住房信息流動的分析:通過對網絡信息流的分析,探討了中國 一線城市學區住宅市場之間的因果關系和復雜性演化。基于傳遞熵方法和中國 11 個一 線城市的房價數據和百度指數,實證分析了 2016年1 月至2020年 12月學區房房價與 公眾關注度之間的信息交互作用和動態影響。研究結果表明,政策改革以網絡搜索數據 為媒介,對學區住房信息系統產生了明顯的短期影響。通過滑動窗口分析表明,除了北 京市以外的城市表現出非線性的雙向因果關系。北京與其他 10 個一線城市長期存在動 態的定向間接因果關系,表明北京市為中國城市學區房信息市場主導。該結論得到傳統 媒介檢驗方法的驗證,并表明打擊學區住房投機的方法需要因地制宜、合理調整。
基于機器學習的家長教育焦慮指數預測研究:基于主成分分析法對網絡搜索行為進 行信息收集和管理并結合2011年1月至2020年12月“ PC+Mobile”百度指數,構建“家 長教育焦慮指數”,成功抓取到引發教育焦慮的中國相關政策和事件不確定性。通過比
5 較分類梯度提升(Catboost)、自適應提升(Adaboost)、極端梯度提升(XGBoost)、輕 量梯度提升(Lightboost)、隨機森林(RF)、線性回歸(LR)、門控循環單元結構(GRU) 和長短期記憶網絡(LSTM) 8種機器學習預測模型對家長教育焦慮指數的預測能力。 為進一步增加機器學習模型的可解釋性, XGBoost-SHAP 模型被用于圖數據和時序數據 該預測模型在可更新時間序列數據集上取得了良好的性能,實證了全國教育政策、資源 等影響因素對各省家長焦慮的影響具有普適性。
研究框架如圖1.2所示。
圖 1. 2 研究框架
第一章 緒論。首先介紹了本文的研究背景和研究意義,然后對教育評價指標構建、 學區房溢價和家長教育焦慮的國內外研究現狀進行介紹和總結,本章最后明確了本文的 研究內容和組織結構。
第二章 理論基礎和研究方法。首先對相關理論進行描述,然后介紹了 K-means++ 算法、傳遞熵方法、LSTM等模型。
第三章 以四川省 21 個市州為例,從網上搜索數據和政府官方數據選擇指標調查和 分析了公眾教育均衡公眾關注度及其對政府教育財政投入的影響。基于皮爾森相關系數 法對四川省 21 個市、州的教育官方數據和百度指數之間的相關性進行分析并篩選出符 合指標,再利用熵權法和復函數法構建四川省公眾教育關注度,最后利用K-means++機 器學習算法從時空角度分析關注度對四川省教育均衡關注度進行分析和評價。
第四章 通過對網絡信息流的分析,探討了中國城市之間學區住宅市場的因果關系 和復雜性演化。基于傳遞熵方法和中國 11 個一線城市的房價數據和百度指數,實證分 析了學區房房價與公眾關注度之間的信息交互作用,最后利用滑動窗口進一步表征不同 時期城市間信息傳遞的動態影響。
6
第五章 基于主成分分析法對“家長教育焦慮”相關的網絡搜索行為數據進行信息 收集和管理,構建“家長教育焦慮指數” (PEAI),并結合2011-2020年“PC+Mobile” 百度指數,提出了家長教育焦慮預測模型和XGBoost-SHAP可解釋模型,并對指數進行 預測。
第六章 總結與展望。對全文進行總結,提出研究工作的局限性,對未來相關研究 工作的展望。
2 理論基礎和研究方法
2.1數據分析法
2.1.1熵權法
信息論中的熵理論反映了信息的無序程度,可以用來客觀地確定變量權重[55]。變量 攜帶的信息越多,對最終決策的影響就越大。當研究對象對某一變量的評價值差異越大 時,熵值越小,說明該變量提供的信息量越大,變量權重越大。根據各變量的特點,可 以利用熵值客觀評價各指標的分散程度。
Step 1. 數據標準化
為了避免不同維度數據可能造成的誤差,將收集的初始數據按照人類發展指數法進 行標準化處理。假設有k個變量,Xi,X2,…,Xk,將其標準化得到人,場,…,Yk:
” X[,j — min(XJ
© = max(Xj — min(XJ (2.1)
Step 2.計算各變量的信息熵£):
曠-麗-吃皿嘰 (2.2)
1=1
V..
其中Pij = vn lJv ,如果Pij = 0,那么lim Pij lnptj = 0。當變量熵值越小,分散度越 紜=1切 丿 Pij^O
大,變量權重越大。
Step 3. 確定各變量的權重:
1 —
叱=k _》£ (’ = 1,2,…,斤) (2.3)
2.1.2張量理論
海量、多源、異構是當前教育網絡數據的三大明顯特征,挖掘其蘊含的內在規律就 需要有統一的表示方法。教育網絡大數據除了:(1)規模大(2)增長快(3)價值大, 還具有(1)時序性(2)孤島性(3)稀疏性(4)長反饋的特點。為了最大限度利用這 些教育網絡數據中的潛在價值,本文選擇用張量理論模型來表示海量多源教育數據信息 利用高維空間的低維結構特征特性以較少的觀察獲得更穩定而有效的學習和評估能力。
張量最早由 William Ron Hamilton 引入,后來被用在連續介質力學、物理學和移動 通信中[56]。張量分解、張量補全能夠有效解決頻譜高階數據冗余的問題[57]。近年來,張 量理論已作為現代機器學習的基礎單位,也被視為適量的高階延伸。之所以選擇張量作 為數據的分析模型,是因為教育網絡數據具有孤島性、稀疏性和長反饋等特征。綜合考 慮數據的類型、結構和組織方式等因素,本文認為構建簡潔的高階張量統一表示模型是
8
進行數據分析的有效基礎。
張量作為一種數據存儲結構,能夠通過表示多維的數據以獲取數據之間的內在聯系 是深度學習研究領域最核心的單位。表2.1詳細介紹了每一階張量的信息。0 階張量稱 為標量。1 階張量往往被稱作向量,一個向量的分量個數對應所在空間的維數,例如在 一個N維空間中,向量V可以表現為V =[甘2,…,T“, 2階張量也叫矩陣,等價于一個 平面。3 階張量是一個空間,等效于多個 2 階張量累計堆疊。4 階張量以此類推 如圖 2.1所示,通常二維矩陣表示用戶的教育關注度,加入時間因素就形成了三維張量, 表示用戶在一段時間內對教育關注度的動態評分。復函數法作為一階張量的延伸方法在 本文中用于從幾何角度構建不同城市官方數據和網絡數據的關系。模的大小作為教育均 衡關注量的評價指標,相位角代表兩個維度數據之間的關系。當相位角為0°時表示兩種 時序數據信號同步,相位角越大表示網絡數據與官方數據反饋能力的差距越大,相位角 為90°表明二者之間沒有明顯聯系。
表 2. 1 張量
階數 數學實例 特征 Python例子
0 標量 只有大小 S=123
1 向量 方向和大小 V= [1.1,2.2,3.3]
2 矩陣 數據表 M= [[1,2,3], [4,5,6]]
3 三階張量 數據立體 T= [[[2],[4]], [[6],[8]], [[10],[12]]]
n n階張量
2.2基于復雜網絡的傳遞熵
傳遞熵(Transfer Entropy, TE)是一種非參數統計量,廣泛用于量化兩個隨機過程
之間的定向(時間不對稱)信息傳輸量,由 Thomas Schreiber 于 2002 年開發[58]。不同 于格蘭杰因果關系,它是一種基于概率分布、香農熵和統計方法的方法,用來評估復雜
9
網絡中因效性網絡的動態、非線性關系[59]。隨著大數據的出現,傳輸熵在多個科學領域, 尤其是金融市場,被廣泛用于獲取時間序列數據之間的因果關系和統計趨勢。本文首次 基于傳遞熵研究了中國一線城市之間學區房地產市場的信息不對稱關系。為了說明這里 介紹的概念,本文首先簡要描述傳輸熵的計算。
香農熵的定義如下:
M
H = -》P*ogPi (2.4)
i = l
其中M是時間序列x的總個數,D是概率密度函數,pt豐0。根據香農熵理論,傳遞熵被 認為是描述時間序列 X 和時間序列 Y 之間相互作用的參數,其作用具有指向性,可以 表示為TEx^y或者TEy^x。轉移概率被描述為:
p(5+i 忖"),護)=p (益+1 = xi+11 x$)=護,匕⑴=y®) (2.5)
時間序列X可以被看作k次馬爾可夫過程,時間序列Y可以看作丿•次馬爾可夫過程。x(k)= (X”Xi_i,..,Xi_k+i)且 Y® = (Yi,Yi_1,..,Yi_1+1),x(k)和 y()分別為X()和Y(l)的狀態值。變 量Y到另一個變量X的傳遞熵定義如下
TE-x(k, I) =H(X“i|X$)) - H (Xz|X$),叨)
in是時間變量X的第九個元素,jn是時間變量Y的第九個元素。為了便于計算,假設從互 聯網上收集的時間序列數據滿足一階馬爾可夫過程,取k = l = 1,因此Y向X的傳遞熵的
一般公式為: \' PQn+l , in,jn)P(in)
j .嘰+1, i")log p(in+1, in)p(in,jn) (2.7)
ln+l,ln,Jn
信息傳播的不對稱性使得TE具有方向性。一般來說,網絡傳輸量的正負表示信息
傳遞的方向;兩個變量在相反方向上的符號傳遞熵之差稱為凈傳遞體積;凈傳遞量的絕
對值表示信息傳輸的強度。凈傳遞信息量TE—的公式如下:
TEy-x = T—x — Tx*
2.3機器學習方法
2.1.1K-means++算法
K-means 是一種迭代下降聚類方法,被認為是目前應用最廣泛的聚類算法。由于 K-means算法的結果容易受到初始點的選取而有不同結果,因此2007年D.Arther等人 提出的K-means++算法針對聚類中心選取進行了改進:當已有n個初始聚類中心(0<n<K) 時,提高距離已有聚類中心更遠的點為第H + 1個聚類中心的概率。該算法直觀簡單, 有效改善了分類結果的最終誤差[60]。由于K-means算法本身能夠快速收斂,因此算法實 際上降低了計算時間,被廣泛應用于分類判斷[61]、系統劃分[62]和空間分布[63]。在本文 中K-means++算法用于選擇具有地理位置的教育公眾關注數據的初始中心點,獲得緊湊 獨立的聚類。算法描述如下:
Step 1.假設i個評價指標構建空間數據集Pi={P/,P/,…,為*},隨機選取一個樣 本皿 作為第一個聚類中心Ci;
Step 2.計算每個樣本與最近一個聚類中心的距離,用Dt(x)表示;將第一次差值小 于等于 0時所對應樣本作為下一個聚類中心:
Di(pim*) = min{(/(%*- Cj)} (2.9)
,一 (D心屛H
^im — 2
爲=i(Di(Pim*))
Step 3.重復步驟2,直到選出k個聚類中心。
2.1.2主成分分析
主成分分析(PCA)是運用最廣泛、最成熟的構建綜合指數的工具之一,目前在股票 市場預測[64]、旅游流量預測[65]和精準電力負荷預測[66]等領域得到各界學者的廣泛應用。 主成分分析的一個主要優點是能夠準確地表征信息關注點,并通過將大量的關鍵字組合 成為少量的主成分來提高信息的利用率。主成分分析首先對具有一定相關性的關鍵字進 行重組,然后提取重要維數,最后建立一組新的互不相關的復合變量來替代原有的關鍵 字組,從而消除冗余信息。本文引入主成分分析,構建了學區房搜索指數和家長教育焦 慮指數的綜合指標。基本計算步驟如下所示:
Step 1. 首先對原始數據進行歸一化處理,確保原始數據矩陣中各單元對運行結果 的影響;
Step 2.根據歸一化數據矩陣構建協方差矩陣P;
1
P = L(Q*)tQ* (2.11)
其中Q*為標準矩陣和S為樣本個數。
Step 3.根據公式(2.11)計算特征值,確定主成分個數,計算主成分貢獻率0和: 際=器:“t X 100% (2.12)
其中,Q為特征值,K為特征值總數。以累積貢獻率作為衡量主要成分個數的標準, 一般選取X個特征變量,使累積貢獻率達到85%以上。每個屬性的權重計算方式為: 際
Wm=i^ (2.13)
Step 4. 利用得到的協方差矩陣對原始矩陣進行約簡。
2.1.3長短期記憶模型和門控循環結構
LSTM長短期記憶循環神經網絡模型(Long Short Term Memory)是一種特殊的RNN。 LSTM不僅滿足了 RNN網絡處理時間序列的優點,而且修正了模型梯度消失的問題I67】。 該算法最早由 Hochreiter 和 Schmidhuber (1997) [68]兩位學者提出,Gers (1999) [69]和 Graves(2005)[70]兩位學者在此基礎上進一步改良和推廣。
圖2. 2 LSTM循環神經網絡結構
LSTM 分為三個內部單元門:遺忘、輸入和輸出,并構建記憶單元“細胞”,用以 遠程存儲信息。與RNN相比,LSTM網絡有四層神經網絡且增加了門控結構,如圖2.2 所示。門控開關由sigmoid激活函數或tanh激活函數構成,每個門的功能如下所示。其 中,Xt和ht表示在t時刻的輸入向量和輸出向量,Wf, Wi,吧,%表示權重矩陣, bf, bi, be, 表示偏置矩陣。
Step 1. 忘記階段,使神經元擺脫無用信息。該階段主要對上一階段的信息選擇性 忘記。通過ht-1、xt和遺忘門的偏置bf,計算出遺忘門ft的值,以保證訓練信息順利 進入下一階段:
12
ft = sigmoid[(ht_1,Xt) -Wf + bf] (2.14)
其中sigmoid激活函數定義為:
1
sigmoid(X)=T+exp— (2.15)
使得輸入變量被映射到(0,1)取值范圍內。0表示所有信息丟失,1表示所有信息 保留。
Step 2. 更新記憶階段,這個階段的輸入門選擇需要記憶的信息,決定哪些信息需 要存放到“細胞”狀態:
Ci = tanh[(ht_1,Xt) •Wc + bc] (2.16)
it = sigmoid[(ht_1,Xt) •叱 + 如
其中tanh函數被定義為:
exp(+x) - exp(—x)
tanh(x) = exp(+x) + exp(—X)
使得“細胞”狀態Q被映射到(-1, 1)取值范圍內。
Step 3. 輸出階段。這個階段根據被遺忘和更新的信息計算和輸出結果,需要計算 出輸出門q的值:
ot = sigmoid[(ht_1,Xt) • % + (2.19)
ht = Ot • tanh(Ct) (2.20)
Tanh激活函數與輸出矩陣Q相乘可以計算出輸出值h,整個“細胞”狀態更新值:
= ft • Ct-i + C; • it (2.21)
在2014年,Cho等人簡化了 LSTM模型結構[71],提出了 GRU門控循環結構(Gated Recurrent Unit)。GRU擁有兩個內部單元門:重置門zt (reset gate)和更新門rt (update gate),適用于捕捉時間序列中時間步距離較大的依賴關系。與LSTM相比,GRU內部 少了一個“門控”,參數少,但是卻也能夠達到與LSTM相當的功能,但其靈活性和抗 過擬合的風險能力也小。
GRU首先通過上一節點狀態和當前輸入值航獲取兩個門控狀態:
更新門: zt = sigmoid(Wz • [ht_1,Xt]) (2.22)
重置門: rt = sigmoid(Wr •血-1,Xt]) (2.23)
在重置門的使用中,新的記憶內容將使用重置門儲存過去相關的信息加,它的計算 表達式為:
h't = tanh(® • [rt * ht_1, xt]) (2.24)
最后利用更新門來決定從上一節點信息仏_1和當前記憶信息h;中所收集到的信息%:
ht = (1 — z) * h— + zt*h't (2.25)
在本文研究中,時序數據樣本訓練過程時間跨度比較長,LSTM和GRU都適用于 本研究中。
2.1.4XGBoost-SHAP 模型
XGBoost-SHAP模型由XGBoost算法和SHAP方法構成。XGBoost是一種融合 boosting模型的算法,由Chen和Guestrin于2016年開發,已被應用于多個學科,如能 源研究、衛生保健和信用評級[72]。該算法一方面在目標函數中使用歸一化,降低了模型 復雜度,防止過擬合,使學習過程更快。另一方面,XGBoost是一個集成模型,由多個 高效的決策樹組成,其預測性能比單獨使用單個模型更好。首先利用自變量和K個附加 函數計算因變量究:
Z
K
fkg,fkGF (2.26)
K = 1
辦表示具有葉子分數的獨立樹結構,F為樹的空間。因此最優算法問題轉換為最小化目 標函數:
Z
N N
◎,%) +〉 CS) (2.27)
1=1 1=1
其中)是損失函數,用來衡量模型對訓練數據的性能;00)=疽+勢||3川人2是 為了控制模型復雜度的正則化項。其中T是葉子節點數,J是第i個葉子的分數,y和久是 系數。
最終得到目標函數為:
其中,®•彼此獨立oXGBoost算法的另一個好處是該算法不受多重共線性的影響。因此, 即使兩個變量在系統中捕獲了相同的現象,也可以同時保留這兩個變量,同時可以通過
SHAP方法執行重要的特征分析。
機器學習在預測時間序列數據方面具有很大的潛力。但研究人員通常不會解釋他們
14
的預測結果。為了克服這個問題,Lundberg等人提出了 SHAP方法,用于解釋復雜模型 的預測結果,也包括XGBoost在內的樹模型。SHAP通過計算每個特征對預測結果的影 響程度來解釋對特定輸入(X)的預測。Shapley估計值計算如下所示:
Z
\S\l (n - |S| - 1)!
2(^—1)! %) (2.29)
S£N{i,;}
當中時,= fx(S U {i,j}) - fx(s U {i}) - fx{S U {j}) + fx(S) o 其中九是特征個數,s是 所有特征子集。SHAP值通過特征重要性、特征依賴圖、局部解釋圖和總結圖,提高對 樹模型的理解。
3基于多源大數據調查公眾對教育均衡的關注度 盡管現有研究表明網絡關注度和教育決策之間的相關關系在影響和促進城市可持 續發展方面發揮重要作用,但衡量這種關系程度的實證研究還不夠。本章以四川省為例, 利用網絡搜索數據和政府官方數據調查并分析了公眾教育均衡網絡關注度及其對政府 決策的影響。
3.1引言
教育在向社會轉型的可持續性方面發揮著重要作用,它不僅反映了經濟發展和生活 質量,還為兒童和青少年提供了擺脫貧困的機會。研究表明,公眾參與已被認為在可持 續性領域變化過程中提供了內外部反饋的關鍵驅動因素,已經引入城市規劃實踐之中。 提出議價規則制定的Phillip Harter首此證明了公眾決策體系的合法性,他認為,公眾參 與決策可以讓不同的利益相關者自我表達,有助于政府滿足他們的合理要求[73]。此外, 公眾討論保證了在廣泛背景下公民的共同理解。在當今信息社會中,公眾決策有利于減 少政府部門的重大決策失誤和公共管理中公眾與政府的利益摩擦。因此,調查公眾教育 關注度對城市公共治理和完善教育評價體系有重要意義。
常見的方法是實地調查和對部分利益相關者的訪談[74]。這些方法為調查公眾教育關 注度提供了一種解決方案,并取得了有意義的教育研究成果,但這些方法存在一定的局 限性,如時間延遲、數據庫規模有限或對事件的潛在低估等等[75]。網絡搜索數據例如百 度指數具有連續性、靈活性、交互性和速度快等特征,克服了部分傳統調查方法局限性, 被廣泛用于探討公眾對熱點話題的關注度。
圖3. 1四川省和周邊城市地理位置
盡管百度指數有助于補充官方統計調查,但由于缺乏社會經濟背景,它的可用性和 統計可靠性還需要進一步研究。為了提高多源數據評價的可靠性,一些研究者引入了熵 權法[76]。由于多個指標之間的相互作用,權重計算考慮了靜態交互和動態趨勢[77]。考慮
16
到權重過程中各指標之間的關系,W. Li等人創新性地將灰色關聯分析(GRA)引入權重法, 有效地分析指標之間的相關性[78]。受前人研究的啟發,本章提出了復函數結合皮爾遜相 關和熵權法的研究方法,從幾何維度分析公眾關注度與政府教育財政投入之間的關系。 本章以四川省21個城市為研究范圍(見圖3.1),基于Pearson相關系數法、熵權法和機 器學習算法(k-means++聚類算法),從時間和空間兩個角度對教育公眾關注度進行調查分
析,具體分析框架如圖 3.2所示。
圖 3. 2 第三章分析框架圖
3.2實驗數據集
教育搜索時序數據集來源于百度指數(http://www.index.baidu.com/)。為建立教育均 衡公眾關注度指數,本章基于張亞明等人的關鍵詞收集方法設計了以下實驗步驟:(1) 瀏覽中國知識庫 CNKI 網站上教育均衡相關的論文,統計關鍵詞詞組的出現頻率;(2) 結合百度提供的相關搜索結果進行篩選,排除部分百度索引未收錄或存在歧義的詞條; (3)確定4個排名最靠前的關鍵詞,分別是“素質教育”、“留守兒童”、“義務教育”和“家 庭教育”。
表 3. 1 時間序列的描述統計量
變量 縮寫 單位 均值 標準差 最大值 最小值
城鎮人均可支配收入 PCDIU Yuan 19131 8451 42128 6045
農村人均可支配收入 PCDIR Yuan 7739 4221 22135 1310
地方公共財政支出 LPFE % 17.1 3.6 2.86 4.3
教育行業就業平均工資 AWE Yuan 58677 17426 100165 31285
素質教育搜索量 quality education / 4238 7671 48897 0
留守兒童搜索量 left-behind children / 9362 7556 47926 0
義務教育搜索量 compulsory education / 3038 6242 43263 0
家庭教育搜索量 family education / 3804 10858 71370 0
為確保數據可靠性,本文參考世界經濟合作與發展提出的教育指標體系[79],獲取
17 4 個變量作為政府權威數據變量,分別是 PCDIU、PCDIR、LPFE 和 AWE 。其中 PCDIU/PCDIR是指一年城鄉居民可支配收入總額除以當年城鄉常住人口; LPFE是指 教育支出占財政總支出的比重,是地方政府籌集的財政資金的有計劃分配程度;AWE 是指按部門和地區劃分所有單位就業總工資中的教育部分。以上數據來源于四川統計局 發布并記錄的《四川統計年鑒》。所獲得的8 個指標共4266個數據剔除異常值后納入樣 本中用于分析(見表3.1)。所有數據的起止時間為2011年1月1日至2018年12月31 日,數據處理和實證分析使用Excel 2010和PyCharm 2020.2軟件進行。
3.3教育均衡公眾關注度的時空分析框架
3.3.1教育搜索引擎數據與線下數據構建教育關注度
如圖3.3所示為2012年1月1日到2018年12月31日“素質教育”、“留守兒童”、 “義務教育”和“家庭教育” 教育均衡相關網絡關鍵詞的搜索量,手機用戶的激增導 致了所有關鍵詞的相對搜索量于2013年7月增加。“留守兒童”的關鍵詞總體搜索趨勢 普遍大于其他三個關鍵詞切波動較大,而“義務教育”、“素質教育”和“家庭教育”的 關鍵詞搜索趨勢相似且在每年二月出現一次波谷。圖中“留守兒童”搜索量出現5 個峰 值。A點:《環球時報》2015年6月12日報道了貴州省畢節市田坎鄉4名兄弟姐妹(13-15 歲的留守兒童)因農藥致死;B點:國務院于2016年2月14日發布了《關于加強農村 留守兒童關愛保護工作的意見》,引起了全社會對留守兒童的關注;C點:2017年1月 27日,除夕夜,云南振雄縣一名15歲男孩(化名)選擇在這一天自殺;D點:6月1-7 日,第三屆“成都兒童保護周”慈善活動舉行;E點:2017年7月21日《中國留守兒 童心理狀況白皮書》在北京舉行新聞發布會。在 5個高峰中, 3 個高峰與政策法規有關, 2 個高峰與社會事件有關,證明教育網絡搜索量容易受到政策法規和社會事件的影響。
在圖3.4中,皮爾森相關系數大小以及藍色的深淺表達了8個指標的線性相關關系
18
強度。分析顯示,來自搜索引擎的4 個指標與政府官方數據的4 個指標之間的相關系數 均大于 0.5,說明兩者之間存在顯著的正相關關系。其中,“留守兒童”和“家庭教育” 的網絡搜索量與“農村人均可支配收入” 皮爾森相關系數最大,呈高度正相關。“義務 教育”搜索量與其他項目的Pearson相關系數為0.5?0.8,呈中度相關。結果表明,互聯 網數據可以有效地加入到調查教育均衡公眾關注度的官方數據中。
圖 3. 4 皮爾森相關系數
表 3. 2 熵權法計算的權重
時間(年) QE LBC CE FE LPFE PCDIR PCDIU AWE Online Official
2011 13.38% 11.50% 20.33% 19.07% 8.58% 4.68% 10.59% 11.86% 64.29% 35.71%
2012 19.34% 10.82% 19.56% 20.56% 4.94% 4.72% 9.43% 10.63% 70.28% 29.72%
2013 19.79% 11.73% 25.56% 23.54% 1.88% 3.50% 6.03% 7.97% 80.62% 19.38%
2014 22.45% 7.10% 26.57% 22.97% 1.90% 4.47% 8.31% 6.23% 79.09% 20.91%
2015 21.87% 10.17% 26.28% 23.92% 2.12% 3.95% 6.49% 5.21% 82.24% 17.76%
2016 21.53% 10.99% 23.48% 22.72% 4.01% 4.55% 7.91% 4.81% 78.72% 21.28%
2017 22.12% 7.07% 23.03% 22.27% 5.16% 5.69% 9.92% 4.74% 74.49% 25.51%
2018 21.72% 13.57% 19.22% 24.23% 3.00% 6.23% 9.36% 2.67% 78.73% 21.27%
從表3.2可以看出,在線指標的權重整體上大于官方指標。家庭教育網絡搜索量(FE) 總是占據最大的權重,證明了家庭教育是公眾最關注的話題。值得注意的是自 2018 年 起,素質教育(QE)取代了義務教育(CE)成為影響公眾關注教育第二大重要指標,這表明 政策導向在公眾關注度中起著關鍵作用。例如,教育部提出了《國家中長期教育改革和 發展規劃(2010-2020年)》促進學齡兒童和青少年無差別、平等地接受優質教育。
對網絡搜索時序數據分析發現,網絡搜索量容易受到政策、法規和社會事件的影響, 表明網絡搜索量可以很好地反映公眾對教育的關注。這些結果證實,百度指數可以作為
19
一種新的大數據來源,對公眾教育需求進行實時監控并提供持續性信息反饋。
3.3.2實驗結果分析
為了從時間角度分析網絡搜索數據與官方數據之間的關系,本節根據教育均衡公眾 關注度評估策略得到8年21個城市的教育關注度(EPC)的復數模和相位角,如圖3.5 和圖3.6所示。當相位角為0時,表示兩種時序數據信號同步。相位角越大,表示網絡 搜索數據和官方數據反饋能力的差距越大,且與政府信息發布速度和當地人的搜索習慣 有關。圖中所有城市的相位角都具有正值,表明四川省網絡搜索數據對教育變革過程提 供了正反饋。同時,教育均衡公眾關注度呈現出城市兩極分化的現象,圖 3.7可以看出 不同行政級別的城市對教育的重視程度不同。圖中成都市的相位角最小,EPC最高,超 過0.7,其它20個地級市低于0.3。這表明,特定的行政地位對EPC有很強的影響,可 能不利于區域教育均衡的可持續發展。通過從網絡聲量中調查公共教育需求,搜索引擎 為公眾與公共治理創建了一個積極的反饋,為教育治理帶來新的機遇。
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
圖3. 5四川省教育均衡公眾關注度(EPC)
100
圖 3. 7 政府官方數據
圖 3. 8 教育公眾關注度皮爾遜相關系數 圖 3. 9 四川省教育均衡公眾關注度城市聚類 為了從空間角度分析區域教育均衡公眾關注度,本節根據第2章中的皮爾遜相關性 研究方法計算不同城市 EPC 之間的線性相關關系。圖 3.8 顯示成都市與其他直轄市的 EPC 呈負相關,相關系數值均小于-0.71,表明成都與其他城市的公眾關注度可以認為 是高度負相關。這一結果進一步證實了四川出現了顯著的教育關注度區域差異性。對比 相關結果發現,由于獲取教育相關信息的限制,只有5%的地區擁有較高的EPC。
本節將k-means++算法應用于對EPC的空間劃分,發現當EPC分為5類時取得到 最好的結果,并對教育關注空間分布特征及空間聚類結果放在圖3.9中。教育關注度聚 類圖只對每個直轄市的關注點進行分類,圖例中分類的排序順序不代表關注度級別。為 了更直觀地展示各市公眾關注度的分布情況,將分類結果整理在表3.3中,EPC從高到 低,按照1-5的順序排列。
21
表 3. 3 教育關注度分類排序
分類 教育關注度 圖中顏色
1 成都 紅色5(1)
2 綿陽,南充,攀枝花 綠色4(3)
3 德陽,廣安,瀘州,樂山,自貢,內江,宜賓 淺藍1(7)
4 廣元,眉山,巴中,達州,遂寧,資陽,涼山 藍色2(7)
5 雅安,甘孜,阿壩 淺綠3(3)
從圖3 .8和表3 .3可以看出,總體上, EPC 集中在有良好的地理和交通條件以及人 口密度的省會城市成都,整體呈“東高西低”的發展水平。公眾關注度高的地區主要集 中在四川中部和東部地區,而公眾關注度低的地區主要集中在北部和南部地區,其中第 5 類城市主要分布在西北地區。教育關注度在四川省存在區域異質性,且省會城市對周 邊城市影響不大。這一發現有助于完善四川教育評價體系。
EPC對于具體的行政地位,按時間順序呈現出明顯的等級現象,省會城市公眾關注 度明顯高于地級市。分析發現 EPC 中的兩極分化與具體的行政地位、地理和通信條件 以及人口密度和組成有關。由于包括87.5%的省會國家重點大學在內的優質教育資源大 部分分布在省會城市,對其他城市的貢獻有限。隨著“就近入學”招生政策的推進,各 地生源逐漸趨向平穩,導致當地居民長期擁有優質資源,教育資源流動性不強[80]。該研 究結果與韓國首爾市和新加坡教育研究者的結果具有高度相似性:優質教育資源抑制了 人口流動性。這些結果表明區域教育均衡的可持續性并不理想。
以上實驗結果從網絡公眾關注度的角度詳細調查了四川省教育均衡在空間分布上 兩極分化情況,是對劉成高[81]、顧慶傳[82]等前人研究結果的進一步驗證與發展。政策制 定者需要準確有效地估計、監測和調整,制定教育公眾關注的最小值(下限),并通過 法律、行政法規將其控制在一定水平。本章提出的復雜函數方法為完善教育評價體系和 支持教育可持續發展提供了新途徑。本章工作基于在線數據和官方數據調查了四川省教 育均衡關注度,對不同地區、不同城市的教育均衡關注度進行成功刻畫以及對四川省城 市等級關系的探索。該工作結果可以為衡量區域教育均衡和教育決策提供支持。
3.4本章小結
本章基于我國四川省網絡搜索和政府官方數據等多源數據,調查了公眾對教育均衡 的關注度。首先利用皮爾森相關系數法對四川省 21 個市、州的政府官方數據和百度指 數之間的相關性進行分析并篩選出適合指標,再利用熵權法和復函數法構建四川省公眾 教育關注度,最后基于K-means++機器學習算法從時空角度分析關注度對四川省教育均 衡關注度進行分析和評價。結果表明,百度指數可以作為一種支持教育可持續發展、完 善教育評價體系、達到區域教育均衡狀態的新技術手段。本章研究工作為互聯網搜索引
22
擎作為一種新的大數據來源,對公共教育需求進行有序、及時的評估、完善教育評價體 系、實現區域教育均衡提供了有力證據。
4我國城市級學區住房信息流動的分析
前一章主要基于網絡搜索數據和政府官方數據研究了公眾關注度與政府決策之間 的正反饋關系,為網絡搜索數據作為一種新的教育大數據來源、完善教育評價體系提供 有力證據。本章節在互聯網搜索數據的基礎上引入了互聯網商業數據,通過分析城市之 間的信息流動,研究了學區房溢價與網絡公眾關注之間的因果關系和復雜性演變。
4.1引言
過熱的學區房地產市場引起了全球研究人員和居民的興趣[83]。在中國城市,學區房 制度因其在基礎教育資源配置,特別是優質資源配置中的決定性作用而成為社會關注的 焦點。教育政策和房地市場帶動了就近學區房房產的高溢價率以及教育質量的差異率, 導致新的“城市病”和過度消費。學區房房價溢出的空間異質性和時效性在不同城市呈 現出多線程復雜結構的網絡形態。這種溢出效應導致房價波動不僅受當地因素的影響, 還受教育政策和其他區域因素的影響[84]。盡管已有研究明確了中國城市房價溢出率之間 存在相關關系,但關于學區住房政策和房價相互作用的研究還是相對較少。在信息時代, 互聯網和信息通信技術(ICT)為用戶檢索教育政策和住房信息提供了低成本、高速率、 時空靈活的信息渠道,跨城市信息流導致的信息溢出效應對各地學區房市場存在顯著影 響[85]。因此,通過分析跨城市信息流來研究學區房市場的因果關系和復雜性演變具有重 要意義。
國內外學者側重于通過調查信息流分析住宅市場信息系統間的交互性[86]。例如,J. Li 等人發現由信息流引起的城市間信息距離對每個城市的房地產市場的相互關系有積 極的影響[87]。該類研究對城市信息系統研究進行了有效補充,但仍然缺乏關于學區住房 信息交互的可持續性研究。與有形的人口流動和資本轉移不同,信息交互是房價溢出的 隱性機制,其程度難以直接觀察。同時,學區房市場屬于一種典型的復雜系統。學區房 研究不是孤立的、個別的或偶然的,而是市場機制與法律、政策、經濟、文化、社會、 人口、心理、城市化等多種因素綜合、交織作用的結果。因此,解決這一復雜問題的關 鍵是有效評估城市學區房市場信息的變化。本章通過利用搜索引擎中用戶搜索行為產生 的信息來解決這個問題,這些信息提供了一種間接訪問方法來衡量社交網絡中跨城市學 區房的信息流。事實上,許多購房者和投資者在互聯網和信息通信技術的幫助下掌握新 的政策和市場變化信息。這種表現為政策、新聞、短視頻和博客的學區住房信息從一組 種子節點開始,并在整個網絡中傳播,是一種典型的復雜網絡。互聯網搜索量被廣泛廣 應用于反映公眾關注度的變化[88],為探索不同城市之間的學區房信息傳遞提供新的思路 現有文獻表明,對網絡搜索數據的分析有助于了解公眾行為并支持城市房地產行業
24
的營銷或管理決策,但很少有學者探討這些對學區住房復雜網絡的影響。本章通過運用 復雜網絡理論,探討不同社會制度和背景下網絡公眾關注度與學區房溢價之間的關系。 首先基于上章節介紹的百度指數得出中國 11 個最發達城市的學區住房信息排名,然后 引入了一種量化一個系統對另一個系統影響的轉移熵方法(TE),研究城市學區住房市場 的信息流效應,最后利用滑窗法動態檢驗,具體分析框架如圖 4.1 所示。
4.2實驗數據集
表 4. 1 關鍵詞選取
初選關鍵詞 長尾關鍵詞 相關關鍵詞
學區房 學區房價格 學區房出售
學區房價格趨勢 二手學區房 二手學區房房價 二手學區房價格走勢 二手學區房出售
學區 小學學區房
學區房政策 中學學區房
學區房新政 什么是學區房
學區房改革 北京學區房
學區房劃分 南京學區房
天津學區房
杭州學區房
網絡搜索數據集來源于百度指數。考慮到在一些較小或經濟不發達的城市,通過搜 索引擎獲取房地產市場信息的人并不多。因此,本節選取了教育質量較好、規模較大、 經濟較發達、人口較多、房地產交易相對活躍的 11 個城市,其中包括了 4 個一線城市 和 7個二線城市。為了涵蓋基本的搜索詞,本研究利用搜索引擎優化分析網站采集初始
25
關鍵詞、長尾關鍵詞及相關關鍵詞,建立學區房搜索關鍵詞數據庫,結果如表4.1所示。 這些關鍵詞基本涵蓋了公眾在查詢學區房信息過程中常用的關鍵詞,既有宏觀政策,也 有市場供求關系。受限于客觀互聯網指數數據的可得性,表格中長尾關鍵詞和相關關鍵 詞中部分關鍵詞不可獲取。同時利用主成分分析法構建綜合學區房關注指數。首先,收 集選定百度搜索關鍵詞時間序列數據;然后對已標準化數據進行主成分分析;最后對主 成分進行加權平均得到各城市的關注度指數。最終“學區房”被選為最能反映網民關注 度的詞,經過了 KMO 和 Bartlett 檢驗超過臨界值 0.8的檢驗。
住房數據來源于鏈家網(http://www.lianjia.com/)。本章依據楊振剛學者等人的做法, 收集不同行政區域的學區質量和二手房價格來調查學區房價的溢價率Priit[89]: 其中,Pdix和分別代表在第t個月城市i教育質量最優學區的二手房平均房價及該城 市二手房平均房價。
4.3基于復雜理論和傳遞熵的時序數據分析框架
4.3.1我國學區房搜索量的城市排名與影響因子分析
圖 4.2顯示了不同地區搜索詞的相對搜索量趨勢。研究發現對學區住房的搜索量從 每年 3月左右開始急劇上升并逐漸下降,所有省份都表現出相似的趨勢。這種趨勢模糊 映射了中國新的學區劃分方案每年3月份動態調整的背景。在每一輪學區調整之初,都 以“優質學區房”作為主要標簽,吸引更愿意為信譽好的學區內的住房需求者支付額外 費用。從百度指數的相對搜索量來看,政府政策對公眾關注的影響明顯。2016 年3月, 為打擊學區炒房,教育部首次將“多校切片”新錄取政策納入正式文件。2017 年3 月以 來,相關部門密集出臺了一系列房地產市場調控政策,明確商業地產行業與教育公益的 關系,如首套房“認房認貸”等。“學區房整治”和“商品房限購”。從圖中可以看出, 2018 年以來搜索量明顯下降,政策效果明顯。2019年 3 月 8 日,國務院提出教育公平 政策,顯示了政府對教育公平和學區房改革的堅定決心。以上結論表明,教育和住房政 策對學區住房信息系統具有重要影響。
為了首先研究當前的教育和住房政策如何影響主要城市以及它們如何應對政策改 革,通過基于搜索的定量分析對11個主要城市進行了排名。
表 4. 2 中國城市學區房搜索量排行
City 2016 2017 2018 2019 2020
ASI 排名 ASI 排名 ASI 排名 ASI 排名 ASI 排名
北京 233.973 1 256.403 1 233.016 1 180.274 2 203.437 1
上海 192.760 2 200.781 2 210.082 2 180.729 1 194.120 2
成都 151.538 3 159.211 4 145.803 8 135.559 7 145.555 4
杭州 132.568 4 170.644 3 172.721 3 148.652 3 155.893 3
廣州 131.817 5 154.403 5 148.181 6 138.934 5 142.678 5
南京 129.322 6 146.033 8 148.041 7 135.652 8 133.667 8
武漢 128.749 7 138.400 10 134.997 10 126.712 9 129.098 10
蘇州 126.910 8 149.296 6 161.989 4 138.723 6 129.008 6
天津 126.809 9 127.479 11 127.170 11 112.868 11 111.735 11
深圳 126.713 10 149.101 7 156.830 5 144.222 4 148.063 7
重慶 116.945 11 142.121 9 143.332 9 116.123 10 120.620 9
All 11cities
Sum 1598.104 1793.872 1782.162 1558.448 1613.874
Median 129.322 149.296 149.296 138.723 129.008
Mean 145.282 163.079 162.015 141.677 146.716
CV 0.247 0.223 0.199 0.156 0.196
表4.2顯示了 2016-2020 年11個發達城市的 ASI 及其位置變化。總體而言,城市 間ASI的差距并不明顯。然而,有趣的是ASI的變異系數(CV)即標準差與各城市 ASI均值的比值,從2016年的0.247逐漸下降到2019年的0.156,這表明總體城市間 的差異逐漸縮小。但在2020年,差距再次擴大至 0.196。研究結果表明,政府政策在短
27
期內對學區住房信息系統有顯著影響,但在長期內影響不那么明顯。需要說明的是,政 策在學區房價上的短期影響也在美國俄亥俄州得至體現,研究表明,學區財政干預系統 提出的“財政風險學區標簽”一定程度上減少了學區內的平均房價,一旦標簽被移除住 房售價又會上漲[35]。也說明了全面、長期、實時和長期監控學區住房市場的重要性。
其中部分城市的排名位置差異很大,表明監管相關政策以打擊學校附近的房屋投機 等方式需要因地制宜。例如,2016年和2020年的動態政策,如招生名額分配積分制, 導致深圳的搜索量排名顯著變化。
4.3.2我國城市之間學區房信息流動影響以及滑窗分析
圖4. 5不同城市間ISV-HPP的TE值 圖4. 6不同城市間HPP-ISV的TE值
本章根據第二章介紹的傳遞熵方法將模擬數據和實驗數據用于檢測整個樣本期的
TE值,并分析房價溢價(HPP)與互聯網搜索量(ISV)之間的依賴關系,如圖4.3至U 圖 4.4所示。灰度圖上的顏色越深,信息的變化幅度越大,傳遞熵系數的絕對值越大, 傳遞的信息流就越多。對于時間序列系統,整個樣本周期內所有可能的信息傳輸的正
28
TE值表示雙向信息流,負TE表示信息流單向傳導。
根據圖中提供的證據表明,互聯網數據與任何城市的房地產市場之間都存在顯著的 信息流,并且在大多數城市中都發現了非線性雙向因果關系。具體來講,圖4.3和圖4.4 中顯示的大多數生成數據的正或負TE值,分別表示ISV和HPP上時間序列的互相關。 需要注意的是北京與上海、杭州和成都三個一線城市之間存在非線性單向因果關系。從 表 4.3 可以表現出北京對中國城市學區房搜索信息流的主導作用。北京作為中國的首都 和特大城市,在中國教育改革進程中為其他城市提供示范、借鑒和輻射,是政策、教育、 經濟和科技創新的引領者。在圖4.4中,除了蘇州和杭州外,大多數一線城市之間都存 在二手房溢價率的非線性雙向因果關系。現實世界中的復雜網絡充滿了許多社會的不確 定因素,這使得實驗結果整體的熵值較低,傳輸的信息量不是很高。
圖4.5 和圖4.6表現了學區房信息流中隨時間變化的因果關系。具體來講,信息流 總是從百度搜索量(ISV)到房地產市場(HPP), HPP和ISV之間的波動溢出方向是單 向,且由ISV主導,表明ISV對學區溢價率(HPP)有直接的因果影響。網絡公眾關注 度對學區房地產市場的影響比學區房地產市場對網絡聲量的影響更大。對這一結果的一 種可能表現是,百度搜索指數承載了大量購房者的需求信息,直接影響到二手房市場價 格。
表4. 3城市間學區房搜索量(ISV)的TE值
Beijin g Shangh ai Hangzh ou Cheng du Guangzh ou Suzho u Shenzh en Nanjin g Chongqi
ng Wuha n Tianji n
Beijing 0.00 -0.18 -0.28 -0.40 -0.58 -0.28 -0.42 -0.50 -0.64 -0.63 -0.73
Shanghai 0.04 0.00 -0.32 -0.46 -0.53 -0.32 -0.42 -0.64 -0.49 -0.61 -0.76
Hangzho 0.03 -0.19 0.00 -0.39 -0.47 -0.29 -0.34 -0.60 -0.45 -0.53 -0.83
u
Chengdu 0.03 -0.23 -0.27 0.00 -0.55 -0.30 -0.51 -0.67 -0.46 -0.56 -0.83
Guangzh -0.10 -0.31 -0.18 -0.47 0.00 -0.41 -0.44 -0.57 -0.49 -0.63 -0.91
ou
Suzhou -0.03 -0.16 -0.37 -0.52 -0.52 0.00 -0.40 -0.50 -0.54 -0.59 -0.81
Shenzhen -0.02 -0.19 -0.30 -0.32 -0.59 -0.35 0.00 -0.53 -0.48 -0.59 -0.82
Nanjing -0.07 -0.16 -0.26 -0.54 -0.56 -0.26 -0.46 0.00 -0.49 -0.69 -0.87
Chongqi -0.02 -0.14 -0.28 -0.46 -0.49 -0.40 -0.43 -0.58 0.00 -0.74 -0.82
ng
Wuhan -0.04 -0.22 -0.18 -0.43 -0.44 -0.30 -0.42 -0.68 -0.51 0.00 -0.91
Tianjin -0.11 -0.24 -0.23 -0.48 -0.38 -0.34 -0.49 -0.69 -0.66 -0.72 0.00
為了進一步檢驗上述結果,通過Sobel檢驗進行媒介分析(IV-M-DV),通過百 度搜索指數間接評估北京HPP對其他城市的影響。ISV和HPP的所有時間序列數據 都進行了標準化,以減少數據量級的誤差。根據Sobel檢驗結果(如表4.4所示),p值
29
為 0.000***、0.005**、0.001**、0.010**,均在臨界值 0.05 以下,說明 Sobel 檢驗結 果有意義。結果說明了北京在城市中的主導地位以及百度搜索指數對學區房信息傳導的 媒介效果。
表4. 4 Sobel測試結果
IV: HPP DV: HPP Mediator (M):ISV of Beijing
se P
Shanghai 0.010 0.000***
Chengdu 0.013 0.000***
Hangzhou 0.006 0.000***
Guangzhou 0.007 0.000***
Nanjing 0.004 0.000***
Beijing Wuhan 0.005 0.000***
Suzhou 0.006 0.005**
Tianjin 0.013 0.001**
Shenzhen 0.003 0.010**
Chongqing 0.007 0.000***
**p < 0.01, ***p < 0.001
以上研究結果表明,房地產市場對教育資源分配政策具有長反饋特征[90],并可以通 過搜索引擎中的信息搜索量有效的映射。網絡搜索行為對學區房價格變化的影響比學區 房價格變化對網絡搜索行為的影響更大。通過文獻分析表明,本章研究結果與前人結果 具有一定相似性。其中Zahirovic-Herbert V等人利用對數線性回歸模型通過控制特征變 量研究美國東巴吞魯日縣的學校質量以及周邊房屋價格,發現美國家庭對優質學校周邊 房產的估值可以完全反映在交易價格和搜索市場流動性變化中[91]。盡管不同城市可能每 年都會對學區進行動態調整,但中國家庭對優質學區的購買意愿在很長一段時間內將難 以改變。
30
(c) The TE of HPP between Beijing and Shanghai. 圖 4. 7 城市間信息傳遞的動態影響(以北京市為例) 為了進一步表征不同時期城市間信息傳遞的動態影響,本章采用了 1867 天的滾動 窗口測試,窗口大小是基于總樣本的最小比例183天觀察值。對于第一個窗口,涵蓋時 間為 2016年 1 月至 2016 年 6 月,滾動窗口測試可以計算 2016 年 7 月至 2020年 12月 總共1684 次,這樣可以測量TE的相對連續變化。圖4.7顯示了城市間信息傳遞的動態 影響。如(a)所示,紅線的值在整個序列中總體穩定,明顯高于黑線,表明ISV與學 區HPP存在明顯的直接因果關系。在(b)和(c)圖中存在相反方向的兩個不穩定值, 表現出明顯的隨機特征。 (b) 中的 TE 介于 -0.3~0.6 和 (c) 中的 -0.4~1.1 之間,表明 北京市與上海市的關注度和學區房價溢價率都存在動態的間接因果關系。總體而言,雖 然北京長期是學區住房信息系統的引導者,但其主導地位會隨時間的推移而改變。
4.4本章小結
本章通過對網絡信息流的分析,研究學區房溢價與公眾關注之間的因果關系和復雜 性演變。基于傳遞熵方法和中國11 個一線城市的房價數據和百度指數,實證分析了學 區房房價與公眾關注度之間的信息交互作用和動態影響。結果表明,我國一線城市的房 地產市場與公眾教育關注之間存在顯著的信息流。政策改革對學區房信息系統的短期影
31 響明顯,百度指數的相對搜索量具有媒介效果。從空間尺度觀察,非線性雙向因果關系 在大多數城市都存在,以北京為主,其領先地位隨時間變化。經過Sobel測試,TE的結 果與傳統媒介測試的結果相吻合。這些實證結果表明,打擊學區住房投機的方法需要因 地制宜,有必要進一步加強相關體系研究與復雜網絡理論的聯系。該調查為政策制定者 實施有針對性的教育、住房的監管政策和預防學區房的系統性風險提供了有效支持。
32
5基于機器學習的家長教育焦慮預測研究
前兩章主要利用機器學習方法結合互聯網搜索數據和政府官方數據、商業數據等時 序數據對教育均衡、學區房進行大數據趨勢分析。本章通過統計變化驅動因素中的指標 異常與家長教育焦慮報告中的監測方案聯系起來,探索建立家長焦慮安全風險預警系統 的潛力,并提出了適用于我國國情的大規模機器學習預測模型。
5.1引言
利用模型來預測公眾情緒是當前最難的研究內容之一。目前大量研究在幸福指數預 測和投資者情緒預測方面取得了巨大進展[92, 93],但在家長教育焦慮預測方面仍然面臨挑 戰。C0VID-19的突然爆發及其相關的感染控制措施嚴重擾亂了世界各地的教育常規, 打亂了家庭生活的節奏,迫使家庭焦慮增加,也引起了人們對教育焦慮的極大關注。此 外,媒體傳播已成為影響家長教育焦慮的重要渠道,在規劃和決定孩子的未來時,家長 利用互聯網和電子技術獲取大量相關信息。互聯網記錄了這些互動信息,并積累了大量 與教育焦慮相關的數據[94-96]。家長很容易通過網上混雜的信息加重當前的焦慮狀態,不 利于孩子的成長和學習。然而,由于研究工具的缺乏,對父母教育焦慮的實證研究仍存 在一定的挑戰。
國內普遍采用來自官方公布的統計數據調查家長教育焦慮指數,通常由中國青少年 兒童研究中心(CYCRA, http://www.cycrc.org)等權威機構每年公布一次。國外學者采 用實地調查和部分成員訪談等形式研究父母對某一學科內容的焦慮,例如數學焦慮[97, 98] 相較于后者而言,統計數據是根據教育專家的統計理論計算得出的,具有普適性和權威 性。來自智課教育家長研究院的專家研究表明,家長教育焦慮指數(PEAI, Parental Education Anxiety Index)的影響變量主要來源于社會環境、家庭關系、教育資源等方面 [99],這一研究結論有助于對相關統計量的調查、統計、計算并預測,但是缺乏客觀驗證 和準確描述。隨著新冠疫情爆發、金融危機、網絡輿情等突發事件的出現,如何短期內 預測公眾情緒對數據量有限的研究領域提出了巨大挑戰,尤其是在教育領域。國外學者 采用傳統的調查方法探究了疫情期間家長對孩子教育的焦慮因素,例如種族和民族差異 隔離和保護措施、在家學習習慣和實際學習效果等。因此捕捉突發事件并衡量其不確定 性以幫助制定有效的教育焦慮緩解策略對公共衛生管理十分迫切。
盡管家長教育焦慮是一個很容易被人理解的概念,但仍然缺少一個科學方法進行廣 泛測量并被全球接受。目前已知的調查問卷法、訪談法、觀察法等測量方法大多借鑒了 相關領域有關的心理測量方法,尚處于發展階段,還需要進一步完善。由于其預測精度 取決于歷史數據的數量和質量,因此以上測量方法難以有效地預測突發事件的未來影響
33
趨勢,并有一定的局限性,如時滯性和潛在的不確定性等。本研究摒棄了傳統的主觀輸 入的心理測試分析數據,將其替換為歷史在線數據,包括來自在線用戶搜索行為、權威 機構和地理信息。盡管許多學者研究都集中于特定的學術領域,例如醫學和心理學,但 本章目標是創建一個適合全球不同國情的全國性家長教育焦慮先導指數。通過這種方式 本章將所有地區的 PEAI 特性,包括各地用戶自發性搜索行為和宏觀數據表達,結合到 一個全國性的情緒指數中,該指數匯總了所有地區的事件趨勢,提供了一個整體視圖。
利用大數據分析法實時測量和即時預測國民幸福指數和投資者情緒已被全球科研 工作者接受[100-102]。目前基于網絡學習數據的情感挖掘和分析主要是針對用戶(例如學 習者、教師和管理人員)的有效研究工具,但適用于家長的研究比較少[103]。網絡測量 方法可作為一種可靠的分析指標,檢測網絡信息中的相關性、可見性、可達性、邊緣性 和彈性的意見和情緒[104]。如今,全球 80%的網民在瀏覽互聯網時通過搜索引擎獲取信 息,高達 4.51億。一項調查表明,父母焦慮與信息需求有關[105]。基于網絡搜索的收集 方法具有全局性、開放性、連續性的特點,通過綜合提取關鍵詞來構建和整合搜索數據, 提高數據預測的準確性和及時性。百度指數作為中國最大的搜索引擎,可以反映中國大 陸熱點問題的趨勢。因此,本研究利用可行且獲取方便的百度搜索數據,為深入研究家 長教育焦慮提供了一種獨特的途徑。
近年來,隨著大數據的出現和機器學習的發展,循環神經網絡(RNN)和決策樹(DT) 作為序列數據分析和突發事件預測的工具取得巨大進展[106]。這些預測算法可以大致分 為基于樹的模型:Catboost、Adaboost、XGBoost、Lightboost和其他預測模型:隨機森 林(RF)、線性回歸(LR)、GRU和LSTM。本章通過比較這8種機器學習預測模型, 得到適合于大規模家長教育焦慮預測的機器學習模型,接著利用XGBoost-SHAP模型在 多源數據集上驗證了該預測模型的可解釋性,具體分析框架如圖5.1所示。
5.2實驗數據集
本次試驗數據來源于百度搜索引擎(https://www.baidu.com/),所有數據處理和實證 分析使用Excel 2010和PyCharm 2020.2軟件進行,起始時間為2011年1月1日,結束 時間為 2020 年 12 月 31 日。為獲取有關“家長教育焦慮”的全國范圍內網絡輿情數據, 本章參考學者論文制定了關鍵詞選擇策略,如下圖5.2所示。首先,在之前的研究中使 用的關鍵字被計算為初始關鍵字。然后,利用大數據挖掘優化搜索引擎 5118 大數據分 析網站,提取出所有可用的組合關鍵字共 3654 個樣本,每個樣本包含社會環境、家庭 關系、教育資源這 3個特征維度,每個維度分別包含31、35、86個變量個數,具體如 表5.1所示。本章結合專家意見數據庫(https://www.cnki.net/)并從智課教育家長研究 院對家長焦慮問題研究的基礎上,結合大數據挖掘搜索引擎優化網站 (https://www.5118.com/),對中國家長焦慮問題進行分類和匯總。
圖5. 2關鍵詞選擇
表 5. 1 教育焦慮關鍵詞匯總
精確搜索維度 變量個數 統計量 占比 復合關鍵詞列表
社會環境 71 2666669 18.2% 兒童性教育、兒童心理問題、孩子們的心理
健康、游戲成癮、嫉妒心理、兒童性教育、
兒童心理問題、孩子們的心理健康、留守兒
童、校園安全
家庭關系 35 127855 44.8% 隔代教育、分離焦慮、親子關系、親子教育、 溺愛孩子、生二胎、離異家庭、產假、科學 教育、家庭暴力……
教育資源 86 314158 37% 留學條件、學區房、小學入學率、初中入學 考試、中考、高考、孩子成績不好怎么辦、 升學考試……
為了確保數據的可靠性和模型的良好性能,圖數據的來源為各省教育廳與國家統計
局。本工作前期收集了各省每年高考報名人數和一本率,并按年份分別統一制成760*530 (高考報名人數)和 660*490 (一本率)的格式,具體如表5.2、圖5.3、圖5.4所示。 利用 Python 第三方圖像處理庫 Image 把圖片轉為 RGB 三通道的 numpy 數組,用于圖 特征提取。
表 5. 2 2011-2020年除港澳臺以外各省高考報名人數(單位:萬)
省/市 2020年 2019年 2018年 2017年 2016年 2015年 2014年 2013年 2012年 2011年
河南 115.80 108.40 98.30 86.30 82.00 77.20 72.40 71.63 80.50 85.54
廣東 78.80 76.80 75.80 75.70 73.30 75.40 75.60 72.70 69.20 65.50
山東 53.00 55.99 59.20 58.30 60.20 69.61 55.80 50.00 51.00 62.00
四川 67.00 65.00 62.00 58.30 57.13 57.00 57.17 54.00 53.80 51.43
河北 62.48 55.96 48.60 43.60 42.31 40.48 41.82 44.98 45.93 48.50
安徽 52.38 51.30 49.90 49.90 50.99 54.60 52.70 51.10 50.60 54.00
湖南 53.70 50.00 45.20 41.10 40.16 38.99 37.80 37.30 35.20 5.41
廣西 50.70 46.00 40.00 36.50 33.00 31.00 31.50 29.80 28.50 29.20
貴州 47.00 45.80 44.10 41.20 37.38 33.05 29.27 24.78 24.80 24.32
江西 38.94 42.10 38.00 36.50 36.06 35.46 32.59 27.43 26.90 28.86
湖北 39.48 38.40 37.40 36.20 36.14 36.84 40.27 43.80 45.70 48.50
江蘇 34.89 33.90 33.00 33.00 36.04 39.29 42.57 45.10 47.40 50.00
云南 34.30 32.60 30.00 29.30 28.00 27.21 25.59 23.60 21.00 23.00
陜西 32.23 32.59 31.90 31.90 32.80 34.40 35.30 36.65 37.53 38.39
浙江 32.57 31.50 30.60 29.10 30.74 31.79 30.86 31.30 31.60 30.00
山西 32.60 31.40 30.50 31.70 33.90 34.22 34.16 35.80 36.10 33.96
重慶 28.30 26.40 25.00 24.70 24.88 25.54 25.06 23.50 23.00 21.64
遼寧 21.80 24.40 18.50 20.80 21.82 22.51 23.90 25.40 25.60 24.50
甘肅 26.31 21.80 27.30 28.50 29.60 30.38 29.70 28.30 29.60 29.70
福建 20.26 20.78 20.00 18.80 17.50 18.93 25.50 25.50 25.00 26.71
內蒙古 19.79 19.90 19.50 19.80 20.11 18.40 18.80 19.30 18.95 20.57
新疆 22.93 22.00 20.70 18.40 16.61 16.05 16.26 15.87 15.47 14.77
黑龍江 21.10 20.40 16.90 18.80 19.70 19.80 20.40 20.80 21.00 20.80
吉林 15.00 16.27 15.00 14.30 14.85 13.76 16.02 15.90 16.20 16.50
寧夏 6.03 7.17 6.90 6.90 6.90 6.70 6.40 5.87 6.02 6.02
海南 5.73 5.90 5.80 5.70 6.04 6.20 6.10 5.60 5.50 5.41
北京 4.92 5.90 6.30 6.00 6.12 6.80 7.05 7.27 7.30 7.60
青海 4.66 5.70 4.20 4.60 4.50 4.20 3.97 4.06 3.80 4.06
天津 5.63 5.50 5.50 5.70 6.00 6.10 6.00 6.30 6.40 6.46
上海 5.00 5.00 5.00 5.10 5.10 5.10 5.20 5.30 5.50 6.10
西藏 3.30 2.76 2.50 2.80 2.40 2.10 1.96 1.89 1.90 1.80
需要說明的是由于香港特別行政區、澳門特別行政區和臺灣省的考生報考內地大學 的主要途徑是港澳臺僑聯考,不參與全國普通高等學校全國統一考試,因此本章沒有將 三者行政區域內數據收錄在內,并在圖片中的顏色表示為空白色。
36
圖 5. 3 除港澳臺以外各省高考報名人數分布 以2011年為例
圖 5. 4 除港澳臺以外各省高考一本率分布圖,
以2011年為例
5.3基于機器學習的家長教育焦慮分析框架和先導指數
5.3.1基于PCA構建家長焦慮指數分析
本章根據主成分分析法計算得到時序時間組成的 33 個主成分及其貢獻率,并用第 二章中介紹的方法計算出不同關鍵詞特征的權重。表5.3 顯示了權重最大的前50個和權 重最小的后50 個關鍵字特征,并按照家庭關系、教育資源、社會環境3 種搜索維度進 行了分類。從表中可以看出,從 2010到2020年,教育資源問題在前50個權重最大的 關鍵詞中達到33 個,比教育社會環境問題多20個,比家庭關系問題多29個,證明十 年來中國父母最焦慮的教育問題是教育資源分配問題。結合后 50 個權重最小的關鍵詞 特征可以看出,社會環境問題和教育資源問題相比家庭關系問題是近十年家長教育焦慮 的主要內容。
表 5. 3 家長焦慮指數中排名前50和后50的關鍵詞權重列表
權重分布 家庭關系 教育資源 社會環境
前50個 4 33 13
分離焦慮 對口升學,高三復讀,初中升高中, 未成年懷孕
出軌 對口升學 校園暴力
科學教育 高三復讀,初中升高中 同學關系
親子關系 大學錄取,報考大學,高考復讀, 沉迷游戲
上學,小學入學,小升初,考生, 青少年叛逆
輟學,保送生,上大學,小學畢業, 啟蒙教育
特長生,小學劃片,升學指導。初 妄想癥
中畢業,出國留學專業,出國留學 校園暴力事件
英語,出國留學條件,生地會考, 兒童性教育
復讀生,出國留學的條件,孩子不 小學生戀愛
學習,提前錄取,高中生出國留學, 自我意識過剩
出國留學的費用,入學,高考招生 青春期如何長高
微笑抑郁癥
后50個 7 10 33
家庭冷暴力 出國留學 特殊兒童教育,春期性教育,網絡成癮,性
家庭問題 如何提高孩子學習成績 教育片,青少年教育,逃避現實,網癮的危
溺愛 孩子的教育 害,青少年心理,青春期心理健康,性教育,
家庭婚姻 孩子學習差怎么辦 道德教育,性教育課件,青少年網癮,性啟
家庭暴力 自主招生考試 蒙,青少年早戀,中學生心理,性教育課,
生二胎 高考報名 兒童心理問題,青春期教育,教育問題,生
婚外情 高中文理分科 理健康,性教育圖片,談戀愛,理財教育,
孩子成績不好怎么辦 青春期性教育視頻,青少年犯罪,性啟蒙教
鼓勵孩子學習的話 育,性愛知識,未成年保護法,心理,青春
如何教育孩子學習 期逆反,教育,多疑癥
主成分分析法獲得的指標權重信息構建家長教育焦慮指數,根據獲取的指數信息時 間序列,數據的趨勢如圖5.5所示。
2015年、2017年、2018年和2020年是家長教育焦慮發生巨大變化的特殊年份,其 中A、B、C和D這4個時間點尤為突出。本章主要從兩個原因解釋這一現象。一是國 際教育信息化的迅速普及促進了教育數據資源向社會開放,社會迅速參與教育話題的討 論,促進了對父母危機感的認識。1995 年至 2014 年 12 月中國教育科研計算機網 (CERNET)國際出口帶寬在20年內全面提升52萬倍。其次是政府政策的驅動。由于 高考于每年6月 7日-9日在中國大陸舉行,圖中每年6月和7月家長焦慮度最高。2015 年國家對高考自主招生方案進行大幅度調整的影響在A點表現出來。部分家長和學生因 對職業規劃和高考志愿者申請政策缺乏了解,為避免錯失名校機會而焦慮。2017 年和 2018年的焦慮值在B點和C點達到峰值,主要原因是過去幾十年文理分明的高考模式
38
被必修課和選修課相結合的模式所取代,同時自 2015 年北京實施的就近入學政策引起 廣大中國家長近幾年在重點子女學校附近購房的高度關注。PEAI在2020年1月1日 開始的月份達到峰值,該月份是 2019 年冠狀病毒病 (COVID-19) 大流行席卷全球的月 份。疫情前,日均家長教育焦慮指數為 2.93,之后上升 22.77%了達到 3.60。可以觀察 到持續的全球 COVID-19 大流行對 PEAI 的顯著影響,表明健康問題與父母的教育焦 慮密切相關。詳細的實驗表明,PEAI在捕捉中國政策和事件驅動的不確定性方面表現 出色。
Time
圖 5. 5 家長教育焦慮指數
5.3.2基于機器學習的家長焦慮指數預測模型
為了評估提出的機器學習模型,本節使用八種機器學習算法進行比較。包括基于樹 的模型:Catboost、Adaboost、XGBoost、Lightboost 和其他模型:隨機森林(RF)、線 性回歸(LR)、GRU、LSTM。將80%的觀測值作為訓練數據集用于訓練模型,剩下的 20%作為測試集用于測試模型預測精度。為了評估模型的準確性,本節選取了五個常用
的回歸模型性能指標如下所示。
平均絕對誤差: MAE = 1 V—'n
少-刃 (5.1)
均方誤差: MSE = 1 v~,n
広少-曲 (5.2)
均方根誤差: RMSE =
J [龍:WW] (5.3)
決定系數: 皆=1 器4—yd y 5 - y,)2 (5.4)
39
其中,兀是時間序列的長度,%是相應的觀測值,兒是對應的預測值和兒=遼?力。 當決定系數R2越大,且平均絕對誤差M4E、均方誤差MSE、均方根誤差RMSE、平均絕 對百分比誤差M APE越小時,相應的模型預測效果越好。
參數的選擇對預測結果也至關重要。為了得到更高的預測精度,在模型訓練階段,
本節使用網格搜索算法[107]尋找機器學習的最優參數,利用5折交叉驗證法[108]重復隨機
數據選擇來評估模型性能。表5.4顯示了四種算法所選參數的最佳值。模型的時間變量 按1天、1 周和1 個月設置。模型的詳細設置和代碼運行環境分別如表5.5所示。
表 5. 4 機器學習模型參數設置
算法 超參數設置
Catboost learning_rate: 0.03, max_depth: 2, n_estimators: 500
Adaboost learning_rate: 0.03, max_depth: 2, n_estimators: 500
XGBoost learning_rate: 0.03, max_depth: 2, n_estimators: 500
Lightboost
RF learning_rate: 0.03, max_depth: 2, n_estimators: 500 max_features: auto, max_depth: 4, n_estimators: 1000
LR Default
LSTM learning_rate:0.001, n_estimators: 1000
GRU learning rate:0.001, n estimators: 1000
表 5. 5 軟硬件配置
Python Software 3.6.5
Tensorflow 1.8.0
Sklearn 0.19.1
Numpy 1.14.3
Matplotlib 2.2.2
CPU Intel(R) Core (TM) i7-6700HQ
CPU @2.60GHz 2.60GHz
RAM 12.0GB
System Windows 10
表 5.6 顯示了八種機器學習預測模型在合適的超參數情況下表現的最佳預測結果。 從時間變量來看,所有算法預測性能結果均可以排序為:1 天>1 周>1 月,不同模型的 預測性能結果排序為:“LSTM/GRU> LR> RF> XGBoost> Adaboost> Catboost> Lightboost”。在短期預測中,LSTM的擬合性能最好,決定系數以為0.8343,并且預測 誤差值(RMSE、MAPE)相對較小;在中長期預測中,GRU的擬合性能最好,決定系 數分別為0.8286、0.8133,預測誤差值(MAE、MSE)相對較小。
40
為了可視化各模型的最佳預測效果,圖5.6依次表現了時間變量為1天時的Catboost、 Adaboost、XGBoost、Lightboost、RF、LR、GRU 和三個時間變量中的 LSTM 的迭代曲 線。其中黃色(淺色)表示原始測試數據集,藍色(深色)表示對測試數據集的預測結 果。可以看出LSTM預測模型在時間變量為短期1天時的擬合測試數據集方面做得最好, GRU 模型在中期 1 周和長期 1 月預測效果最好。這些結果表明,本文提出的機器學習 模型在可更新序列數據集上獲得了更高的預測精度,并成功地提供了一個短期(日)- 中期(周)-長期(月)的未來趨勢。這意味著經過訓練的機器學習模型能夠很好地描 述家長教育焦慮指數的的不確定性,并能夠準確預測。
表 5. 6 機器學習模型預測結果
算法 時間變量 RMSE MSE MAE MAPE R2
Catboost 1天 0.4193 0.1758 0.1399 0.0184 0.7700
1周 0.6874 0.4726 0.2654 0.0351 0.3824
1月 0.8002 0.6404 0.3916 0.0553 0.1687
Adaboost 1天 0.4218 0.1779 0.1473 0.0197 0.7673
1周 0.6780 0.4597 0.2842 0.0389 0.3993
1月 0.8332 0.6942 0.4727 0.0704 0.0988
XGBoost 1天 0.4104 0.1684 0.1394 0.0184 0.7797
1周 0.6809 0.4637 0.2636 0.0349 0.3940
1月 0.8062 0.6500 0.3966 0.0561 0.1562
Lightboost 1天 0.4369 0.1909 0.1450 0.0189 0.7503
1周 0.6897 0.4757 0.2662 0.0352 0.3784
1月 0.7995 0.6392 0.3923 0.0554 0.1701
RF 1天 0.4022 0.1617 0.1381 0.0184 0.7885
1周 0.6897 0.4757 0.2676 0.0355 0.3783
1月 0.8019 0.6431 0.3922 0.0554 0.1652
LR 1天 0.3656 0.1336 0.1156 0.0162 0.8252
1周 0.6409 0.4107 0.2628 0.0359 0.4632
1月 0.8033 0.6454 0.3811 0.0535 0.1622
LSTM 1天 0.3558 0.1266 0.1255 0.0176 0.8343
1周 0.3827 0.1465 0.1323 0.0186 0.8085
1月 0.3872 0.1499 0.1236 0.0173 0.8053
GRU 1天 0.0583 0.0034 0.0199 0.0643 0.8275
1周 0.0582 0.0034 0.0203 0.0645 0.8286
1月 0.0606 0.0037 0.0209 0.0666 0.8133
(a) Catboost (時間變量:1 天,R2 = 0.7700 )
(e) RF (時間變量:1天,R2 = 0.7885 )
(g) GRU (時間變量:1天,R2 = 0.8275 ) (h) GRU (時間變量:1周,R2 = 0.8286 )
⑴GRU (時間變量:1周,R2 = 0.8133 )
圖 5. 6 不同預測模型的迭代曲線
533基于XGBoost-SHAP的家長焦慮指數預測模型
為了解決機器學習模型在預測時無法解釋的問題,本章利用XGBoost-SHAP模型根 據不同數據類型分析輸入變量的特征重要性,如表 5.7 所示。
表5. 7 XGBoost-SHAP模型在不同數據類型下的預測結果
序列 模型數據類型 RMSE MSE MAE MAPE R2
(1) 時序數據 645.8620 417137.7386 76.4948 0.0905 0.9555
(2) 時序數據+報名人數.JPG 712.6385 507853.6048 83.9774 0.0872 0.9459
(3) 時序數據+—本率.JPG 713.5031 509086.7256 83.0631 0.0859 0.9457
(4) 時序數據+報名人數.JPG+—本率.JPG 633.1569 400887.6667 73.4520 0.0904 0.9573
利用 5.3.2 中性能比較方法,得出包含四種數據類型的 XGBoost-SHAP 模型的預測 性能。結果排序依次為“類型(4)>類型(1)>類型(2)>類型(3)”,類型(4)的 擬合性能最好"=0.9573,擁有相對較小的預測誤差。但是不同數據類型對模型最終預 測結果影響不大,R2的差距始終位于0到0.0113之間,表明網絡搜索數據與圖數據這 兩種數據類型對家長焦慮預測效果影響區別不大,可能原因是當前我國教育政策對各省 家長教育焦慮的影響具有普適性,不同省會的教育焦慮程度與本地的影響因素有關。
圖 5.8顯示了不同模型中 PEAI 所有輸入特征的特征重要性,圖中紅色表示正向影 響,藍色表示負向影響。可以發現“高考”對PEAI的影響比較明顯,“保送”對PEAI 顯示出相對重要的影響。根據圖5.7中的特征依賴,“高考”和“保送”內容高的搜索行 為理論上會產生更多的家長焦慮。這種表現的主要原因可能是高考的重要地位。對于許 多中國學生和家庭來說,高考不僅是一次獲得一份好工作所需夢想學位的機會,而且是 一次跨越社會階層的機會。對政府而言,現行的考試模式是最公平的人才選拔方式,可 以保證各行各業、不同背景的學生都能有平等的機會進入大學。該研究結果同時與印度 和韓國研究結果一致,即學業壓力始終與家長焦慮呈正相關[109]。
35000 -
30000 -
25000 -
20QO0 -
恤 15000 -
10000 -
5000 -
0-
5
1e6
圖 5. 7 關鍵詞“保送”與“高考”的特征依賴圖
44
圖 5. 8 不同模型的特征依賴圖
5.4本章小結
本章利用多源數據構建了中國家長教育焦慮分析框架和先導指數,以獲取父母教育 焦慮的大規模預測特征。首先基于主成分分析法對網絡搜索行為進行信息收集和管理并 結合圖數據構建“家長教育焦慮指數”通過比較Catboost、Adaboost、XGBoost、Lightboost、 RF、LR、GRU 和 LSTM 對家長教育焦慮指數的預測能力,得到短期預測效果最好的 PCA-LSTM 模型和中長期預測效果較好的 PCA-GRU 模型。最后利用 XGBoost-SHAP 模型根據特征重要性分析和解釋了該模型。實驗結果表明,提出的分析框架在可更新序 列數據集上提供了一個短期、中期和長期的未來趨勢,并獲取了大規模公眾心理和情緒, 為教育公平實時動態分析提供支撐,為教育公平輿情風險防控提供預警信息。本工作初 步對常規化信息技術無法處理的教育整合數據進行處理,通過數據挖掘、高效預測、輔 助診斷,實現有關部門在精準扶貧、教育資源分配、職業咨詢、福利提供等公共服務上 科學決策、精細管理和精確監管。
6總結與展望
6.1 工作總結
本研究圍繞多源數據背景下的機器學習和復雜網絡在城市教育時空數據中的應用 展開。分別從教育均衡、學區房和家長教育焦慮三方面調查公眾對教育話題關注度的大 數據趨勢研究,嘗試對教育搜索時序數據研究領域進行補充。本文以百度指數、專家意 見數據庫、政府官方數據、學區房房價作為多源數據數據集,基于復函數、主成分分析 法、K-means++算法、傳遞熵方法和長短期記憶模型,分析了公眾關注度和政府教育投 入的相關性,調查了中國城市學區住宅市場信息流的因果關系和復雜性演化規律,最后 構建了家長教育焦慮指數分析框架。本研究的主要結論如下:
首先,百度指數可以作為一種完善教育評價體系、實時監測區域教育均衡狀態、支 持教育可持續發展的新技術手段。公眾關注度與教育財政投入之間存在正反饋關系,城 市教育均衡的公眾關注度在很大程度上受到特定經濟、政治和區位因素的影響。
其次,我國一線城市的房地產市場與公眾教育關注之間存在顯著的信息流,政策改 革對學區房信息系統的短期影響明顯,百度指數的相對搜索量具有媒介效果。從空間尺 度觀察,非線性雙向因果關系在大多數城市都存在。以北京為主,其領先地位隨時間變 化。經過Sobel測試,本文研究結果與傳統媒介測試的結果相吻合。
最后,提出的家長教育焦慮分析框架在可更新序列數據集上提供了一個短期、中期 和長期的未來趨勢,并獲取父母教育焦慮的大規模預測特征。可解釋模型在圖數據和時 序數據模型中不僅增加了模型可解釋性且取得更優的性能,而且實證了全國教育政策、 資源等影響因素對各省家長焦慮的影響具有普適性。為使用百度搜索數據等網絡大數據 進行公眾教育關注趨勢預測提供了嚴謹且可推廣的框架。
6.2工作展望
基于本文的研究工作還存在一些不足與局限性:
(1)對于搜索引擎數據,有必要優化關鍵詞的選擇策略。為了包含更全面的信息, 當前關鍵詞選擇策略是有針對性的篩選。在后面的研究工作中,需要對與教育相關的高 頻詞匯進行優化篩選,有利于提高工作效率、減少成本。
(2)由于數據量的限制,本工作僅通過網絡搜索量調查了學區住房信息流動分析。 在未來的工作中,需要通過考慮其他解釋變量來構建更精確的學區住房分析模型。
(3)由于本文的研究對象僅針對了時序數據,在未來的工作中,需要采集和分析 包括時序數據、文本數據、圖像數據在內的不同數據類型,并考慮加入多維尺度變換
(MDS)、局部線性嵌入(LLE)等非線性特征提取算法進行更深入和詳細的比較分析。
46
參考文獻
[1]李軍, 喬立民, 王加強, et al. 智慧政務框架下大數據共享的實現與應用研究 [J]. 電子政務, 2019, (02): 34-44.
[2]彭賡, 李娜, 呂本富. 電子商務交易量的預測研究——基于站內搜索數據與商品分類預測模型 [J]. 管理現代化, 2014, (02): 30-2.
[3]Hyunyoung Choi H V. Predicting the Present with Google Trends [J]. Economic Record, 2012, 88(s1): 2-9.
[4]任軼群, 魏玖長. 公共危機事件公眾關注度的影響因素分析 [J]. 統計與決策, 2010, (01): 67-70.
[5]杜帥楠, 陳安. 網絡公眾關注度的走勢、原因及其在渤海溢油事件中的應用研究 [J]. 科技促進 發展, 2011, (07): 16-22.
[6]唐曉彬, 董曼茹, 張瑞. 基于機器學習 LSTM&US 模型的消費者信心指數預測研究 [J]. 統計 研究, 2020, 37(07): 104-15.
[7]Fantazzini D, Toktamysova Z. Forecasting German car sales using Google data and multivariate models [J]. International Journal of Production Economics, 2015, 170: 97-135.
[8]Bangwayo-Skeete P F, Skeete R W. Can Google data improve the forecasting performance of tourist arrivals? Mixed-data sampling approach [J]. Tourism Management, 2015, 46: 454-64.
[9]Mihaela S. Improving unemployment rate forecasts at regional level in Romania using Google Trends [J]. Technological Forecasting and Social Change, 2020, 155.
[10]Preis T, Moat Helen, Susannah, Stanley H Eugene. Quantifying trading behavior in financial markets using Google Trends [J]. Scientific reports, 2013, 3(1).
[11]楊欣, 呂本富. 突發事件、投資者關注與股市波動——來自網絡搜索數據的經驗證據 [J]. 經濟 管理, 2014, 36(02): 147-58.
[12]朱曦, 賴應良, 段雨彤. 基于百度指數的公路運價指數 RO-ELM 預測 [J]. 科技和產業, 2021, 21(01): 179-84.
[13]高爽, 盛宇飛. 基于百度指數的開封旅游需求建模與預測研究 [J]. 統計理論與實踐, 2021, (11): 44-9.
[14]黃婕, 劉慧, 劉維斯, et al. 基于百度指數的我國新型冠狀病毒肺炎網絡輿情分析 [J]. 預防醫 學情報雜志, 2022, 38(02): 172-7.
[15]Yu - Long Z, Ren - Jie H, Qian X, et al. Long short - term memory networks for CSI300 volatility prediction with Baidu search volume [J]. Concurrency and Computation: Practice and Experience, 2019, 31(10).
47
[16]Baig M I, Shuib L, Yadegaridehkordi E. Big data in education: a state of the art, limitations, and future research directions [J]. International Journal of Educational Technology in Higher Education, 2020, 17(1).
[17]朱德全、吳慮. 大數據時代教育評價專業化何以可能:第四范式視角 [J]. 現代遠程教育研究, 2019, 31(6): 14-21.
[18]陳穎博,張文蘭. 國外教育人工智能的研究熱點、趨勢和啟示 [J]. 開放教育研究, 2019, 25(43-58).
[19]Zhang M. Internet use that reproduces educational inequalities: Evidence from big data [J]. Computers & Education, 2015, 86.
[20]王祁月, 劉潤然, 賈春曉. 復雜網絡上的意見動力學對謠言傳播的影響 [J]. 物理學報, 2021, 70(06): 351-8.
[21]馮傳蕾. 基于復雜網絡的計算機病毒傳播與防控研究 [J]. 粘接, 2021, 48(11): 169-72.
[22]羅曉黎, 蘆靜, 閔劍. 基于復雜網絡的企業風險傳染動態監測研究——以旅游業為例 [J]. 財 會通訊, 2022, (04): 135-9.
[23]李海燕,劉暉. 教育指標體系:國際比較與啟示 [J]. 廣州大學學報(社會科學版), 2007, 6(8): 50-5.
[24]張煒,周洪宇. 《中國教育指數(2020年版)》解讀 [J]. 寧波大學學報(教育科學版), 2020, 42(6): 1-7.
[25]劉彥華. 2020中國教育小康指數:96.1——教育公平大跨步 [J]. 小康, 2020, 25: 50-2.
[26]任棟.中國各地教育指數(HDI分項指數)的編制與分析J]. 2019.
[27]Dlouha J, Posp^ilovd M. Education for Sustainable Development Goals in public debate: The importance of participatory research in reflecting and supporting the consultation process in developing a vision for Czech education [J]. Journal of Cleaner Production, 2018, 172: 4314-27.
[28]Gatti L, Ulrich M, Seele P. Education for sustainable development through business simulation games: An exploratory study of sustainability gamification and its effects on students' learning outcomes [J]. Journal of Cleaner Production, 2019, 207: 667-78.
[29]Silvola A, Naykki P, Kaveri A, et al. Expectations for supporting student engagement with learning analytics: An academic path perspective [J]. Computers & Education, 2021, 168.
[30]Faham E, Rezvanfar A, Movahed Mohammadi S H, et al. Using system dynamics to develop education for sustainable development in higher education with the emphasis on the sustainability competencies of students [J]. Technological Forecasting and Social Change, 2017, 123: 307-26.
[31]Dalanon J, Matsuka Y. Forecasting Interest in Health Professions Education Based on Relative Search Volume Trends From the Philippines [J]. Health Professions Education, 2020, 6(3): 368-75.
[32]張煒, 周洪宇. 《中國教育指數(2020年版)》解讀 [J]. 寧波大學學報(教育科學版), 2020, 42(06): 48
1-7
[33]Hoong Chor Chin K W F. Influence of School Accessibility on Housing Values= [J]. Journal of Urban Planning & Development,, 2006, 132(3): 120-9.
[34]Il Hwan C. School choice, housing prices, and residential sorting: Empirical evidence from inter-and intra-district choice [J]. Regional Science and Urban Economics, 2015, 52: 39-49.
[35]Thompson P N. School district and housing price responses to fiscal stress labels: Evidence from Ohio [J]. Journal of Urban Economics, 2016, 94: 54-72.
[36]何浪. 公共設施可達性對住宅價格的影響研究 [D]; 廈門大學, 2014.
[37]周京奎, 吳曉燕. 公共投資對房地產市場的價格溢出效應研究——基于中國 30 省市數據的檢 驗 [J]. 世界經濟文匯, 2009, (01): 15-32.
[38]David B, Haurin D R. Educational Outcomes and House Values: A Test of the value added Approach * [J]. Journal of Regional Science, 2006, 46(2).
[39]Hoong Chor C, Foong K W. Influence of School Accessibility on Housing Values [J]. Journal of Urban Planning and Development, 2006, 132(3): 120-9.
[40]Seo Y, Simons R A. The Effect of School Quality on Residential Sales Price [J]. The Journal of Real Estate Research, 2009, 31(3): 307-27.
[41]Kuroda Y. The effect of school quality on housing rents: Evidence from Matsue city in Japan [J]. Journal of The Japanese and International Economies, 2018, 50.
[42]Yi Y, Kim E, Choi E. Linkage among School Performance, Housing Prices, and Residential Mobility [J]. Sustainability, 2017, 9(6).
[43]Chung I H. School choice, housing prices, and residential sorting: Empirical evidence from inter-and intra-district choice [J]. Regional Science and Urban Economics, 2015, 52: 39-49.
[44]Haizhen W, Yan Z, Zhang L. Do educational facilities affect housing price? An empirical study in Hangzhou, China [J]. Habitat International, 2014, 42: 155-63.
[45]Haizhen W, Yue X, Zhang L. School district, education quality, and housing price: Evidence from a natural experiment in Hangzhou, China [J]. Cities, 2017, 66: 72-80.
[46]Lirong H, Shenjing H, Yun L, et al. A social-media-based approach to assessing the effectiveness of equitable housing policy in mitigating education accessibility induced social inequalities in Shanghai, China [J]. Land Use Policy, 2020, 94: 94.
[47]Scott A I, Michael F. Does the market value value-added? Evidence from housing prices after a public release of school and teacher value-added [J]. Journal of Urban Economics, 2016, 91(Jan.).
[48]段會冬, 莫麗娟, 王軼哲. “雙減”政策背景下如何安放家長的教育焦慮——基于幼小銜接的 分析 [J]. 廣西師范大學學報(哲學社會科學版): 1-12.
[49]余雅風, 姚真. “雙減”背景下家長的教育焦慮及消解路徑 [J]. 新疆師范大學學報(哲學社會
49
科學版): 1-11.
[50]李金洲. 家長教育焦慮研究文獻綜述 [J]. 西部學刊, 2020, 08: 77-9.
[51]Streisand R, Mackey E R, Elliot B M, et al. Parental anxiety and depression associated with caring for a child newly diagnosed with type 1 diabetes: opportunities for education and counseling [J]. Patient Educ Couns, 2008, 73(2): 333-8.
[52]Sibnath Deb E S, Jiandong Sun. Academic Stress, Parental Pressure, Anxiety and Mental Health among Indian High School Students [J]. International Journal of Psychology and Behavioral Sciences, 2015, 5(1): 26-34.
[53]韓海棠. 中產階層家長的教育焦慮:現狀、問題與原因 [D]; 華中科技大學, 2018.
[54]李琳.子女教育心理控制源對初中生考試焦慮的影響一家長教育焦慮的中介作用[D];魯東大 學, 2018.
[55]Yang C, Zhang D. Evaluation of city sustainability using multi-criteria decision-making considering interaction among criteria in Liaoning province China [J]. Sustainable Cities and Society, 2020, 59(C): 1-20.
[56]李勤超. 基于張量的個性化推薦系統在醫療領域的研究應用 [D]; 吉林大學, 2020.
[57]李連杰. 基于張量理論的頻譜數據處理研究 [D]; 山東大學, 2021.
[58]Schreiber T. Measuring Information Transfer [J]. Physical Review Letters, 2000, 85(2): 461-4.
[59]Barnett L. Granger causality and transfer entropy are equivalent for Gaussian variables [J]. Phys Rev Lett, 2009, 103(23): 1-10.
[60]El Khediri S, Fakhet W, Moulahi T, et al. Improved node localization using K-means clustering for Wireless Sensor Networks [J]. Computer Science Review, 2020, 37.
[61]Guo C, Liu M, Lu M. A Dynamic Ensemble Learning Algorithm based on K-means for ICU mortality prediction [J]. Applied Soft Computing, 2021, 103.
[62]Sharma V, Bala M. An Improved Task Allocation Strategy in Cloud using Modified K-means Clustering Technique [J]. Egyptian Informatics Journal, 2020, 21(4): 201-8.
[63]Santos M R, Roisenberg A, Iwashita F, et al. Hydrogeochemical spatialization and controls of the Serra Geral Aquifer System in southern Brazil: A regional approach by self-organizing maps and k-means clustering [J]. Journal of Hydrology, 2020, 591.
[64]De-hua LIU J-j W. A PCA-LSTM Model for Stock Index Prediction [J]. 2018 International Conference on Electrical, Control, Automation and Robotics, 2018: 623-7.
[65]Wang L, Wang S, Yuan Z, et al. Analyzing potential tourist behavior using PCA and modified affinity propagation clustering based on Baidu index: taking Beijing city as an example [J]. Data Science and Management, 2021, 2: 12-9.
[66]QianSheng Fang Y Z, ChenLei Xie, HongYan Zhang and ShanShou Li. Research on 50
PCA-LSTM-based Short-term Load Forecasting Method [J]. IOP Conference Series: Earth and Environmental Science, 2020, 495(1): 1-7.
[67]Yu S, Li Z. Forecasting stock price index volatility with LSTM deep neural network [M]. Recent Developments in Data Science and Business Analytics. Springer. 2018: 265-72.
[68]Hochreiter S, Schmidhuber J. Long short-term memory [J]. Neural computation, 1997, 9(8): 1735-80.
[69]Gers F A, Schmidhuber J, Cummins F. Learning to forget: Continual prediction with LSTM [J]. 1999.
[70]Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures [J]. Neural networks, 2005, 18(5-6): 602-10.
[71]Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling [J]. Eprint Arxiv, 2014.
[72]Jabeur, Sami B, Mefteh W, et al. Forecasting gold price with the XGBoost algorithm and SHAP interaction values [J]. Annals of Operations Research, 2021, (prepublish).
[73]彭虹斌, 彭燁. 協商式教育政策制定的制度邏輯與本土化構建 [J]. 教育理論與實踐, 2021, 41(04): 25-30.
[74]Feldmann H. Economic Freedom and People's Regard for Education [J]. Social Indicators Research, 2020, (prepublish).
[75]Yao S, Hang M, Edwin H W C S o A, et al. A Model to Measure Tourist Preference toward Scenic Spots Based on Social Media Data: A Case of Dapeng in China [J]. Sustainability, 2017, 10(1).
[76]Zhou Y, Yi P, Li W, et al. Assessment of city sustainability from the perspective of multi-source data-driven [J]. Sustainable Cities and Society, 2021, 70.
[77]Yang C, Zhang D. Evaluation of city sustainability using multi-criteria decision-making considering interaction among criteria in Liaoning province China [J]. Sustainable Cities and Society, 2020, 59(C).
[78]Li W, Yi P, Danning Z. Investigation of sustainability and key factors of Shenyang city in China using GRA and SRA methods [J]. Sustainable Cities and Society, 2021, 68.
[79]李德顯,房磊,蘇若菊.我國高等教育綜合發展水平及均衡程度測評研究一一基于PLS結構方 程模型的分析 [J]. 現代教育管理, 2021, (04): 61-74.
[80]Zhang J, Li H, Lin J, et al. Meta-analysis of the relationship between high quality basic education resources and housing prices [J]. Land Use Policy, 2020, 99.
[81]劉成高, 張文娟, 張昭怡. 四川省民族地區教育均衡性發展問題研究 [J]. 民族學刊, 2019, 10(03): 77-80.
[82]顧慶傳, 羅鋒, 夏文忠, et al. 教育大數據在推進義務教育均衡發展中的應用初探 [J]. 昭通學
51
院學報, 2018, 40(03): 108-11.
[83]Han J, Cui L, Yu H. Pricing the value of the chance to gain admission to an elite senior high school in Beijing: The effect of the LDHSE policy on resale housing prices [J]. Cities, 2021, 115.
[84]Park H, Tidwell A, Yun S, et al. Does school choice program affect local housing prices?: Inter- vs. intra-district choice program [J]. Cities, 2021, 115.
[85]Shen Y, Ta N, Chai Y. The Internet and the space-time flexibility of daily activities: A case study of Beijing, China [J]. Cities, 2020, 97.
[86]Wu Z, Shang P. Nonlinear transformation on the transfer entropy of financial time series [J]. Physica A: Statistical Mechanics and its Applications, 2017, 482: 392-400.
[87]Li J, Zheng L, Liu C, et al. Information Spillover Effects of Real Estate Markets: Evidence from Ten Metropolitan Cities in China [J]. Journal of Risk and Financial Management, 2021, 14(6).
[88]Wang B, Loo B P Y. The hierarchy of cities in Internet news media and Internet search: Some insights from China [J]. Cities, 2019, 84: 121-33.
[89]楊振剛, 宋珊珊, 郭艦. 小學教學質量對住房價格影響的研究 [J]. 財經界, 2010, (24): 111-3.
[90]Han X, Shen Y, Zhao B. Winning at the starting line: The primary school premium and housing prices in Beijing [J]. China Economic Quarterly International, 2021, 1(1): 29-42.
[91]Zahirovic-Herbert V, Turnbull G K. School Quality, House Prices and Liquidity [J]. The Journal of Real Estate Finance and Economics, 2007, 37(2): 113-30.
[92]Ruwei Z, Xiong X, Shen D. Investor attention and performance of IPO firms: Evidence from online searches [J]. Physica A: Statistical Mechanics and its Applications, 2018, 508.
[93]Schuck B, Steiber N. Does Intergenerational Educational Mobility Shape the Well-Being of Young Europeans? Evidence from the European Social Survey [J]. Soc Indic Res, 2018, 139(3): 1237-55.
[94]Hummelinck A, Kristian P. Parents' information needs about the treatment of their chronically ill child: a qualitative study [J]. Patient education and counseling, 2006, 62(2).
[95]Motyer G, Dooley B, Kiely P, et al. Parents' information needs, treatment concerns, and psychological well-being when their child is diagnosed with adolescent idiopathic scoliosis: A systematic review [J]. Patient Education and Counseling, 2020, (prepublish).
[96]Rankin D, Harden J, Waugh N, et al. Parents' information and support needs when their child is diagnosed with type 1 diabetes: a qualitative study [J]. Health expectations : an international journal of public participation in health care and health policy, 2016, 19(3).
[97]Erin A M, Gerardo R, Elizabeth A G, et al. Intergenerational Effects of Parents' Math Anxiety on Children's Math Achievement and Anxiety [J]. Psychological Science, 2015, 26(9).
[98]Moran S M, Ashkenazi S. Math Anxiety: The Relationship Between Parenting Style and Math Self-Efficacy [J]. Frontiers in Psychology, 2019, 10.
52
[99]智課教育家長研究院. 中國家長教育焦慮指數調查報告 [J]. 2018: 1-41.
[100]Measuring Idiosyncratic Happiness Through the Analysis of Twitter: An Application to the Italian Case [J]. Social Indicators Research, 2015, 121(2).
[101]Jing C, Yu - Jane L, Lei L, et al. Investor Attention and Macroeconomic News Announcements: Evidence from Stock Index Futures [J]. Journal of Futures Markets, 2016, 36(3).
[102]Wang N, Kosinski M, Stillwell D J, et al. Can Well-Being be Measured Using Facebook Status Updates? Validation of Facebook's Gross National Happiness Index [J]. Social Indicators Research, 2014, 115(1).
[103]Zhongmei H, Jiyi W, Changqin H, et al. A review on sentiment discovery and analysis of educational big-data [J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2020, 10(1).
[104]Venera T, Giovanni G, Simona G, et al. Building Decision-making Indicators Through Network Analysis of Big Data [J]. Social Indicators Research: An International and Interdisciplinary Journal for Quality-of-Life Measurement, 2020, 151(1).
[105]Georgios K, Venetia-Sofia V, Ioanna P, et al. Parental anxiety in pediatric surgery consultations: the role of health literacy and need for information [J]. Journal of Pediatric Surgery, 2020, 55(4).
[106]Tiwari A, Dadhania Arya V, Avin R V. Using machine learning to develop a novel COVID-19 Vulnerability Index (C19VI) [J]. Science of the Total Environment, 2021, 773.
[107]溫博文, 董文瀚, 解武杰, et al. 基于改進網格搜索算法的隨機森林參數優化 [J]. 計算機工程 與應用, 2018, 54(10): 154-7.
[108]石峻驛, 周妮文, 錢源. 基于網絡搜索數據的北京市旅游區客流量預測研究——基于五折交叉 驗證法的不同預測模型比較 [J]. 經濟統計學(季刊), 2017, (02): 73-85.
[109]Deb S, Strodl E, Jiandong S. Academic Stress, Parental Pressure, Anxiety and Mental Health among Indian High School Students [J]. International Journal of Psychology and Behavioral Sciences, 2015, 5(1).