當前大數據已經在諸多領域得到應用,與我們的生活息息相關。例如,打開網絡我們就會收到關于購物的推薦廣告,進入電子郵箱時就會看到系統自動識別的垃圾信件等,這些現象背后均與大數據和人工智能密不可分。然而,與之形成對比的是,在國際關系研究領域,大數據似乎并未得到普遍應用。那么大數據在國際關系領域應用前景究竟如何呢?筆者嘗試就此作一番探究。
國際關系數據存在特殊性
大數據顧名思義是數據量巨大的數據,有時也被稱為海量數據。隨著互聯網技術的應用和普及,人類社會中產生了越來越多的數據,例如網絡發言、網絡購物、圖片、音頻和視頻等。對于這些數據的挖掘和研究,有助于科研的創新和企業的發展。因此,我們可以看到大數據以及人工智能算法在我們生活中的諸多方面得到了普遍應用。
然而與在國內社會領域得到普遍應用的情況不同,國際關系研究領域似乎尚未對大數據加以深入探究。可以看到,無論是理論前沿還是國際關系熱點,我們都很難看到大數據的應用,這與國際關系研究的對象有關。國際關系的研究問題往往為高政治領域,例如國際沖突與戰爭、同盟締結與破裂等現象,而戰爭與結盟等現象的發生次數是有限的,樣本量往往很難上萬,依靠傳統數據庫就足以解決。這導致國際關系主流數據庫的數據規模都較小,例如戰爭相關因素數據庫(COW)、烏普薩拉沖突數據庫(UCDP)、奧斯陸國際和平研究所的武裝沖突數據(ACD)、同盟協議數據庫(ATOP)等。由于這些主流數據庫都可以免費使用,其變量、指標和維度均受到國際關系專業人士的認可,因此得到了廣泛應用。
大數據在國際關系領域的應用現狀
由于專業特性,大數據在當前的國際關系研究領域似乎較少有用武之地,然而隨著數據挖掘的深入,也有一些國際關系研究開始將大數據作為研究的變量之一。首先,比較具有應用前景的有GIS地理信息系統(Geographic Information System)提供的地理分布數據有助于學者對空間數據進行建模,使既往研究中長期被忽視的地理因素得以重回大家的視野。其次,全球夜間燈光數據也具有應用價值,該數據由美國國防氣象衛星計劃(DMSP)的衛星觀測所得,比較客觀地反映了各國/地區的生產、生活狀況,可以替代GDP成為度量經濟活動的可行指標之一。再次,谷歌(Google)公司提供的 GDELT全球事件數據項目(GDELT Event Database)提供了全球100多種語言的媒體、網頁上的事件信息,時間跨度為1979年至今,數據量達億級,包括國家、事件類型、地理位置等多個維度。除此以外,學者們也可以通過采用網絡爬蟲技術抓取網絡上自己感興趣的信息,然后再對自己挖掘的數據進行文本分析、自然語言處理和圖像識別等技術加工。
根據以上分析,我們可以看到,大數據在國際關系領域的應用存在局限。第一,從研究主體上看,傳統國際關系數據庫大部分關注的主體是國家,而大數據的主體則出現向微觀個體轉變的趨勢,例如網絡發言或微信等自媒體上的數據都是以個人為主體,因此應用大數據有助于我們對于輿論的判斷和選舉的民情進行評估。第二,從時間上看,大數據借助于新技術而出現,例如網絡、衛星等,因此大數據的時間段往往集中于最近數十年,這導致對于一些涉及較長時間段的普遍性理論,例如戰爭與和平問題,目前的大數據似乎難以提供有力的幫助。第三,從數據質量看,大數據的質量有待提高,例如應用自然語言處理技術從新聞報道中獲得的大數據,盡管有量大和速度快等優點,但是這類數據受到新聞報道者偏好的影響很大,有些新聞會重復報道,有些偏遠地區的事件則被忽視。例如近年來民眾似乎對歐洲“恐襲”印象深刻,然而從發生次數看,不論是與2010年以前的歐洲“恐襲”次數比較,還是與其他地區“恐襲”頻率比較,近年的次數并不多。顯然這一現象與全球媒體對歐洲的密切關注有關。因此,研究人員要對挖掘出來的大數據進行清洗,排除重復報道、錯誤報道、有傾向性的報道等因素的影響。第四,大數據不一定包括總體,在統計中,隨機抽樣技術是為了盡量使樣本能夠體現出總體的特征,然而不能因為數據量的巨大就判定大數據能代表總體。例如,在考慮民情輿論時,根據網絡發言大數據得到的初步判斷可能是有偏差的,因為網絡言論只能表明那些樂于在網上表達意見的人群的立場,而沒有考慮到不愛上網的人群和上網不愛發言的人群的立場。
算法應用提高預測準確率
在李世石與AlphaGo的人機大戰中,機器學習、深度學習算法對AlphaGo的獲勝起了重要作用,這些算法同樣對于國際關系預測具有重大幫助。在傳統回歸方法中,統計模型的假設檢驗需要對樣本數據的分布做出假定,例如正態分布、卡方分布和F分布等,從而進行進一步計算。這一方法的缺陷是,如果樣本數據的分布不符合假定,則結論不一定成立。大數據中常用的機器學習算法主要采用交叉驗證,將數據分為訓練集和測試集兩類,先用訓練集建模,然后用測試集加以檢驗,可以規避傳統回歸中對分布假定帶來的不足。目前國際關系學界也應用了一些算法進行預測,例如樸素貝葉斯模型、Logistic模型、隱馬爾可夫模型、神經網絡等,取得了較好的預測準確率。
然而,機器學習、深度學習等算法往往關注的是變量間的相關關系,而較少考慮因果關系。即使根據某些算法能夠提高預測準確率,研究人員也很難對模型中各變量的作用機制加以解釋。例如神經網絡算法可以根據輸入的數據得出結果,但沒法給出被擬合函數的數學表達式,整個過程是黑箱操作。此外,神經網絡結果對于參數十分依賴,然而調參沒有客觀標準,由研究人員憑經驗決定。由于以上特點,機器學習、深度學習算法往往被用于政策應用或者現實生活,而較難給國際關系領域帶來重大理論突破。
在大數據時代,數據挖掘技術使研究人員可以獲得大量過去難以得到的數據,這對國際關系學科的創新具有重大推動作用。然而,根據國際關系研究的特點,大數據及相關算法在國際關系領域存在應用界限,我們一方面要充分利用新技術帶來的研究創新空間,另一方面也不必過度迷信大數據,正確認識到大數據的優勢與不足,推進學術創新。
網上經營許可證號:京ICP備18006193號-1
copyright?2005-2022 www.ayzwhls.com all right reserved 技術支持:杭州高達軟件系統股份有限公司
服務熱線:010-59231580