第3章 支援信息戰(zhàn)的社交媒體分析方法
在上一章中,為研究社交媒體分析應用于信息戰(zhàn)的潛在利益,我們提出了一個基于IRC的框架。在本章中,我們進行一些更具體的描述:采用方法學的方法去檢測公眾對極端組織宣傳的接受程度;確定文化或區(qū)域關注的熱點以分析消息轉發(fā)策略;解決其他信息戰(zhàn)問題。本章并不專注于特定的技術或算法,有關這些特定技術或算法的討論很快會變得過時。相反,我們探索使用一些有前景的方式,在一個熟悉的框架內解決常見的信息戰(zhàn)挑戰(zhàn)性問題。例如,類似Clauset-Newman Moore算法的社區(qū)檢測算法,可能會被更優(yōu)秀的算法所取代,但是識別和分析一個社交網絡中的群體這個需求是一直會有的。
本章中研究的概念和方法對國防部可能有巨大的潛在價值,對于信息戰(zhàn)來說,社交媒體無疑是重要的數據來源。然而,對于社交媒體平臺和分析工具的使用也有一些局限:
?社交媒體普及率在世界各地是不同的,這反映在某一既定任務區(qū)域中可用于分析的數據量(以及它們的適用性)。
?社交媒體數據不具有廣泛的代表性。社交媒體的參與者都是自選擇的,因此,他們共享的數據會自然而然地朝網絡媒體參與者群體傾斜。
例如,對社交媒體中共享的照片集的自動圖像分類結果數據進行分析,可以揭示什么樣的人群想法子集是值得分享的。
下面提到的若干分析方法并不詳盡,但它們顯示了所有可能的分析方法的大致范圍,并說明了綜合使用多個分析方法所產生的效益。大多數的方法使用文本分析(反映了社交媒體中基于文本的數據的豐富性),我們也介紹了包括網絡、地理空間和圖像分析方面的實例。
本章涉及的方法論概念主要包括以下內容:
?社交網絡分析。社交網絡分析(SNA),它包括社交結構的識別和可視化,涉及到心理學、人類學、數學中的圖論等方面的知識。它涵蓋了在海量的社交媒體數據集中自動檢測社區(qū)的算法。
?公眾分析。公眾分析是公眾說服分析的一部分:對有倡導權益的人的一種抽象,這些人使用共享的語言來解決一個常見的問題。美國步槍協會就是與倡導有關的組織的一個真實例子,然而使用相同語言且以私人持有武器合法化為共同目標的公眾,則是一個更大的抽象。那些尋求限制武器私有化的反對派,同樣比任何正式的游說組織要大。這類分析專注于那些關注某些問題并使用共同的論述來影響辯論的人。
?詞法分析。文本分析方法起源于語料庫語言學研究3。詞法分析使用統計檢測計算單詞的頻率、單詞的距離及其它特性,以檢測文本數據結構和模式。它最常用于通過顯而易見的文本及單詞聯系,以經驗推斷一個文本集是在說什么。
注釋3:語料庫語言學是語言學的一個分支學科,其特征在于基于海量文本數據集(語料庫)的實證研究。由于語料庫語言學是基于機器的,它缺乏人工分析的上下文敏感性和精度,但人工分析不能達到其可擴展性和可靠性。
?立場分析。作為一種更復雜和更精細化的情感分析方法,立場分析重點檢查單詞和短語的頻率(比如憤怒、悲哀、未來、過去、確定、不確定等)。它有益于回答有關態(tài)度、情感和價值的社會文化問題。
?地理定位和地理推理。是兩種地理特定的方法,用于判定一條社交媒體消息的地理源點。地理定位使用GPS戳并且相當精確,但是用戶常常關閉這項功能。地理推理可以基于元數據捕獲大量的數據樣本,用于推斷發(fā)帖者的地理位置,其中一些方法具有相當高的精度水準。
?深度神經網絡。深度神經網絡(DNNs)通過將復雜的抽象任務分解簡化為不同層次,使機器能夠學習分類任務。例如,盡管人可能通過觀看一張圖片從整體上識別一輛坦克,但DNN圖像分類器可以通過編程來區(qū)分不同的金屬質感、胎面形狀、主炮形狀、低反射值,以及其它因素來描繪一輛“坦克”,并且具有一定的準確度。人類分析師可能需要花費一年的時間搜索成千上萬的圖片,以一個具有強大計算能力的、經過良好訓練的DNN模型來代替,則只需要幾天時間就能對同一組圖像進行分類。
盡管社交媒體數據越來越多地包括圖像、聲音和視頻,文本數據仍然占主導地位。在下面的章節(jié)中,我們回顧各種社交媒體分析方法,尤其是文本數據,這些方法在解決信息戰(zhàn)的問題時有非常實際的應用價值。表3-1總結了本章中介紹的以及應用范例中涉及到的幾類分析方法。
雖然本章主要側重于分析方法,我們注意到描述性工作的價值,它可以為推理提供重要的啟示。本節(jié)詳細描述了表征極端分子網絡的方法——具體而言,網絡成員中那些積極參與支持活動的人4。該示例的目的是刻畫誰是在推特上積極支持ISIL的人,但是這種方法也可以適用于其他網絡組織或者其他為社交網絡分析(SNA)提供數據的社交媒體平臺。
注釋4:各類不同的分析方法對于檢測網絡群體在社交媒體平臺上的一般對話都是有用的。
表3-1一些支持信息戰(zhàn)的社交媒體數據分析方法
在該示例方法中,現有的ISIL支持者被用于確定其他支持者。結果是一個相當大的數據集,在推特上有100萬至135萬的ISIL的積極支持者。識別網絡成員是一個三步驟的過程,結合了可擴展的機器方法和有人監(jiān)督的隨機取樣檢查方法,以保證識別的精確性。
分析過程的第一步是手動培育一個已知的在推持上活躍的極端分子成員的種子列表。即使對專家來說,這也是一個勞動密集型的工作過程(一個兩人團隊,通常需要數月時間)。在對推特活躍用戶當中對極端組織有明確的積極支持傾向的帳戶進行手工搜索時,研究人員發(fā)現了424個活躍的ISIL的支持者帳戶——或者稱為網絡模型中的0級帳戶。
第二步是從種子列表開始,使用匹配的網絡連接來推斷其他支持者。不像基于內容來識別關系的其他方法(參見下一節(jié),“公眾分析:在社交媒體上映射論證空間”),在這里,聯系的方向很重要。設想一下一組推特用戶評論一個受歡迎的電視節(jié)目的情景,參與者可能包括演員、制作人員、演播室代表、記者以及粉絲。如果我們已經分辨節(jié)目網絡的全部成員——明星、編劇、導演等——我們就有可能通過對談論該節(jié)目的用戶進行研究,分析他們的聯接方向,推斷其他可能的用戶:明星可能有很多很多的關注者(大部分是粉絲),這些人并不直接和節(jié)目有關,但是明星所關注的人則很有可能與節(jié)目有關。
因此,以極端分子網絡為例,忽略那些關注0級種子成員的人,轉而重點識別那些0級種子成員所關注的用戶,則可能獲得相關網絡成員(1級)的更準確的圖像。在這一例子中,過濾掉嫌疑的機器人和病毒帳戶后,經過第一步分析之后得到的網絡組織成員大約有43000人左右。但是,當然不是所有的被0級成員所關注的人都是ISIL的推特支持者,需要進一步剔除。
第三步,鑒別誰是積極支持ISIL的網絡用戶的第三步,是要基于他們在推特上公開的同ISIL的聯系、以及他們在網絡小圈子和網內焦點的活躍程度,對他們進行排序。在網絡分析中,這幾個概念定義如下:
?圈子(Cliques)是一個網內的子結構,其中每個節(jié)點都連接到其他節(jié)點。設想一個大型的“新英格蘭愛國者”的支持者網絡,在該網絡結構中,你可以發(fā)現很多小的“圈子”——在這種更小的組織中,每個人都會認識另外的任何一個人。這可能是在波士頓以鄰居形成的緊密的朋友圈,或者雖然他們從沒有互相見過面,但通過在線互動而相互非常了解對方。重要的是網絡中圈子的度,這能夠幫助鑒別網絡中的成員關系。
?網內聚焦是指網內的聯系多過網外聯系(與組織外的用戶交互)的發(fā)展趨勢。以足球為例,“新英格蘭愛國者”的非正式的粉絲都會有一些網內的聯系,但是如果某個人的網絡聯接比率開始傾斜——如果一個用戶主要是指向網內——這表示會員身份的增強。
對43000第1級別的帳戶進行分類,在識別支持者時,結合使用多種度量比使用單一度量有效得多。在分析員抽查時,這種方法對數據集中前20000個帳戶的精度非常高,但是當超過30000個帳戶時,精度會快速地下降到48%。所以,在這個例子中,研究人員能夠描述一個包含20000人的活躍的ISIL支持者大型網絡的人口統計資料和活動,并能高度保證數據集是精準的5。
注釋5:在這種情況下,更大規(guī)模的n-步分析是可能的——例如,在1級用戶之外采用一個附加步驟,檢查他們使用可擴展方法(如機器學習)的情況,從活躍的支持者中篩選更大的網絡。
除了描述像ISIL極端組織的社交網絡,SNA(社交網絡分析)和詞法分析的組合使用還可以用來表征ISIL在社交媒體上的意識形態(tài)斗爭6。該方法使用社區(qū)檢測算法來識別所涉及的群體,并使用詞法分析來表征這些社區(qū)。這種方法不僅能直觀的呈現誰在跟誰說話,而且能知道他們在說(關心)什么。其結果就是圍繞ISIL的討論空間的社交媒體圖。圖3-1顯示了通過研究發(fā)現的頂級集合群落圖,以及它們之間相互聯接的密度和方向。
注釋6:這項研究的規(guī)模說明了為什么計算機分析對信息戰(zhàn),以及從更廣的意義上說對社交媒體數據搜集是至關重要的:源于771371個推特用戶帳戶的2300萬條微博信息。
圖3-1經過兩步創(chuàng)建。社區(qū)檢測揭示了網絡結構,基于每一社區(qū)內容的詞法分析描述了用戶組織的特征——特別是從人口統計學的角度來看他們是誰,以及他們關心什么。
圖3-1 推特中支持和反對ISIL的集合群落
注:箭頭的粗細表示集合群落之間的連接強度相較于社區(qū)規(guī)模的高低。節(jié)點大小代表社區(qū)的大小。紅色節(jié)點表示遜尼派集合群落的成員。由于資源的限制,不是所有的社區(qū)都能用詞法分析檢測到;沒檢測到的社區(qū)沒有給出標簽。
MC:集合群落;GCC:海灣合作委員會(Gulf Cooperation Council);Shia=Shiah:什葉(派);Mujahideen:圣戰(zhàn)(者);ISIL:伊拉克和黎凡特伊斯蘭國(Islamic State of Iraq and the Levant);ISIS:伊拉克和大敘利亞伊斯蘭國(Islamic State of Iraq and al Shams)。
這種方法的第一步是搜集關于某一個問題或某一利益團體的社交媒體數據——在本例中,有超過2300萬的推特帖子來自于77萬多的ISIL支持者和反對者。領域專家對搜索ISIL可能的支持者或反對者提出了相關的搜索詞語建議:搜索短語和標簽變體都包括阿拉伯語的“達伊沙(Daesh,伊斯蘭國)”和“伊斯蘭哈里發(fā)(Islamic Caliphate)”。
因此領域專家的直覺就是通過機器閱讀實現機器驗證——將詞法分析技術應用于收集的數據,然后確認對使用“達伊沙”和使用“伊斯蘭哈里發(fā)”的不同網絡社區(qū)的區(qū)分是否準確地分辨出反對者和支持者(下一節(jié)詳細描述)。在這種情況下,主要的測試都表明,事實上使用“達伊沙”的社區(qū)同樣會使用貶義詞稱呼ISIL(如“哈里哲派(Kharijites,出走派)”,一個對主流伊斯蘭教的古老反對派的稱謂),同時使用尊敬的詞語稱呼阿拉伯國家和西方世界(如“國際聯盟”)7。使用“哈里發(fā)”的網絡社區(qū)使用敬語稱呼ISIL(如“伊斯蘭國的獅子”),使用貶損的稱謂指代阿拉伯國家(如稱呼阿拉伯國家“叛教者(apostates)”,稱呼西方國家“十字軍(crusaders)”等)。這一分析過程是一類非常有效的檢驗措施,意味著這些搜索詞可以作為非常有用的判別參數:一個詞語對另一個詞語在使用方面具有壓倒優(yōu)勢,據此能夠有效地分辨一個用戶對ISIL的態(tài)度。
注釋7:關鍵測試涉及某些詞語的發(fā)現頻率的測試和統計重要性的檢測。預期的詞頻可以使用通用標準檢測(例如有代表性的單語種的語料庫,如開源阿拉伯語語料庫),或者使用特殊標準檢測(例如,針對一般社交媒體交流,每天進行廣泛的搜集)。有關這些技術的其他背景,參見Scott(2001)。
一旦將社區(qū)檢測算法應用于社交媒體數據,這種詞法驗證將為下一步的重要過程創(chuàng)造條件。推特數據(或者其他相似平臺的數據,如新浪微博)對社交媒體分析工作來說是能夠不斷修正和完善的,因為像回帖、引用和轉發(fā)等操作都標記了網絡交互行為。通過描述和分析這些網絡交互,一種網絡社區(qū)檢測算法能夠快速地對用戶進行分組,將其歸并到互聯的結構中,但是不能對他們命名,也不能描述他們的特征。該算法只能簡單地發(fā)現社區(qū)1、社區(qū)2,等等。但是“達伊沙”和“哈里發(fā)”等判決詞能很快標記出每個社區(qū)是支持還是反對ISIL的,并將支持者歸并到同一組。
雖然社交網絡分析用于分析網絡社區(qū)以及它們之間的交互關系——“達伊沙”和“哈里發(fā)”等判決詞用于顯示“支持”或“反對”的立場——從信息戰(zhàn)的角度看,網絡社區(qū)關系圖仍是空白,沒有標識。不理解對于ISIL持不同立場的各方的特點及關心的問題,就沒有可行的途徑去影響它們彼此之間的對話協商。
一個突出的問題是,相對于人的分析能力,推特的微博數據池過于龐大。在可擴展性之外,人類的可靠性和偏見等特征仍是分析工作的一個問題??蓴U展的、可靠地表征這些社區(qū)需要對檢測到的社區(qū)的推特內容進行機器分析。一種解決方案是源于語料庫語言學的基于機器的分析方法(詞法分析)。詞法分析取決于字頻或字距的統計測試,該方法能顯示文本數據的結構。在本例中,對文本數據使用了兩種方法:關鍵字測試和組合測試。關鍵字識別從統計角度描述了一個文本數據集中詞語,并展示出所收集的文本數據的主要內容。因為關鍵字加權由它們的統計異常情況決定,所以關鍵詞測試在弱信號檢測時具有更高的判決能力。與關鍵詞不同,搭配詞在統計上非常顯眼,因為它們表示了共同出現的詞語,這些組合詞往往就勾勒出了文本的大意8。
注釋8:比如,地名(“紐約”),人名(“奧巴馬總統”),以及抽象概念(“禁槍”)等。
對于統計頻率很高的關鍵詞及強相關的組合詞的自動識別,使得被檢測的網絡社區(qū)表征為一個公眾:使用共享語言討論一個公共的問題,并持擁護立場的人們的抽象。舉一個美國大眾都熟悉的例子,設想一個禁槍的話題。一方面,美國全國步槍協會是一個持擁護立場的現實世界的組織實例,但是使用共享語言且致力于將私人擁有武器合法化這一共同目標的公眾則是一個更大的抽象。尋求限制武器私有化的持反對立場的公眾也要比任何官方游說組織要大:這是一個關心某個問題并使用共同的公開信息來影響辯論的公眾組織。
回到我們最初在推特上識別ISIL支持者的例子,社交網絡分析顯示有4個大的集合群落,對它們使用詞法分析可以定性為元公眾。一個社區(qū)可以通過關鍵詞及其他組合詞來聯合標注,如沙特的關注(包括沙特民族主義),對ISIL的世俗或宗教的貶義用語(恐怖主義分子,犯罪和罪孽,逐出教會,混亂等),以及對宗教內涵的褒義詞(贊美,榮譽,真理,愛等)。這里的一個關鍵環(huán)節(jié)是,一個使用詞法分析軟件的分析師,能夠替代一整個閱讀數百萬推特帖子的分析師團隊,他能夠識別識別上百個統計上異常的詞語和短語來表征一個社區(qū)為公眾社區(qū)。以下是本例中發(fā)現的4個大型的網絡公共社區(qū):
?遜尼派ISIL對手(一些支持者)
?什葉派ISIL對手
?ISIL支持者
?敘利亞圣戰(zhàn)者組織(對ISIL懷有多種復雜態(tài)度)。
社交網絡分析和詞法分析一起使用能夠支持更細粒度的分析,為面向影響特定公眾群體的貌似真實的消息傳播提供經驗基礎。表3-2顯示了使用“遜尼元公眾號”識別出來的個體公眾社區(qū)(特別是以國籍身份和以所關注話題組織起來的社區(qū)),以及每個社區(qū)的關注點和興趣話題。
每個公共社區(qū)的話題和關注點為可能真實的消息傳送策略及有針對性的社區(qū)成員宣傳策略提供了經驗基礎。在這里,我們重點強調該方法的可擴展性和誘導價值。這是一個分析師數天的工作量,而不是一個團隊花費數月去閱讀成千上萬條的推特貼子。而且由于分析工作完全依賴于用戶所產生的社交媒體數據,反映美國文化假設和優(yōu)先的要旨難以有植入的機會,因此更加客觀公正,分析工作可以在一個合適的粒度層面上來完成。
表3-2 推特中遜尼派公眾對ISIL的反對/支持分析
來源:蘭德公司針對推特2014年7月至2015年5月數據的分析。
本節(jié)詳細介紹針對一個網絡集團在某一合適的地理粒度上對消息隨時間推移的傳播接受情況的跟蹤方法。這里提及的概念驗證研究主要用于跟蹤2014年埃及ISIL和穆斯林兄弟會成員中世界觀相關的信息傳播和接受情況。該方法有巨大的潛力來衡量有效性,包括友好消息傳輸方面的工作。
該方法的基礎是語言和世界觀之間不可分割的關系,語言反映了世界觀,反之,世界觀也通過語言塑造。在爭議性議題的語言表達上,我們可以很清楚地看到這種關系。在論述某一特定話題過程中一直使用的詞匯不是簡單地反映意識形態(tài);它們的使用同樣有助于通過包裝世界性問題和事件來促進意識形態(tài)的流通和傳播。因為如果我們能夠對公眾的討論在數量方面建模,我們就能夠跟蹤通過語言表達的世界觀的接受情況。
該方法的第一步是建立一個面向公眾談話的加權語言模型。在這個例子中,它是一個極端組織,但它可能只是一條戰(zhàn)斗命令和這條命令的區(qū)域傳播。在這個概念驗證例子中,分析師從ISIL和穆斯林兄弟會(每個組織約30000詞匯)的公開談話中搜集數據,然后使用關鍵詞和詞語組合對數據集進行測試。這樣每一個集團就會產生基于大約100個左右的統計關鍵詞和20個左右的雙詞組合的語言模型。為了幫助對我們所指的加權語言模型進行概念化描述,表3-3給出了一些關鍵詞示例、對數相似度以及每個單詞的英語翻譯。
在這個特殊的測試中,對數相似度大于11表示很重要。在表3-3中,某些詞如伊拉克(Iraq)或沙姆(Sham)的兩位數的值表示它們被大量使用,并且能夠被檢測到,而數百的對數相似度(如拉菲達(Rafidhi))則是非常強的語義信號,表示整篇文本主要描述的內容。超過1000的分數顯示了高度專業(yè)化的談話,是一個標志性的信號:在努力理解ISIL交流信息的時候,從定性分析的角度看,像薩法維(Safavid)這樣的詞語可能不是一個頂級話題,但是從檢測弱信號(如效果和影響)的經驗角度看,這樣一個出乎意料的高頻詞應該是一個強有力的分析抓手。
表3-3 ISIL和穆斯林兄弟會關鍵詞示例,對數相似度排序
注:對于對數相似度,臨界值是10.83(0.01%,p<0.001)。在這個例子中,最小頻率是20。為了解釋本表中的對數似然(LL)值,我們設想LL>11表示統計重要,11和1000之間表示極高級別的關鍵程度(高點位的談話),分值大于1000表示指向極端專業(yè)化談話的關鍵詞。
有了信號模型的幫助——針對薩法維集團(Safafist groups)談話信息的定量加權模型,下一步是檢測模型和公眾談話內容的一致程度:這些集團在傳播他們的信息方面是得勢還是失勢。
給定一個極端組織的談話的語言模型,有可能看到普通人群中的社交媒體用戶和談話內容的匹配程度——定量匹配出一個網絡群體的話語在整個話語市場的共享程度。設想一下在私人擁有槍支這個問題上對美國東北部的社交媒體進行監(jiān)控。
每一季度,針對以下詞語的使用都在不斷增加,例如:大規(guī)模射殺、無謂殺戮、無辜等,而以下詞語則使用較少,如:負責任的所有權、第2修正案權利、犯罪等字眼。這強有力的表明了有一方在公眾輿論中正得勢,至少能從中知道這個討論是關于槍支危險的,而不是關于公民自由的9。一般的分析過程如下:
注釋9:我們注意到這種方法不能讓我們回答為什么會發(fā)生這種改變,只能讓我們看到發(fā)生了改變。如果要了解其中的因果關系則需要其他方法。
?從一個有意義的地理人口中搜集社交媒體數據。在我們的主要案例中,數據源主要來自2014年埃及四個區(qū)域的推特數據:西奈、亞歷山大及濱海地區(qū)、上埃及、開羅和尼羅河三角洲。在該例中,在對用戶所在區(qū)域進行地理推斷時既使用了城市名稱也使用了省的名稱,這使得數據量翻了一番,但是,當回查地理標簽數據時,得到的是80%準確度的更低可信度的邊界。
?根據對語言模型的匹配的統計數據,對推特用戶簡訊進行打分。每一位推特用戶的簡訊都可以根據其與語言模型的匹配程度進行打分(如ISIL和穆斯林兄弟會):
–給定了用戶推文中出現詞語的總數,以及所有推文中的關鍵詞和搭配詞的頻率/平均值之后,還需要針對每一用戶,將其所有推文中全部關鍵詞和搭配詞出現的相似度進行統計求和,并計算期望值。
–結果值是對匹配有多可能是隨機的匹配的判據:
?高:意味著一個帳戶使用了比隨機概率期望值高出500%的模型語言(ISIL和穆斯林兄弟會)。
?中:意味著一個帳戶使用了比隨機概率期望值高出300%的模型語言,但是低于500%。
?低:意味著一個帳戶使用了比隨機概率期望值高出50%的模型語言,但是低于300%。
?無:意味著一個帳戶的語言反映了隨機概率的水平。
?描繪出隨時間變化的圖形。在用戶層量化確定的高、中、低、無級別的匹配可以在地域級進行匯總:一一種衡量一個網絡群體消息傳播的擴散程度等級的方法。經過逐個季度的比較,既能測量消息隨時間傳播的有效程度,也可以對各種傳播方式進行優(yōu)先性排序。
這個例子中,在2014年度,ISIL和穆斯林兄弟會在亞歷山大和開羅地區(qū)保持了很低的匹配度——這對美國來說是一個好消息。但是在西奈和上埃及地區(qū),ISIL擁有高度和中度的共鳴匹配度,相比這下,穆兄會則失去了不少的人氣。本質意義上,ISIL在這兩個地區(qū)獲得了市場份額——對美國來說是壞消息,圖3-2和圖3-3顯示了市場份額的這個變化。
圖3-2 埃及ISIL的語音共鳴,2014
為什么某些極端分子的消息傳送策略能夠成功,而其他一些極端分子會失???美國國防部能夠成功分析其成功的原因,獲取其中的關鍵技術并指導信息戰(zhàn)嗎?是否能夠明白為什么某些敵方的消息傳送方式具有特別的功效,并學習如何使自己的消息傳播更有效,而不管是使用什么媒體來傳播?立場分析著眼于社交媒體消息傳送,揭露消息傳播中的語言細節(jié),以便更好地理解它是如何工作的。這類似于情感分析,但它更詳細和復雜。本章中先前所討論的方法中使用詞法分析(在詞匯的數量和頻率層面進行統計檢驗),這個方法在詞語種類的層面使用數量和頻率的統計檢測方法。關于詞語種類,我們所指的意思可舉例說明如下:如未來和過去、情感(例如憤怒、悲哀、害怕、主動等)、確定性、價值、社交關系等。將多種詞語整合到若干個主題中,能夠實現某個目標,并能揭示某些可檢測的信號。比如,當談及未來和希望的時候,這會是一種激勵人的策略,和談及過去和歷史錯誤的選項具有顯著的區(qū)別。經過對詞類的頻率、分布和協方差等的統計檢測,基于計算機的分析方法能夠在細節(jié)層面檢測到相關主題和消息傳送方式。
圖3-3 埃及穆斯林兄弟會的語音共鳴,2014
作為例證,假設一個新上任的人力主管將一份備忘錄發(fā)送給中心的每一位正式職員。該備忘錄收到了很差的效果:備忘錄的本意是激勵員工共同努力彌合分歧,但是相反,它起到了反作用,使員工對這位新的主管產生了極大的憤怒。當員工被問及的時候,都會將矛頭指向那份備忘錄——它看起來疏遠且傲慢。為什么顯得“傲慢”?仔細檢查文中的用詞就會發(fā)現,備忘錄中充斥著第一人稱和第二人稱單數名詞,但通篇缺少第一人稱復數名詞:當提及解決方案時總是說“我”,當談到問題時總是說“你”,談任何事情從來不用“我們”。盡管人力主管沒有意識到這個問題,久而久之,這種方式的遣詞也會在讀者中產生較強的對立情緒。對于像單一記錄這樣的,由話語分析師經手的分析會非常高效和有用。但是對于海量的社交媒體數據,計算機分析還是必要的。
為了測試這種方法,我們對從四個極端組織搜集的社交媒體數據集進行了演示分析:伊拉克和黎凡特伊斯蘭國(ISIL)、勝利陣線(al-Nusrah Front)、阿拉伯半島的基地組織(AQAP)和圣戰(zhàn)組織(Ansar al-Sharia)10。我們使用經過翻譯了的這些組織在2014年第四季度的三個月的社交媒體數據11。然后,我們用最先進的(截至2015年)的情感分析軟件對每個語料庫詞語種類頻率進行處理,同時對此進行頻率、分布和協方差的統計測試,以檢測不同組織之間差別,和每個組織內部交流用語中不同結構特征間的差別。
注釋10:我們注意到:這個分析方法是初步的,是作為一個方法的概念驗證實施的。該數據池相對較小(極端組織三個月的社交媒體數據輸出),而且分析使用了翻譯文字。盡管有初步的證據表明在這個分析過程中使用的翻譯軟件運作良好,我們強烈質疑分析結果的準確性。本節(jié)的目標是展示方法,不是使用該方法探索產生的某些特定發(fā)現。
注釋11:這個分析方法使用的數據是從SITE情報組織商業(yè)化訂閱的,該組織是一個從事伊斯蘭圣戰(zhàn)分子監(jiān)控和分析的實體組織。
為了演示說明,我們詳細描述這個分析過程中的一個發(fā)現:當我們使用探索性因子分析法尋找潛在的主題結構時,我們發(fā)現ISIL和勝利陣線有3個因子(說服性主題、個人宣誓、共同關注的社會焦點問題),而基地組織的社交媒體數據有一個因子(技術性問題的竅門指導)。探索性因子分析法將一組變量間的相關性看作一個單一的潛在因子,通過數據集中的協方差,檢測其中的潛在性因子。在文本分析中,一篇普通的“當你變老,它會更好”的演講可能看起來更像面向未來的積極談話和安慰性語言的交織。下面的例子勾勒了導致基地組織(AQAP)的公共社交媒體語言顯著區(qū)別于勝利陣線(al-Nusrah)和ISIL的幾個因子12。
注釋12:圣戰(zhàn)組織(Ansar Al-Sharia)沒有能探測到的因子——該組織的講話通常前后不一致,缺乏重復連貫的戰(zhàn)略。
基地組織(AQAP)顯著的判別因子是“信息性”(informational):共享技術、概念性知識和報告重要事件。這主要源于從網絡空間作戰(zhàn)到規(guī)避熱探測的技術指導。例如:
這一幕顯示了一群圣戰(zhàn)分子在一條狹窄的通道里試圖躲避航空照像機的畫面,但是熱成像記錄儀清晰地顯示了他們的身體,特別是飛機在低空的位置時。因此,看來解決方案是對航空照像機隱藏身體的熱能。美國人將這項技術叫做熱絕緣。熱絕緣技術在我們很多的日常工具中都有應用,比如熱水瓶。熱水瓶在內部維持水的溫度不變,因為它里面的絕緣材料能阻止熱量向外面逃逸。而且,電冰箱,或者也稱之為冷藏柜,保溫茶壺,或者恒溫的集裝箱等,都使用了熱絕緣的技術。
同樣的模式在信息報告中也可以見到:
上周四,在南也門阿比揚省,一名胡塞武裝分子死于南也門阿比揚省圣戰(zhàn)組織的狙擊。上周四的上午10時,阿比揚省的圣戰(zhàn)組織新聞記者報道了該事件,伊斯蘭教圣戰(zhàn)者組織的一名成員狙擊了駐扎在阿比揚省al-Mahfad地區(qū)的第39裝甲旅的一名士兵。
ISIL和勝利陣線(al-Nusrah)有3個相同的潛在因子。與基地組織共享信息的技術方法不同,ISIL和勝利陣線(al-Nusrah)在社會文化領域勸導他們的聽眾時使用目的性很強的信息策略。
超越:前景更美好
勝利陣線(以及ISIL)使用類似的擴張戰(zhàn)略。也許與直覺相反,他們的主導宣傳策略并不包括負面的或仇恨的言論,而是專注于正面價值和宣傳的熱烈的、面向未來的談話13。例如:
注釋13:與之相反,圣戰(zhàn)組織和ISIL不使用這種策略。
誰想支持真主安拉、偉大和全能的神,就讓他宣誓效忠這個哈里發(fā)。誰若希望真主的伊斯蘭教,偉大和全能的伊斯蘭教得到普世運用,就讓他宣誓效忠這個哈里發(fā)。真主安拉、偉大和全能的神,現在就能分辨誠實和謊言。
個人請求和宣誓
雖然ISIL的特征是不使用主語“我”講話,但是它和勝利陣線(aL-Nusrah)在表達人際間的請求意愿時也會使用“我”說話,例如像這樣一種有說服力的證詞14:
注釋14:這一策略從基地組織社交媒體談話中丟失了。
我對我提到的事實作證。我會強調我的眼睛所看到的,我的耳朵聽到的,我的心感知到的,我會告訴你我所學到的。第十:我問你,以真主安拉的名義,沒有上帝,只有他,把這個談話轉達給族長和沙姆(敘利亞)及其他地區(qū)的領導人。
一條統一陣線
在這兩個組織的交流談話中另一個重要的潛在因子是社會承諾和包容性的“我們/我們的”談話的組合。這些演講經常是重復性的(在阿拉伯語境中是真誠的標志),而且是非常依賴于宣誓效忠或忠誠的理念:
以真主安拉的名義,最光榮的、最仁慈的伊斯蘭國,祈福真主阿布·貝克爾·巴格達迪,我們都誓言效忠于他,我們國家的埃米爾是勝利!伊斯蘭國家,祈福真主阿布·巴克爾·巴格達迪,我們都誓言效忠于他,國家的埃米爾,我們的國家,是勝利!他們正在爭取勝利!他們使用迫擊炮和機關槍來迫使他們所有人都下跪。我們的國家是勝利!伊斯蘭國家,祈福真主阿布·巴克爾·巴格達迪,我們都發(fā)誓效忠于他,國家的埃米爾,我們的國家是勝利!穆斯林,你準備好了嗎?在經歷了數百年的苦難之后你將獲得自由。我們的國家是勝利!
我們從這一概念驗證分析中得到的啟示是:基于計算機來分析海量社交媒體數據能夠為信息戰(zhàn)諜報提供關于敵方信息交流方面的信息。在這種情況下,分辨出敵方采用的擴張或主題性策略是有力的一個步驟,它能夠為消息傳送的反制提供支持。
該方法結合使用數據源地理信息和軟件來進行圖像分類和地圖繪制,從而自動化的對海量社交媒體數據集中的圖片分類和映射。最后,這有助于信息戰(zhàn)指揮員搞清楚當地民眾什么想法最值得分享(比如,卡車照片、軍服、模因、卡通等),以及他們在什么地域分享信息:人們希望在特定的地點基于社交媒體分享什么樣的直觀的信息?而本章介紹的其他方法是試圖解決文本流問題——海量的文本數據超過了人的閱讀和分析能力——該方法為圖像數據提供同樣的解決方案,我們期望的這一數據類型只有隨著全球范圍移動設備的普及和網絡容量的增長才能在數量上持續(xù)增加。我們認為該方法具有巨大潛力,主要基于以下理由:
?它主要面向遠程數據采集,成本低,不會給其他資產帶來風險。
?它開發(fā)了一條額外的數據流,該數據流隨著社交媒體普及的增長而增長。
?它解放了專家進行人工分析的時間和精力。
?影像能夠包涵豐富的文化信息,并且可能在識字率很低的區(qū)域具有特別寶貴的價值。
?這是一種眾包的方式,對信息環(huán)境非常重要:它將影像置于那些當地民眾認為值得分享的地方。
我們注意到,這是個區(qū)分信息戰(zhàn)和情報工作的很好的例子。該方法能作為宣傳作戰(zhàn)的一部分來使用(當地民眾最關心的文化和政治問題是什么?),但它能非常簡單的用于搜集戰(zhàn)場情報(我們在哪里能看到更多的用于分享的坦克、卡車、武器和軍服的照片?)。將其區(qū)分為信息戰(zhàn)行動的并不是方法,而是被問的問題和意圖。
該方法的第一步是通過地理標記或地理推理15搜集本地的社交媒體數據。兩種選擇各有優(yōu)點:
注釋15:我們注意到移動終端在各個國家有很大的不同,地理標記和地理推理所用的數據量也會不同。因此,該方法的可用性在世界不同的地方也會有所不同。
?僅使用地理標記的數據能得到地理位置的較高準確度和細粒度。我們可以確切地知道社交媒體數據從哪里來,并在地圖上將該位置標記為可能的分析部分(例如,城市或社區(qū))。然而,由于大多數社交媒體數據都沒有地理標記,這可能限制了用于分析的社交媒體數據的數量。而且由于游客往往會在移動設備上打開地理定位功能,這也可能會導致他們的圖片使樣本產生偏差。
?地理推理(例如,在用戶的位置字段使用城市和省名)可以以較高水準的地理精度來捕獲更多的數據。然而,它具有有限的粒度。在前面所述的在埃及社交媒體數據上跟蹤信息擴散的例子中,80%的準確率只是在國家區(qū)域的水平上。
基于這樣一組社交媒體數據,圖像的URL可以剝離出來,附帶有位置元數據的圖像數據可以搜集下來,留下一堆海量的未分類的當地民眾認為值得分享的圖像數據。下一步是使用計算工具對這些圖像進行排序和分類。
下一步是使用圖像分類軟件對圖像數據集進行分類。在寫這篇文章的時候,深度神經網絡(DNNs)是一種很有前途的方法,它將圖像分成若干個抽象的層次,附帶兩個說明:
?處理能力。不像前面討論的文本分析方法,圖像分類是一類需要大量計算的任務,如果要使圖像分類計算可行,就需要并行計算陣列(相對于單個桌面系統)的支持。在我們的例子中,搜集2周2015年推特和臉書中非洲范圍的帶有地理標簽的共享圖像,會得到283000幅圖像。這需要大約三天時間的并行計算來處理。
?分類準確性。在圖像分類的精確度和粒度之間存在一個平衡問題。在低層次的粒度上(例如“車輛”),目前的技術是非常準確的。但是在更精細的粒度級別(例如,“坦克”和“卡車”),準確性會降低。
在這個過程的最后一步是使用繪圖軟件繪制這些圖像,可視化展示哪些組織在分享信息。而且由于這些數據有時間戳,我們也可以看到一段時間內的變化。為了演示這種方法如何支持信息戰(zhàn),可以考慮圖像數據怎樣指向關聯的社會文化和政治問題及其內涵。在本節(jié)討論的分析方法中,分類器發(fā)現了許多“漫畫書”,最后發(fā)現是政治漫畫16。這類圖像和其他類別的圖像可能會在幫助了解本地信息環(huán)境、當地民眾選擇共享什么內容、以及從哪里共享這些圖像等方面有重要價值。
注釋16:這突出顯示了圖像分類軟件當前的一些局限。雖然漫畫書和政治卡通書對人來說是兩類不同的體裁,但它們卻有相似的視覺特征。機器在進行圖像分類時,使用不同的特征參數會有不同的開銷和限制。
圖3-4是使用深度神經網絡(DNN)工具顯示自動檢測圖像的屏幕截圖,根據目標類別(政治漫畫、建筑和車輛)和地理定位形成的圖像共享地圖。
能夠直觀地看到在什么地方、以及多大密度上人群關注的某個社會問題正在被“討論”,是一種高效的方法來理解和發(fā)現信息環(huán)境中的動態(tài)變化。
圖3-4 基于類型和地理位置的圖像共享
原文鏈接:
https://www.rand.org/pubs/research_reports/RR1742.html 翻譯人員:劉江寧 郭長國 王曉斌
(部分文字、圖片來自網絡,如涉及侵權,請及時與我們聯系,我們會在第一時間刪除或處理侵權內容。電話:4006770986 負責人:張明)