當(dāng)前位置: 首頁(yè)>> 輿情簡(jiǎn)評(píng) >>正文

監(jiān)視社交媒體：關(guān)于支撐信息戰(zhàn)的社交媒體分析的報(bào)告3/5

2017-11-15 11:02 作者:蟻坊軟件瀏覽次數(shù):10894

"速讀全網(wǎng)"輿情，了解傳播路徑，把握發(fā)展態(tài)勢(shì)——點(diǎn)擊試用鷹眼速讀網(wǎng)全網(wǎng)輿情監(jiān)測(cè)分析系統(tǒng)

第3章支援信息戰(zhàn)的社交媒體分析方法

在上一章中，為研究社交媒體分析應(yīng)用于信息戰(zhàn)的潛在利益，我們提出了一個(gè)基于IRC的框架。在本章中，我們進(jìn)行一些更具體的描述：采用方法學(xué)的方法去檢測(cè)公眾對(duì)極端組織宣傳的接受程度；確定文化或區(qū)域關(guān)注的熱點(diǎn)以分析消息轉(zhuǎn)發(fā)策略；解決其他信息戰(zhàn)問題。本章并不專注于特定的技術(shù)或算法，有關(guān)這些特定技術(shù)或算法的討論很快會(huì)變得過時(shí)。相反，我們探索使用一些有前景的方式，在一個(gè)熟悉的框架內(nèi)解決常見的信息戰(zhàn)挑戰(zhàn)性問題。例如，類似Clauset-Newman Moore算法的社區(qū)檢測(cè)算法，可能會(huì)被更優(yōu)秀的算法所取代，但是識(shí)別和分析一個(gè)社交網(wǎng)絡(luò)中的群體這個(gè)需求是一直會(huì)有的。

作為數(shù)據(jù)源的社交媒體的局限

本章中研究的概念和方法對(duì)國(guó)防部可能有巨大的潛在價(jià)值，對(duì)于信息戰(zhàn)來(lái)說，社交媒體無(wú)疑是重要的數(shù)據(jù)來(lái)源。然而，對(duì)于社交媒體平臺(tái)和分析工具的使用也有一些局限：

?社交媒體普及率在世界各地是不同的，這反映在某一既定任務(wù)區(qū)域中可用于分析的數(shù)據(jù)量（以及它們的適用性）。

?社交媒體數(shù)據(jù)不具有廣泛的代表性。社交媒體的參與者都是自選擇的，因此，他們共享的數(shù)據(jù)會(huì)自然而然地朝網(wǎng)絡(luò)媒體參與者群體傾斜。

例如，對(duì)社交媒體中共享的照片集的自動(dòng)圖像分類結(jié)果數(shù)據(jù)進(jìn)行分析，可以揭示什么樣的人群想法子集是值得分享的。

社交媒體分析中的主要概念和方法

下面提到的若干分析方法并不詳盡，但它們顯示了所有可能的分析方法的大致范圍，并說明了綜合使用多個(gè)分析方法所產(chǎn)生的效益。大多數(shù)的方法使用文本分析（反映了社交媒體中基于文本的數(shù)據(jù)的豐富性），我們也介紹了包括網(wǎng)絡(luò)、地理空間和圖像分析方面的實(shí)例。

本章涉及的方法論概念主要包括以下內(nèi)容：

?社交網(wǎng)絡(luò)分析。社交網(wǎng)絡(luò)分析（SNA），它包括社交結(jié)構(gòu)的識(shí)別和可視化，涉及到心理學(xué)、人類學(xué)、數(shù)學(xué)中的圖論等方面的知識(shí)。它涵蓋了在海量的社交媒體數(shù)據(jù)集中自動(dòng)檢測(cè)社區(qū)的算法。

?公眾分析。公眾分析是公眾說服分析的一部分：對(duì)有倡導(dǎo)權(quán)益的人的一種抽象，這些人使用共享的語(yǔ)言來(lái)解決一個(gè)常見的問題。美國(guó)步槍協(xié)會(huì)就是與倡導(dǎo)有關(guān)的組織的一個(gè)真實(shí)例子，然而使用相同語(yǔ)言且以私人持有武器合法化為共同目標(biāo)的公眾，則是一個(gè)更大的抽象。那些尋求限制武器私有化的反對(duì)派，同樣比任何正式的游說組織要大。這類分析專注于那些關(guān)注某些問題并使用共同的論述來(lái)影響辯論的人。

?詞法分析。文本分析方法起源于語(yǔ)料庫(kù)語(yǔ)言學(xué)研究³。詞法分析使用統(tǒng)計(jì)檢測(cè)計(jì)算單詞的頻率、單詞的距離及其它特性，以檢測(cè)文本數(shù)據(jù)結(jié)構(gòu)和模式。它最常用于通過顯而易見的文本及單詞聯(lián)系，以經(jīng)驗(yàn)推斷一個(gè)文本集是在說什么。

注釋3：語(yǔ)料庫(kù)語(yǔ)言學(xué)是語(yǔ)言學(xué)的一個(gè)分支學(xué)科，其特征在于基于海量文本數(shù)據(jù)集(語(yǔ)料庫(kù))的實(shí)證研究。由于語(yǔ)料庫(kù)語(yǔ)言學(xué)是基于機(jī)器的，它缺乏人工分析的上下文敏感性和精度，但人工分析不能達(dá)到其可擴(kuò)展性和可靠性。

?立場(chǎng)分析。作為一種更復(fù)雜和更精細(xì)化的情感分析方法，立場(chǎng)分析重點(diǎn)檢查單詞和短語(yǔ)的頻率（比如憤怒、悲哀、未來(lái)、過去、確定、不確定等）。它有益于回答有關(guān)態(tài)度、情感和價(jià)值的社會(huì)文化問題。

?地理定位和地理推理。是兩種地理特定的方法，用于判定一條社交媒體消息的地理源點(diǎn)。地理定位使用GPS戳并且相當(dāng)精確，但是用戶常常關(guān)閉這項(xiàng)功能。地理推理可以基于元數(shù)據(jù)捕獲大量的數(shù)據(jù)樣本，用于推斷發(fā)帖者的地理位置，其中一些方法具有相當(dāng)高的精度水準(zhǔn)。

?深度神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)（DNNs）通過將復(fù)雜的抽象任務(wù)分解簡(jiǎn)化為不同層次，使機(jī)器能夠?qū)W習(xí)分類任務(wù)。例如，盡管人可能通過觀看一張圖片從整體上識(shí)別一輛坦克，但DNN圖像分類器可以通過編程來(lái)區(qū)分不同的金屬質(zhì)感、胎面形狀、主炮形狀、低反射值，以及其它因素來(lái)描繪一輛“坦克”，并且具有一定的準(zhǔn)確度。人類分析師可能需要花費(fèi)一年的時(shí)間搜索成千上萬(wàn)的圖片，以一個(gè)具有強(qiáng)大計(jì)算能力的、經(jīng)過良好訓(xùn)練的DNN模型來(lái)代替，則只需要幾天時(shí)間就能對(duì)同一組圖像進(jìn)行分類。

分析社交媒體數(shù)據(jù)的若干方法

盡管社交媒體數(shù)據(jù)越來(lái)越多地包括圖像、聲音和視頻，文本數(shù)據(jù)仍然占主導(dǎo)地位。在下面的章節(jié)中，我們回顧各種社交媒體分析方法，尤其是文本數(shù)據(jù)，這些方法在解決信息戰(zhàn)的問題時(shí)有非常實(shí)際的應(yīng)用價(jià)值。表3-1總結(jié)了本章中介紹的以及應(yīng)用范例中涉及到的幾類分析方法。

網(wǎng)絡(luò)描述：在社交媒體中發(fā)現(xiàn)極端主義網(wǎng)絡(luò)

雖然本章主要側(cè)重于分析方法，我們注意到描述性工作的價(jià)值，它可以為推理提供重要的啟示。本節(jié)詳細(xì)描述了表征極端分子網(wǎng)絡(luò)的方法——具體而言，網(wǎng)絡(luò)成員中那些積極參與支持活動(dòng)的人⁴。該示例的目的是刻畫誰(shuí)是在推特上積極支持ISIL的人，但是這種方法也可以適用于其他網(wǎng)絡(luò)組織或者其他為社交網(wǎng)絡(luò)分析（SNA）提供數(shù)據(jù)的社交媒體平臺(tái)。

注釋4：各類不同的分析方法對(duì)于檢測(cè)網(wǎng)絡(luò)群體在社交媒體平臺(tái)上的一般對(duì)話都是有用的。

表3-1一些支持信息戰(zhàn)的社交媒體數(shù)據(jù)分析方法

在該示例方法中，現(xiàn)有的ISIL支持者被用于確定其他支持者。結(jié)果是一個(gè)相當(dāng)大的數(shù)據(jù)集，在推特上有100萬(wàn)至135萬(wàn)的ISIL的積極支持者。識(shí)別網(wǎng)絡(luò)成員是一個(gè)三步驟的過程，結(jié)合了可擴(kuò)展的機(jī)器方法和有人監(jiān)督的隨機(jī)取樣檢查方法，以保證識(shí)別的精確性。

使用種子賬戶識(shí)別網(wǎng)絡(luò)成員

分析過程的第一步是手動(dòng)培育一個(gè)已知的在推持上活躍的極端分子成員的種子列表。即使對(duì)專家來(lái)說，這也是一個(gè)勞動(dòng)密集型的工作過程（一個(gè)兩人團(tuán)隊(duì)，通常需要數(shù)月時(shí)間）。在對(duì)推特活躍用戶當(dāng)中對(duì)極端組織有明確的積極支持傾向的帳戶進(jìn)行手工搜索時(shí)，研究人員發(fā)現(xiàn)了424個(gè)活躍的ISIL的支持者帳戶——或者稱為網(wǎng)絡(luò)模型中的0級(jí)帳戶。

第二步是從種子列表開始，使用匹配的網(wǎng)絡(luò)連接來(lái)推斷其他支持者。不像基于內(nèi)容來(lái)識(shí)別關(guān)系的其他方法（參見下一節(jié)，“公眾分析：在社交媒體上映射論證空間”），在這里，聯(lián)系的方向很重要。設(shè)想一下一組推特用戶評(píng)論一個(gè)受歡迎的電視節(jié)目的情景，參與者可能包括演員、制作人員、演播室代表、記者以及粉絲。如果我們已經(jīng)分辨節(jié)目網(wǎng)絡(luò)的全部成員——明星、編劇、導(dǎo)演等——我們就有可能通過對(duì)談?wù)撛摴?jié)目的用戶進(jìn)行研究，分析他們的聯(lián)接方向，推斷其他可能的用戶：明星可能有很多很多的關(guān)注者（大部分是粉絲），這些人并不直接和節(jié)目有關(guān)，但是明星所關(guān)注的人則很有可能與節(jié)目有關(guān)。

因此，以極端分子網(wǎng)絡(luò)為例，忽略那些關(guān)注0級(jí)種子成員的人，轉(zhuǎn)而重點(diǎn)識(shí)別那些0級(jí)種子成員所關(guān)注的用戶，則可能獲得相關(guān)網(wǎng)絡(luò)成員（1級(jí)）的更準(zhǔn)確的圖像。在這一例子中，過濾掉嫌疑的機(jī)器人和病毒帳戶后，經(jīng)過第一步分析之后得到的網(wǎng)絡(luò)組織成員大約有43000人左右。但是，當(dāng)然不是所有的被0級(jí)成員所關(guān)注的人都是ISIL的推特支持者，需要進(jìn)一步剔除。

使用小圈子和網(wǎng)內(nèi)聚焦提高網(wǎng)絡(luò)成員辨識(shí)能力

第三步，鑒別誰(shuí)是積極支持ISIL的網(wǎng)絡(luò)用戶的第三步，是要基于他們?cè)谕铺厣瞎_的同ISIL的聯(lián)系、以及他們?cè)诰W(wǎng)絡(luò)小圈子和網(wǎng)內(nèi)焦點(diǎn)的活躍程度，對(duì)他們進(jìn)行排序。在網(wǎng)絡(luò)分析中，這幾個(gè)概念定義如下：

?圈子（Cliques）是一個(gè)網(wǎng)內(nèi)的子結(jié)構(gòu)，其中每個(gè)節(jié)點(diǎn)都連接到其他節(jié)點(diǎn)。設(shè)想一個(gè)大型的“新英格蘭愛國(guó)者”的支持者網(wǎng)絡(luò)，在該網(wǎng)絡(luò)結(jié)構(gòu)中，你可以發(fā)現(xiàn)很多小的“圈子”——在這種更小的組織中，每個(gè)人都會(huì)認(rèn)識(shí)另外的任何一個(gè)人。這可能是在波士頓以鄰居形成的緊密的朋友圈，或者雖然他們從沒有互相見過面，但通過在線互動(dòng)而相互非常了解對(duì)方。重要的是網(wǎng)絡(luò)中圈子的度，這能夠幫助鑒別網(wǎng)絡(luò)中的成員關(guān)系。

?網(wǎng)內(nèi)聚焦是指網(wǎng)內(nèi)的聯(lián)系多過網(wǎng)外聯(lián)系（與組織外的用戶交互）的發(fā)展趨勢(shì)。以足球?yàn)槔?，“新英格蘭愛國(guó)者”的非正式的粉絲都會(huì)有一些網(wǎng)內(nèi)的聯(lián)系，但是如果某個(gè)人的網(wǎng)絡(luò)聯(lián)接比率開始傾斜——如果一個(gè)用戶主要是指向網(wǎng)內(nèi)——這表示會(huì)員身份的增強(qiáng)。

對(duì)43000第1級(jí)別的帳戶進(jìn)行分類，在識(shí)別支持者時(shí)，結(jié)合使用多種度量比使用單一度量有效得多。在分析員抽查時(shí)，這種方法對(duì)數(shù)據(jù)集中前20000個(gè)帳戶的精度非常高，但是當(dāng)超過30000個(gè)帳戶時(shí)，精度會(huì)快速地下降到48%。所以，在這個(gè)例子中，研究人員能夠描述一個(gè)包含20000人的活躍的ISIL支持者大型網(wǎng)絡(luò)的人口統(tǒng)計(jì)資料和活動(dòng)，并能高度保證數(shù)據(jù)集是精準(zhǔn)的⁵。

注釋5：在這種情況下，更大規(guī)模的n-步分析是可能的——例如，在1級(jí)用戶之外采用一個(gè)附加步驟，檢查他們使用可擴(kuò)展方法(如機(jī)器學(xué)習(xí))的情況，從活躍的支持者中篩選更大的網(wǎng)絡(luò)。

公眾分析：社交媒體話題空間的可視化

除了描述像ISIL極端組織的社交網(wǎng)絡(luò)，SNA（社交網(wǎng)絡(luò)分析）和詞法分析的組合使用還可以用來(lái)表征ISIL在社交媒體上的意識(shí)形態(tài)斗爭(zhēng)⁶。該方法使用社區(qū)檢測(cè)算法來(lái)識(shí)別所涉及的群體，并使用詞法分析來(lái)表征這些社區(qū)。這種方法不僅能直觀的呈現(xiàn)誰(shuí)在跟誰(shuí)說話，而且能知道他們?cè)谡f（關(guān)心）什么。其結(jié)果就是圍繞ISIL的討論空間的社交媒體圖。圖3-1顯示了通過研究發(fā)現(xiàn)的頂級(jí)集合群落圖，以及它們之間相互聯(lián)接的密度和方向。

注釋6：這項(xiàng)研究的規(guī)模說明了為什么計(jì)算機(jī)分析對(duì)信息戰(zhàn)，以及從更廣的意義上說對(duì)社交媒體數(shù)據(jù)搜集是至關(guān)重要的：源于771371個(gè)推特用戶帳戶的2300萬(wàn)條微博信息。

圖3-1經(jīng)過兩步創(chuàng)建。社區(qū)檢測(cè)揭示了網(wǎng)絡(luò)結(jié)構(gòu)，基于每一社區(qū)內(nèi)容的詞法分析描述了用戶組織的特征——特別是從人口統(tǒng)計(jì)學(xué)的角度來(lái)看他們是誰(shuí)，以及他們關(guān)心什么。

圖3-1 推特中支持和反對(duì)ISIL的集合群落

注：箭頭的粗細(xì)表示集合群落之間的連接強(qiáng)度相較于社區(qū)規(guī)模的高低。節(jié)點(diǎn)大小代表社區(qū)的大小。紅色節(jié)點(diǎn)表示遜尼派集合群落的成員。由于資源的限制，不是所有的社區(qū)都能用詞法分析檢測(cè)到；沒檢測(cè)到的社區(qū)沒有給出標(biāo)簽。

MC：集合群落；GCC：海灣合作委員會(huì)（Gulf Cooperation Council）；Shia=Shiah：什葉（派）；Mujahideen：圣戰(zhàn)（者）；ISIL：伊拉克和黎凡特伊斯蘭國(guó)（Islamic State of Iraq and the Levant）；ISIS：伊拉克和大敘利亞伊斯蘭國(guó)（Islamic State of Iraq and al Shams）。

社區(qū)檢測(cè)

這種方法的第一步是搜集關(guān)于某一個(gè)問題或某一利益團(tuán)體的社交媒體數(shù)據(jù)——在本例中，有超過2300萬(wàn)的推特帖子來(lái)自于77萬(wàn)多的ISIL支持者和反對(duì)者。領(lǐng)域?qū)＜覍?duì)搜索ISIL可能的支持者或反對(duì)者提出了相關(guān)的搜索詞語(yǔ)建議：搜索短語(yǔ)和標(biāo)簽變體都包括阿拉伯語(yǔ)的“達(dá)伊沙（Daesh，伊斯蘭國(guó)）”和“伊斯蘭哈里發(fā)（Islamic Caliphate）”。

因此領(lǐng)域?qū)＜业闹庇X就是通過機(jī)器閱讀實(shí)現(xiàn)機(jī)器驗(yàn)證——將詞法分析技術(shù)應(yīng)用于收集的數(shù)據(jù)，然后確認(rèn)對(duì)使用“達(dá)伊沙”和使用“伊斯蘭哈里發(fā)”的不同網(wǎng)絡(luò)社區(qū)的區(qū)分是否準(zhǔn)確地分辨出反對(duì)者和支持者（下一節(jié)詳細(xì)描述）。在這種情況下，主要的測(cè)試都表明，事實(shí)上使用“達(dá)伊沙”的社區(qū)同樣會(huì)使用貶義詞稱呼ISIL（如“哈里哲派（Kharijites，出走派）”，一個(gè)對(duì)主流伊斯蘭教的古老反對(duì)派的稱謂），同時(shí)使用尊敬的詞語(yǔ)稱呼阿拉伯國(guó)家和西方世界（如“國(guó)際聯(lián)盟”）⁷。使用“哈里發(fā)”的網(wǎng)絡(luò)社區(qū)使用敬語(yǔ)稱呼ISIL（如“伊斯蘭國(guó)的獅子”），使用貶損的稱謂指代阿拉伯國(guó)家（如稱呼阿拉伯國(guó)家“叛教者（apostates）”，稱呼西方國(guó)家“十字軍（crusaders）”等）。這一分析過程是一類非常有效的檢驗(yàn)措施，意味著這些搜索詞可以作為非常有用的判別參數(shù)：一個(gè)詞語(yǔ)對(duì)另一個(gè)詞語(yǔ)在使用方面具有壓倒優(yōu)勢(shì)，據(jù)此能夠有效地分辨一個(gè)用戶對(duì)ISIL的態(tài)度。

注釋7：關(guān)鍵測(cè)試涉及某些詞語(yǔ)的發(fā)現(xiàn)頻率的測(cè)試和統(tǒng)計(jì)重要性的檢測(cè)。預(yù)期的詞頻可以使用通用標(biāo)準(zhǔn)檢測(cè)(例如有代表性的單語(yǔ)種的語(yǔ)料庫(kù)，如開源阿拉伯語(yǔ)語(yǔ)料庫(kù))，或者使用特殊標(biāo)準(zhǔn)檢測(cè)(例如，針對(duì)一般社交媒體交流，每天進(jìn)行廣泛的搜集)。有關(guān)這些技術(shù)的其他背景，參見Scott(2001)。

一旦將社區(qū)檢測(cè)算法應(yīng)用于社交媒體數(shù)據(jù)，這種詞法驗(yàn)證將為下一步的重要過程創(chuàng)造條件。推特?cái)?shù)據(jù)（或者其他相似平臺(tái)的數(shù)據(jù)，如新浪微博）對(duì)社交媒體分析工作來(lái)說是能夠不斷修正和完善的，因?yàn)橄窕靥?、引用和轉(zhuǎn)發(fā)等操作都標(biāo)記了網(wǎng)絡(luò)交互行為。通過描述和分析這些網(wǎng)絡(luò)交互，一種網(wǎng)絡(luò)社區(qū)檢測(cè)算法能夠快速地對(duì)用戶進(jìn)行分組，將其歸并到互聯(lián)的結(jié)構(gòu)中，但是不能對(duì)他們命名，也不能描述他們的特征。該算法只能簡(jiǎn)單地發(fā)現(xiàn)社區(qū)1、社區(qū)2，等等。但是“達(dá)伊沙”和“哈里發(fā)”等判決詞能很快標(biāo)記出每個(gè)社區(qū)是支持還是反對(duì)ISIL的，并將支持者歸并到同一組。

描述社區(qū)特征

雖然社交網(wǎng)絡(luò)分析用于分析網(wǎng)絡(luò)社區(qū)以及它們之間的交互關(guān)系——“達(dá)伊沙”和“哈里發(fā)”等判決詞用于顯示“支持”或“反對(duì)”的立場(chǎng)——從信息戰(zhàn)的角度看，網(wǎng)絡(luò)社區(qū)關(guān)系圖仍是空白，沒有標(biāo)識(shí)。不理解對(duì)于ISIL持不同立場(chǎng)的各方的特點(diǎn)及關(guān)心的問題，就沒有可行的途徑去影響它們彼此之間的對(duì)話協(xié)商。

一個(gè)突出的問題是，相對(duì)于人的分析能力，推特的微博數(shù)據(jù)池過于龐大。在可擴(kuò)展性之外，人類的可靠性和偏見等特征仍是分析工作的一個(gè)問題?？蓴U(kuò)展的、可靠地表征這些社區(qū)需要對(duì)檢測(cè)到的社區(qū)的推特內(nèi)容進(jìn)行機(jī)器分析。一種解決方案是源于語(yǔ)料庫(kù)語(yǔ)言學(xué)的基于機(jī)器的分析方法（詞法分析）。詞法分析取決于字頻或字距的統(tǒng)計(jì)測(cè)試，該方法能顯示文本數(shù)據(jù)的結(jié)構(gòu)。在本例中，對(duì)文本數(shù)據(jù)使用了兩種方法：關(guān)鍵字測(cè)試和組合測(cè)試。關(guān)鍵字識(shí)別從統(tǒng)計(jì)角度描述了一個(gè)文本數(shù)據(jù)集中詞語(yǔ)，并展示出所收集的文本數(shù)據(jù)的主要內(nèi)容。因?yàn)殛P(guān)鍵字加權(quán)由它們的統(tǒng)計(jì)異常情況決定，所以關(guān)鍵詞測(cè)試在弱信號(hào)檢測(cè)時(shí)具有更高的判決能力。與關(guān)鍵詞不同，搭配詞在統(tǒng)計(jì)上非常顯眼，因?yàn)樗鼈儽硎玖斯餐霈F(xiàn)的詞語(yǔ)，這些組合詞往往就勾勒出了文本的大意⁸。

注釋8：比如，地名(“紐約”)，人名(“奧巴馬總統(tǒng)”)，以及抽象概念(“禁槍”)等。

識(shí)別公眾和可能的宣傳策略

對(duì)于統(tǒng)計(jì)頻率很高的關(guān)鍵詞及強(qiáng)相關(guān)的組合詞的自動(dòng)識(shí)別，使得被檢測(cè)的網(wǎng)絡(luò)社區(qū)表征為一個(gè)公眾：使用共享語(yǔ)言討論一個(gè)公共的問題，并持擁護(hù)立場(chǎng)的人們的抽象。舉一個(gè)美國(guó)大眾都熟悉的例子，設(shè)想一個(gè)禁槍的話題。一方面，美國(guó)全國(guó)步槍協(xié)會(huì)是一個(gè)持擁護(hù)立場(chǎng)的現(xiàn)實(shí)世界的組織實(shí)例，但是使用共享語(yǔ)言且致力于將私人擁有武器合法化這一共同目標(biāo)的公眾則是一個(gè)更大的抽象。尋求限制武器私有化的持反對(duì)立場(chǎng)的公眾也要比任何官方游說組織要大：這是一個(gè)關(guān)心某個(gè)問題并使用共同的公開信息來(lái)影響辯論的公眾組織。

回到我們最初在推特上識(shí)別ISIL支持者的例子，社交網(wǎng)絡(luò)分析顯示有4個(gè)大的集合群落，對(duì)它們使用詞法分析可以定性為元公眾。一個(gè)社區(qū)可以通過關(guān)鍵詞及其他組合詞來(lái)聯(lián)合標(biāo)注，如沙特的關(guān)注（包括沙特民族主義），對(duì)ISIL的世俗或宗教的貶義用語(yǔ)（恐怖主義分子，犯罪和罪孽，逐出教會(huì)，混亂等），以及對(duì)宗教內(nèi)涵的褒義詞（贊美，榮譽(yù)，真理，愛等）。這里的一個(gè)關(guān)鍵環(huán)節(jié)是，一個(gè)使用詞法分析軟件的分析師，能夠替代一整個(gè)閱讀數(shù)百萬(wàn)推特帖子的分析師團(tuán)隊(duì)，他能夠識(shí)別識(shí)別上百個(gè)統(tǒng)計(jì)上異常的詞語(yǔ)和短語(yǔ)來(lái)表征一個(gè)社區(qū)為公眾社區(qū)。以下是本例中發(fā)現(xiàn)的4個(gè)大型的網(wǎng)絡(luò)公共社區(qū)：

?遜尼派ISIL對(duì)手（一些支持者）

?什葉派ISIL對(duì)手

?ISIL支持者

?敘利亞圣戰(zhàn)者組織（對(duì)ISIL懷有多種復(fù)雜態(tài)度）。

社交網(wǎng)絡(luò)分析和詞法分析一起使用能夠支持更細(xì)粒度的分析，為面向影響特定公眾群體的貌似真實(shí)的消息傳播提供經(jīng)驗(yàn)基礎(chǔ)。表3-2顯示了使用“遜尼元公眾號(hào)”識(shí)別出來(lái)的個(gè)體公眾社區(qū)（特別是以國(guó)籍身份和以所關(guān)注話題組織起來(lái)的社區(qū)），以及每個(gè)社區(qū)的關(guān)注點(diǎn)和興趣話題。

每個(gè)公共社區(qū)的話題和關(guān)注點(diǎn)為可能真實(shí)的消息傳送策略及有針對(duì)性的社區(qū)成員宣傳策略提供了經(jīng)驗(yàn)基礎(chǔ)。在這里，我們重點(diǎn)強(qiáng)調(diào)該方法的可擴(kuò)展性和誘導(dǎo)價(jià)值。這是一個(gè)分析師數(shù)天的工作量，而不是一個(gè)團(tuán)隊(duì)花費(fèi)數(shù)月去閱讀成千上萬(wàn)條的推特貼子。而且由于分析工作完全依賴于用戶所產(chǎn)生的社交媒體數(shù)據(jù)，反映美國(guó)文化假設(shè)和優(yōu)先的要旨難以有植入的機(jī)會(huì)，因此更加客觀公正，分析工作可以在一個(gè)合適的粒度層面上來(lái)完成。

表3-2 推特中遜尼派公眾對(duì)ISIL的反對(duì)/支持分析

來(lái)源：蘭德公司針對(duì)推特2014年7月至2015年5月數(shù)據(jù)的分析。

共鳴分析：基于社交媒體跟蹤信息擴(kuò)散

本節(jié)詳細(xì)介紹針對(duì)一個(gè)網(wǎng)絡(luò)集團(tuán)在某一合適的地理粒度上對(duì)消息隨時(shí)間推移的傳播接受情況的跟蹤方法。這里提及的概念驗(yàn)證研究主要用于跟蹤2014年埃及ISIL和穆斯林兄弟會(huì)成員中世界觀相關(guān)的信息傳播和接受情況。該方法有巨大的潛力來(lái)衡量有效性，包括友好消息傳輸方面的工作。

該方法的基礎(chǔ)是語(yǔ)言和世界觀之間不可分割的關(guān)系，語(yǔ)言反映了世界觀，反之，世界觀也通過語(yǔ)言塑造。在爭(zhēng)議性議題的語(yǔ)言表達(dá)上，我們可以很清楚地看到這種關(guān)系。在論述某一特定話題過程中一直使用的詞匯不是簡(jiǎn)單地反映意識(shí)形態(tài)；它們的使用同樣有助于通過包裝世界性問題和事件來(lái)促進(jìn)意識(shí)形態(tài)的流通和傳播。因?yàn)槿绻覀兡軌驅(qū)姷挠懻撛跀?shù)量方面建模，我們就能夠跟蹤通過語(yǔ)言表達(dá)的世界觀的接受情況。

建立語(yǔ)言模型

該方法的第一步是建立一個(gè)面向公眾談話的加權(quán)語(yǔ)言模型。在這個(gè)例子中，它是一個(gè)極端組織，但它可能只是一條戰(zhàn)斗命令和這條命令的區(qū)域傳播。在這個(gè)概念驗(yàn)證例子中，分析師從ISIL和穆斯林兄弟會(huì)（每個(gè)組織約30000詞匯）的公開談話中搜集數(shù)據(jù)，然后使用關(guān)鍵詞和詞語(yǔ)組合對(duì)數(shù)據(jù)集進(jìn)行測(cè)試。這樣每一個(gè)集團(tuán)就會(huì)產(chǎn)生基于大約100個(gè)左右的統(tǒng)計(jì)關(guān)鍵詞和20個(gè)左右的雙詞組合的語(yǔ)言模型。為了幫助對(duì)我們所指的加權(quán)語(yǔ)言模型進(jìn)行概念化描述，表3-3給出了一些關(guān)鍵詞示例、對(duì)數(shù)相似度以及每個(gè)單詞的英語(yǔ)翻譯。

在這個(gè)特殊的測(cè)試中，對(duì)數(shù)相似度大于11表示很重要。在表3-3中，某些詞如伊拉克（Iraq）或沙姆（Sham）的兩位數(shù)的值表示它們被大量使用，并且能夠被檢測(cè)到，而數(shù)百的對(duì)數(shù)相似度（如拉菲達(dá)（Rafidhi））則是非常強(qiáng)的語(yǔ)義信號(hào)，表示整篇文本主要描述的內(nèi)容。超過1000的分?jǐn)?shù)顯示了高度專業(yè)化的談話，是一個(gè)標(biāo)志性的信號(hào)：在努力理解ISIL交流信息的時(shí)候，從定性分析的角度看，像薩法維（Safavid）這樣的詞語(yǔ)可能不是一個(gè)頂級(jí)話題，但是從檢測(cè)弱信號(hào)（如效果和影響）的經(jīng)驗(yàn)角度看，這樣一個(gè)出乎意料的高頻詞應(yīng)該是一個(gè)強(qiáng)有力的分析抓手。

表3-3 ISIL和穆斯林兄弟會(huì)關(guān)鍵詞示例，對(duì)數(shù)相似度排序

注：對(duì)于對(duì)數(shù)相似度，臨界值是10.83（0.01%，p<0.001）。在這個(gè)例子中，最小頻率是20。為了解釋本表中的對(duì)數(shù)似然（LL）值，我們?cè)O(shè)想LL>11表示統(tǒng)計(jì)重要，11和1000之間表示極高級(jí)別的關(guān)鍵程度（高點(diǎn)位的談話），分值大于1000表示指向極端專業(yè)化談話的關(guān)鍵詞。

有了信號(hào)模型的幫助——針對(duì)薩法維集團(tuán)（Safafist groups）談話信息的定量加權(quán)模型，下一步是檢測(cè)模型和公眾談話內(nèi)容的一致程度：這些集團(tuán)在傳播他們的信息方面是得勢(shì)還是失勢(shì)。

社交媒體談話和極端分子信息交流的區(qū)域匹配

給定一個(gè)極端組織的談話的語(yǔ)言模型，有可能看到普通人群中的社交媒體用戶和談話內(nèi)容的匹配程度——定量匹配出一個(gè)網(wǎng)絡(luò)群體的話語(yǔ)在整個(gè)話語(yǔ)市場(chǎng)的共享程度。設(shè)想一下在私人擁有槍支這個(gè)問題上對(duì)美國(guó)東北部的社交媒體進(jìn)行監(jiān)控。

每一季度，針對(duì)以下詞語(yǔ)的使用都在不斷增加，例如：大規(guī)模射殺、無(wú)謂殺戮、無(wú)辜等，而以下詞語(yǔ)則使用較少，如：負(fù)責(zé)任的所有權(quán)、第2修正案權(quán)利、犯罪等字眼。這強(qiáng)有力的表明了有一方在公眾輿論中正得勢(shì)，至少能從中知道這個(gè)討論是關(guān)于槍支危險(xiǎn)的，而不是關(guān)于公民自由的⁹。一般的分析過程如下：

注釋9：我們注意到這種方法不能讓我們回答為什么會(huì)發(fā)生這種改變，只能讓我們看到發(fā)生了改變。如果要了解其中的因果關(guān)系則需要其他方法。

?從一個(gè)有意義的地理人口中搜集社交媒體數(shù)據(jù)。在我們的主要案例中，數(shù)據(jù)源主要來(lái)自2014年埃及四個(gè)區(qū)域的推特?cái)?shù)據(jù)：西奈、亞歷山大及濱海地區(qū)、上埃及、開羅和尼羅河三角洲。在該例中，在對(duì)用戶所在區(qū)域進(jìn)行地理推斷時(shí)既使用了城市名稱也使用了省的名稱，這使得數(shù)據(jù)量翻了一番，但是，當(dāng)回查地理標(biāo)簽數(shù)據(jù)時(shí)，得到的是80%準(zhǔn)確度的更低可信度的邊界。

?根據(jù)對(duì)語(yǔ)言模型的匹配的統(tǒng)計(jì)數(shù)據(jù)，對(duì)推特用戶簡(jiǎn)訊進(jìn)行打分。每一位推特用戶的簡(jiǎn)訊都可以根據(jù)其與語(yǔ)言模型的匹配程度進(jìn)行打分（如ISIL和穆斯林兄弟會(huì)）：

–給定了用戶推文中出現(xiàn)詞語(yǔ)的總數(shù)，以及所有推文中的關(guān)鍵詞和搭配詞的頻率/平均值之后，還需要針對(duì)每一用戶，將其所有推文中全部關(guān)鍵詞和搭配詞出現(xiàn)的相似度進(jìn)行統(tǒng)計(jì)求和，并計(jì)算期望值。

–結(jié)果值是對(duì)匹配有多可能是隨機(jī)的匹配的判據(jù)：

?高：意味著一個(gè)帳戶使用了比隨機(jī)概率期望值高出500%的模型語(yǔ)言（ISIL和穆斯林兄弟會(huì)）。

?中：意味著一個(gè)帳戶使用了比隨機(jī)概率期望值高出300%的模型語(yǔ)言，但是低于500%。

?低：意味著一個(gè)帳戶使用了比隨機(jī)概率期望值高出50%的模型語(yǔ)言，但是低于300%。

?無(wú)：意味著一個(gè)帳戶的語(yǔ)言反映了隨機(jī)概率的水平。

?描繪出隨時(shí)間變化的圖形。在用戶層量化確定的高、中、低、無(wú)級(jí)別的匹配可以在地域級(jí)進(jìn)行匯總：一一種衡量一個(gè)網(wǎng)絡(luò)群體消息傳播的擴(kuò)散程度等級(jí)的方法。經(jīng)過逐個(gè)季度的比較，既能測(cè)量消息隨時(shí)間傳播的有效程度，也可以對(duì)各種傳播方式進(jìn)行優(yōu)先性排序。

這個(gè)例子中，在2014年度，ISIL和穆斯林兄弟會(huì)在亞歷山大和開羅地區(qū)保持了很低的匹配度——這對(duì)美國(guó)來(lái)說是一個(gè)好消息。但是在西奈和上埃及地區(qū)，ISIL擁有高度和中度的共鳴匹配度，相比這下，穆兄會(huì)則失去了不少的人氣。本質(zhì)意義上，ISIL在這兩個(gè)地區(qū)獲得了市場(chǎng)份額——對(duì)美國(guó)來(lái)說是壞消息，圖3-2和圖3-3顯示了市場(chǎng)份額的這個(gè)變化。

立場(chǎng)分析：檢測(cè)社交媒體中信息傳送策略

圖3-2 埃及ISIL的語(yǔ)音共鳴，2014

為什么某些極端分子的消息傳送策略能夠成功，而其他一些極端分子會(huì)失敗？美國(guó)國(guó)防部能夠成功分析其成功的原因，獲取其中的關(guān)鍵技術(shù)并指導(dǎo)信息戰(zhàn)嗎？是否能夠明白為什么某些敵方的消息傳送方式具有特別的功效，并學(xué)習(xí)如何使自己的消息傳播更有效，而不管是使用什么媒體來(lái)傳播？立場(chǎng)分析著眼于社交媒體消息傳送，揭露消息傳播中的語(yǔ)言細(xì)節(jié)，以便更好地理解它是如何工作的。這類似于情感分析，但它更詳細(xì)和復(fù)雜。本章中先前所討論的方法中使用詞法分析（在詞匯的數(shù)量和頻率層面進(jìn)行統(tǒng)計(jì)檢驗(yàn)），這個(gè)方法在詞語(yǔ)種類的層面使用數(shù)量和頻率的統(tǒng)計(jì)檢測(cè)方法。關(guān)于詞語(yǔ)種類，我們所指的意思可舉例說明如下：如未來(lái)和過去、情感（例如憤怒、悲哀、害怕、主動(dòng)等）、確定性、價(jià)值、社交關(guān)系等。將多種詞語(yǔ)整合到若干個(gè)主題中，能夠?qū)崿F(xiàn)某個(gè)目標(biāo)，并能揭示某些可檢測(cè)的信號(hào)。比如，當(dāng)談及未來(lái)和希望的時(shí)候，這會(huì)是一種激勵(lì)人的策略，和談及過去和歷史錯(cuò)誤的選項(xiàng)具有顯著的區(qū)別。經(jīng)過對(duì)詞類的頻率、分布和協(xié)方差等的統(tǒng)計(jì)檢測(cè)，基于計(jì)算機(jī)的分析方法能夠在細(xì)節(jié)層面檢測(cè)到相關(guān)主題和消息傳送方式。

圖3-3 埃及穆斯林兄弟會(huì)的語(yǔ)音共鳴，2014

作為例證，假設(shè)一個(gè)新上任的人力主管將一份備忘錄發(fā)送給中心的每一位正式職員。該備忘錄收到了很差的效果：備忘錄的本意是激勵(lì)員工共同努力彌合分歧，但是相反，它起到了反作用，使員工對(duì)這位新的主管產(chǎn)生了極大的憤怒。當(dāng)員工被問及的時(shí)候，都會(huì)將矛頭指向那份備忘錄——它看起來(lái)疏遠(yuǎn)且傲慢。為什么顯得“傲慢”？仔細(xì)檢查文中的用詞就會(huì)發(fā)現(xiàn)，備忘錄中充斥著第一人稱和第二人稱單數(shù)名詞，但通篇缺少第一人稱復(fù)數(shù)名詞：當(dāng)提及解決方案時(shí)總是說“我”，當(dāng)談到問題時(shí)總是說“你”，談任何事情從來(lái)不用“我們”。盡管人力主管沒有意識(shí)到這個(gè)問題，久而久之，這種方式的遣詞也會(huì)在讀者中產(chǎn)生較強(qiáng)的對(duì)立情緒。對(duì)于像單一記錄這樣的，由話語(yǔ)分析師經(jīng)手的分析會(huì)非常高效和有用。但是對(duì)于海量的社交媒體數(shù)據(jù)，計(jì)算機(jī)分析還是必要的。

發(fā)現(xiàn)ISIL社交媒體交流中的潛在因素

為了測(cè)試這種方法，我們對(duì)從四個(gè)極端組織搜集的社交媒體數(shù)據(jù)集進(jìn)行了演示分析：伊拉克和黎凡特伊斯蘭國(guó)（ISIL）、勝利陣線（al-Nusrah Front）、阿拉伯半島的基地組織（AQAP）和圣戰(zhàn)組織（Ansar al-Sharia）¹⁰。我們使用經(jīng)過翻譯了的這些組織在2014年第四季度的三個(gè)月的社交媒體數(shù)據(jù)¹¹。然后，我們用最先進(jìn)的（截至2015年）的情感分析軟件對(duì)每個(gè)語(yǔ)料庫(kù)詞語(yǔ)種類頻率進(jìn)行處理，同時(shí)對(duì)此進(jìn)行頻率、分布和協(xié)方差的統(tǒng)計(jì)測(cè)試，以檢測(cè)不同組織之間差別，和每個(gè)組織內(nèi)部交流用語(yǔ)中不同結(jié)構(gòu)特征間的差別。

注釋10：我們注意到：這個(gè)分析方法是初步的，是作為一個(gè)方法的概念驗(yàn)證實(shí)施的。該數(shù)據(jù)池相對(duì)較小(極端組織三個(gè)月的社交媒體數(shù)據(jù)輸出)，而且分析使用了翻譯文字。盡管有初步的證據(jù)表明在這個(gè)分析過程中使用的翻譯軟件運(yùn)作良好，我們強(qiáng)烈質(zhì)疑分析結(jié)果的準(zhǔn)確性。本節(jié)的目標(biāo)是展示方法，不是使用該方法探索產(chǎn)生的某些特定發(fā)現(xiàn)。

注釋11：這個(gè)分析方法使用的數(shù)據(jù)是從SITE情報(bào)組織商業(yè)化訂閱的，該組織是一個(gè)從事伊斯蘭圣戰(zhàn)分子監(jiān)控和分析的實(shí)體組織。

為了演示說明，我們?cè)敿?xì)描述這個(gè)分析過程中的一個(gè)發(fā)現(xiàn)：當(dāng)我們使用探索性因子分析法尋找潛在的主題結(jié)構(gòu)時(shí)，我們發(fā)現(xiàn)ISIL和勝利陣線有3個(gè)因子（說服性主題、個(gè)人宣誓、共同關(guān)注的社會(huì)焦點(diǎn)問題），而基地組織的社交媒體數(shù)據(jù)有一個(gè)因子（技術(shù)性問題的竅門指導(dǎo)）。探索性因子分析法將一組變量間的相關(guān)性看作一個(gè)單一的潛在因子，通過數(shù)據(jù)集中的協(xié)方差，檢測(cè)其中的潛在性因子。在文本分析中，一篇普通的“當(dāng)你變老，它會(huì)更好”的演講可能看起來(lái)更像面向未來(lái)的積極談話和安慰性語(yǔ)言的交織。下面的例子勾勒了導(dǎo)致基地組織（AQAP）的公共社交媒體語(yǔ)言顯著區(qū)別于勝利陣線（al-Nusrah）和ISIL的幾個(gè)因子¹²。

注釋12：圣戰(zhàn)組織(Ansar Al-Sharia)沒有能探測(cè)到的因子——該組織的講話通常前后不一致，缺乏重復(fù)連貫的戰(zhàn)略。

阿拉伯半島基地組織的主題策略

基地組織（AQAP）顯著的判別因子是“信息性”（informational）：共享技術(shù)、概念性知識(shí)和報(bào)告重要事件。這主要源于從網(wǎng)絡(luò)空間作戰(zhàn)到規(guī)避熱探測(cè)的技術(shù)指導(dǎo)。例如：

這一幕顯示了一群圣戰(zhàn)分子在一條狹窄的通道里試圖躲避航空照像機(jī)的畫面，但是熱成像記錄儀清晰地顯示了他們的身體，特別是飛機(jī)在低空的位置時(shí)。因此，看來(lái)解決方案是對(duì)航空照像機(jī)隱藏身體的熱能。美國(guó)人將這項(xiàng)技術(shù)叫做熱絕緣。熱絕緣技術(shù)在我們很多的日常工具中都有應(yīng)用，比如熱水瓶。熱水瓶在內(nèi)部維持水的溫度不變，因?yàn)樗锩娴慕^緣材料能阻止熱量向外面逃逸。而且，電冰箱，或者也稱之為冷藏柜，保溫茶壺，或者恒溫的集裝箱等，都使用了熱絕緣的技術(shù)。

同樣的模式在信息報(bào)告中也可以見到：

上周四，在南也門阿比揚(yáng)省，一名胡塞武裝分子死于南也門阿比揚(yáng)省圣戰(zhàn)組織的狙擊。上周四的上午10時(shí)，阿比揚(yáng)省的圣戰(zhàn)組織新聞?dòng)浾邎?bào)道了該事件，伊斯蘭教圣戰(zhàn)者組織的一名成員狙擊了駐扎在阿比揚(yáng)省al-Mahfad地區(qū)的第39裝甲旅的一名士兵。

ISIL和勝利陣線（Al-Nusrah）的主題策略

ISIL和勝利陣線（al-Nusrah）有3個(gè)相同的潛在因子。與基地組織共享信息的技術(shù)方法不同，ISIL和勝利陣線（al-Nusrah）在社會(huì)文化領(lǐng)域勸導(dǎo)他們的聽眾時(shí)使用目的性很強(qiáng)的信息策略。

超越：前景更美好

勝利陣線（以及ISIL）使用類似的擴(kuò)張戰(zhàn)略。也許與直覺相反，他們的主導(dǎo)宣傳策略并不包括負(fù)面的或仇恨的言論，而是專注于正面價(jià)值和宣傳的熱烈的、面向未來(lái)的談話¹³。例如：

注釋13：與之相反，圣戰(zhàn)組織和ISIL不使用這種策略。

誰(shuí)想支持真主安拉、偉大和全能的神，就讓他宣誓效忠這個(gè)哈里發(fā)。誰(shuí)若希望真主的伊斯蘭教，偉大和全能的伊斯蘭教得到普世運(yùn)用，就讓他宣誓效忠這個(gè)哈里發(fā)。真主安拉、偉大和全能的神，現(xiàn)在就能分辨誠(chéng)實(shí)和謊言。

個(gè)人請(qǐng)求和宣誓

雖然ISIL的特征是不使用主語(yǔ)“我”講話，但是它和勝利陣線（aL-Nusrah）在表達(dá)人際間的請(qǐng)求意愿時(shí)也會(huì)使用“我”說話，例如像這樣一種有說服力的證詞¹⁴：

注釋14：這一策略從基地組織社交媒體談話中丟失了。

我對(duì)我提到的事實(shí)作證。我會(huì)強(qiáng)調(diào)我的眼睛所看到的，我的耳朵聽到的，我的心感知到的，我會(huì)告訴你我所學(xué)到的。第十：我問你，以真主安拉的名義，沒有上帝，只有他，把這個(gè)談話轉(zhuǎn)達(dá)給族長(zhǎng)和沙姆（敘利亞）及其他地區(qū)的領(lǐng)導(dǎo)人。

一條統(tǒng)一陣線

在這兩個(gè)組織的交流談話中另一個(gè)重要的潛在因子是社會(huì)承諾和包容性的“我們/我們的”談話的組合。這些演講經(jīng)常是重復(fù)性的（在阿拉伯語(yǔ)境中是真誠(chéng)的標(biāo)志），而且是非常依賴于宣誓效忠或忠誠(chéng)的理念：

以真主安拉的名義，最光榮的、最仁慈的伊斯蘭國(guó)，祈福真主阿布·貝克爾·巴格達(dá)迪，我們都誓言效忠于他，我們國(guó)家的埃米爾是勝利！伊斯蘭國(guó)家，祈福真主阿布·巴克爾·巴格達(dá)迪，我們都誓言效忠于他，國(guó)家的埃米爾，我們的國(guó)家，是勝利！他們正在爭(zhēng)取勝利！他們使用迫擊炮和機(jī)關(guān)槍來(lái)迫使他們所有人都下跪。我們的國(guó)家是勝利！伊斯蘭國(guó)家，祈福真主阿布·巴克爾·巴格達(dá)迪，我們都發(fā)誓效忠于他，國(guó)家的埃米爾，我們的國(guó)家是勝利！穆斯林，你準(zhǔn)備好了嗎？在經(jīng)歷了數(shù)百年的苦難之后你將獲得自由。我們的國(guó)家是勝利！

我們從這一概念驗(yàn)證分析中得到的啟示是：基于計(jì)算機(jī)來(lái)分析海量社交媒體數(shù)據(jù)能夠?yàn)樾畔?zhàn)諜報(bào)提供關(guān)于敵方信息交流方面的信息。在這種情況下，分辨出敵方采用的擴(kuò)張或主題性策略是有力的一個(gè)步驟，它能夠?yàn)橄魉偷姆粗铺峁┲С帧?/p>

自動(dòng)圖像分析：以眾包方式理解信息環(huán)境

該方法結(jié)合使用數(shù)據(jù)源地理信息和軟件來(lái)進(jìn)行圖像分類和地圖繪制，從而自動(dòng)化的對(duì)海量社交媒體數(shù)據(jù)集中的圖片分類和映射。最后，這有助于信息戰(zhàn)指揮員搞清楚當(dāng)?shù)孛癖娛裁聪敕ㄗ钪档梅窒恚ū热?，卡車照片、軍服、模因、卡通等），以及他們?cè)谑裁吹赜蚍窒硇畔ⅲ喝藗兿Ｍ谔囟ǖ牡攸c(diǎn)基于社交媒體分享什么樣的直觀的信息？而本章介紹的其他方法是試圖解決文本流問題——海量的文本數(shù)據(jù)超過了人的閱讀和分析能力——該方法為圖像數(shù)據(jù)提供同樣的解決方案，我們期望的這一數(shù)據(jù)類型只有隨著全球范圍移動(dòng)設(shè)備的普及和網(wǎng)絡(luò)容量的增長(zhǎng)才能在數(shù)量上持續(xù)增加。我們認(rèn)為該方法具有巨大潛力，主要基于以下理由：

?它主要面向遠(yuǎn)程數(shù)據(jù)采集，成本低，不會(huì)給其他資產(chǎn)帶來(lái)風(fēng)險(xiǎn)。

?它開發(fā)了一條額外的數(shù)據(jù)流，該數(shù)據(jù)流隨著社交媒體普及的增長(zhǎng)而增長(zhǎng)。

?它解放了專家進(jìn)行人工分析的時(shí)間和精力。

?影像能夠包涵豐富的文化信息，并且可能在識(shí)字率很低的區(qū)域具有特別寶貴的價(jià)值。

?這是一種眾包的方式，對(duì)信息環(huán)境非常重要：它將影像置于那些當(dāng)?shù)孛癖娬J(rèn)為值得分享的地方。

我們注意到，這是個(gè)區(qū)分信息戰(zhàn)和情報(bào)工作的很好的例子。該方法能作為宣傳作戰(zhàn)的一部分來(lái)使用（當(dāng)?shù)孛癖娮铌P(guān)心的文化和政治問題是什么？），但它能非常簡(jiǎn)單的用于搜集戰(zhàn)場(chǎng)情報(bào)（我們?cè)谀睦锬芸吹礁嗟挠糜诜窒淼奶箍?、卡車、武器和軍服的照片？）。將其區(qū)分為信息戰(zhàn)行動(dòng)的并不是方法，而是被問的問題和意圖。

第1步：搜集特定地域的社交媒體資料

該方法的第一步是通過地理標(biāo)記或地理推理¹⁵搜集本地的社交媒體數(shù)據(jù)。兩種選擇各有優(yōu)點(diǎn)：

注釋15：我們注意到移動(dòng)終端在各個(gè)國(guó)家有很大的不同，地理標(biāo)記和地理推理所用的數(shù)據(jù)量也會(huì)不同。因此，該方法的可用性在世界不同的地方也會(huì)有所不同。

?僅使用地理標(biāo)記的數(shù)據(jù)能得到地理位置的較高準(zhǔn)確度和細(xì)粒度。我們可以確切地知道社交媒體數(shù)據(jù)從哪里來(lái)，并在地圖上將該位置標(biāo)記為可能的分析部分（例如，城市或社區(qū)）。然而，由于大多數(shù)社交媒體數(shù)據(jù)都沒有地理標(biāo)記，這可能限制了用于分析的社交媒體數(shù)據(jù)的數(shù)量。而且由于游客往往會(huì)在移動(dòng)設(shè)備上打開地理定位功能，這也可能會(huì)導(dǎo)致他們的圖片使樣本產(chǎn)生偏差。

?地理推理（例如，在用戶的位置字段使用城市和省名）可以以較高水準(zhǔn)的地理精度來(lái)捕獲更多的數(shù)據(jù)。然而，它具有有限的粒度。在前面所述的在埃及社交媒體數(shù)據(jù)上跟蹤信息擴(kuò)散的例子中，80%的準(zhǔn)確率只是在國(guó)家區(qū)域的水平上。

基于這樣一組社交媒體數(shù)據(jù)，圖像的URL可以剝離出來(lái)，附帶有位置元數(shù)據(jù)的圖像數(shù)據(jù)可以搜集下來(lái)，留下一堆海量的未分類的當(dāng)?shù)孛癖娬J(rèn)為值得分享的圖像數(shù)據(jù)。下一步是使用計(jì)算工具對(duì)這些圖像進(jìn)行排序和分類。

第2步：自動(dòng)圖像分類

下一步是使用圖像分類軟件對(duì)圖像數(shù)據(jù)集進(jìn)行分類。在寫這篇文章的時(shí)候，深度神經(jīng)網(wǎng)絡(luò)（DNNs）是一種很有前途的方法，它將圖像分成若干個(gè)抽象的層次，附帶兩個(gè)說明：

?處理能力。不像前面討論的文本分析方法，圖像分類是一類需要大量計(jì)算的任務(wù)，如果要使圖像分類計(jì)算可行，就需要并行計(jì)算陣列（相對(duì)于單個(gè)桌面系統(tǒng)）的支持。在我們的例子中，搜集2周2015年推特和臉書中非洲范圍的帶有地理標(biāo)簽的共享圖像，會(huì)得到283000幅圖像。這需要大約三天時(shí)間的并行計(jì)算來(lái)處理。

?分類準(zhǔn)確性。在圖像分類的精確度和粒度之間存在一個(gè)平衡問題。在低層次的粒度上（例如“車輛”），目前的技術(shù)是非常準(zhǔn)確的。但是在更精細(xì)的粒度級(jí)別（例如，“坦克”和“卡車”），準(zhǔn)確性會(huì)降低。

第3步：繪制圖像

在這個(gè)過程的最后一步是使用繪圖軟件繪制這些圖像，可視化展示哪些組織在分享信息。而且由于這些數(shù)據(jù)有時(shí)間戳，我們也可以看到一段時(shí)間內(nèi)的變化。為了演示這種方法如何支持信息戰(zhàn)，可以考慮圖像數(shù)據(jù)怎樣指向關(guān)聯(lián)的社會(huì)文化和政治問題及其內(nèi)涵。在本節(jié)討論的分析方法中，分類器發(fā)現(xiàn)了許多“漫畫書”，最后發(fā)現(xiàn)是政治漫畫¹⁶。這類圖像和其他類別的圖像可能會(huì)在幫助了解本地信息環(huán)境、當(dāng)?shù)孛癖娺x擇共享什么內(nèi)容、以及從哪里共享這些圖像等方面有重要價(jià)值。

注釋16：這突出顯示了圖像分類軟件當(dāng)前的一些局限。雖然漫畫書和政治卡通書對(duì)人來(lái)說是兩類不同的體裁，但它們卻有相似的視覺特征。機(jī)器在進(jìn)行圖像分類時(shí)，使用不同的特征參數(shù)會(huì)有不同的開銷和限制。

圖3-4是使用深度神經(jīng)網(wǎng)絡(luò)（DNN）工具顯示自動(dòng)檢測(cè)圖像的屏幕截圖，根據(jù)目標(biāo)類別（政治漫畫、建筑和車輛）和地理定位形成的圖像共享地圖。

能夠直觀地看到在什么地方、以及多大密度上人群關(guān)注的某個(gè)社會(huì)問題正在被“討論”，是一種高效的方法來(lái)理解和發(fā)現(xiàn)信息環(huán)境中的動(dòng)態(tài)變化。

圖3-4 基于類型和地理位置的圖像共享

原文鏈接： https://www.rand.org/pubs/research_reports/RR1742.html 翻譯人員：劉江寧郭長(zhǎng)國(guó) 王曉斌

（部分文字、圖片來(lái)自網(wǎng)絡(luò)，如涉及侵權(quán)，請(qǐng)及時(shí)與我們聯(lián)系，我們會(huì)在第一時(shí)間刪除或處理侵權(quán)內(nèi)容。電話：4006770986 負(fù)責(zé)人：張明）

了解更多：

鷹擊早發(fā)現(xiàn)系統(tǒng)

鷹眼速讀網(wǎng)系統(tǒng)

點(diǎn)擊立即申請(qǐng)免費(fèi)試用

熱門文章換一換

輿情監(jiān)測(cè)關(guān)注問題換一換

標(biāo)簽云換一換