北京時間10月23日消息,《紐約時報》網絡版近日刊載哈佛大學經濟學博士研究生賽斯·史蒂文斯-大衛德維斯(Seth Stephens-Davidowitz)的文章稱,谷歌可以說是美國選舉季節中的“水晶球”。史蒂文斯-大衛德維斯在文中表示,他使用從數百萬次谷歌搜索得來的匿名綜合數據來對敏感話題的變量進行了衡量,這些搜索數據來自于美國數以百計的媒體市場。以下是這篇文章的全文。
在每個選舉季節中,民意測驗專家都會嘗試推定一場尚未發生的選舉中選民的人口統計學構成;但在每一個選舉季節中,民意測驗專家都會遭遇有關他們預測錯誤的指責。共和黨對2012年的民意測驗提出了批評,稱其假設非洲裔美國人參與選舉的人數仍將維持在2008年的水平;民主黨則批評稱,2012年的民意測驗假設非洲裔美國人參與選舉的人數將低于以前的水平,而這只是人口統計學數據的類別之一。
選民人數是很難預測的,原因是人們不愿承認自己不會投票。據最近公布的一項估測數據顯示,在最終不會投票的選民中,有三分之二會在此前向民意測驗專家稱其將會投票。
在我從事的經濟學工作中,我使用從數百萬次谷歌搜索得來的匿名綜合數據來對敏感話題——比如說種族、毒品交易而兒童虐待等——的變量進行了衡量,這些搜索數據來自于美國數以百計的媒體市場(Media Market)。在這些話題上,人們傾向于不太樂于提供消息。
我的研究顯示,通過對今年截至目前為止的選舉相關信息的谷歌搜索次數與此前選舉季節中可比日期的搜索次數作出的對比,我們或許已可對2012年大選的人口統計學構成有很好的理解。雖然谷歌搜索無處不在,而且搜索者已經顯示出在谷歌上分享真實感覺和毫無拘束的想法的意愿;但在政治分析中,美國人在進行搜索時會輸入什么信息則仍舊令人驚訝地處于未被充分利用的狀態。不過,谷歌經常都能提供在其他地方所無法獲得的洞察力。
從我們已知的信息來看,有些搜索查詢是很傻的。在每個月中,都有大約5000人會通過谷歌查詢(美國總統共和黨候選人)米特·羅姆尼(Mitt Romney)的內衣褲選擇(羅姆尼是摩門教徒,而虔誠的摩門教徒會穿廟宇服裝)。在2008年的大選日,大約有百分之一的谷歌搜索查詢請求中都包含“Obama”(奧巴馬)這一關鍵字,而同時還包括“KKK”(3K黨)或“nigger”(黑鬼)等關鍵字。
人們的思想經常都會是很膚淺的。就目前而言,“光身保羅·萊恩”(Paul Ryan shirtless,萊恩是共和黨議員,副總統候選人)的搜索查詢量要比“保羅·萊恩預算”(Paul Ryan budget)高出9倍。不要問我為什么,但有一個事實是在藍州(民主黨領先的州)中,“光身保羅·萊恩”的谷歌搜索查詢量要高于紅州(共和黨領先的州)。當人們以“米歇爾·奧巴馬”(Michelle Obama)為關鍵字進行搜索時,同時加入關鍵字“丑”(ugly)的搜索查詢量要比同時加入關鍵字“美”(beautiful)多兩倍。
政治家可以通過觀察候選人在谷歌上被叫做什么來判定其在特定地域中的人氣度。在藍州中,“奧巴馬”的搜索查詢量要更高一些,但在紅州中“巴拉克·侯賽因·奧巴馬”(Barack Hussein Obama)的搜索查詢量會更高一些——正如在藍州中“威拉德·米特·羅姆尼”(Willard Mitt Romney)的搜索查詢量會更高一些那樣。
與此同時,一個州的用戶通過谷歌搜索“奧巴馬笑話”(Obama jokes)的次數也對2008年總統大選另一名候選人約翰·麥凱恩(John McCain)的得票比例作出了幾近完美的預測。在愛荷華州和俄亥俄州,“羅姆尼笑話”(Romney jokes)的搜索查詢量很高,這種“笑話”主要集中在羅姆尼的財富上。在這兩個州里,羅姆尼一直都面臨著難以與工薪階層選民取得聯系的困境。
谷歌的搜索數據還給出了其他的一些證據,表明最后關頭的傳言在2008年大選中起到了負面效果,導致奧巴馬在奧克拉荷馬州、田納西州和肯塔基州等多個州的最終民意調查中的得票表現略微下滑。谷歌搜索數據提供了一種相當有趣的相關性:在這些州里,“奧巴馬穆斯林”(Obama Muslim)的搜索查詢量是最大的。這些搜索查詢量在當年的整個夏天和秋初都不是很大,但在競選活動的最后幾天時間里則大幅增加,那時許多最終民意調查都已經結束。
將人們通過谷歌進行搜索的時間與外部事件進行比對經常都會是一件很有趣的事情。在麥凱恩令人爭議地選擇時任阿拉斯加州州長的薩拉·帕林(Sarah Palin)為競選伙伴的當天,“麥凱恩預期壽命”(McCain life expectancy)這一關鍵字的搜索查詢量上升至前所未有的水平。在帕林接受凱特·庫里克(Katie Couric)采訪時,這一搜索查詢量又再次上升。
谷歌的搜索數據可能還有助于我們對2012年大選的人口統計學構成作出預測。在投票意向這一方面,選民有可能會有組織地欺騙民意測驗專家;但實際上會參與選舉的選民更有可能在選舉以前搜索“如何投票”或“到哪里投票”等關鍵字。
在10月中旬以前對“vote”或“voting”等關鍵字的谷歌搜索查詢量進行統計,然后將其與四年以前同期的數字進行對比,就可預測參與選舉的人數是將增加、持平還是下降。在2008年10月份的上半個月時間里,如果投票信息的搜索次數高于2004年10月份上半個月時間里的次數,那么2008年選舉季節里的投票率也將高于2004年。對于中期選舉來說,這一規律也同樣適用。如果在2010年10月份的上半個月時間里,有關投票信息的搜索次數高于2006年10月份的上半個月,那么2010年的投票率也會傾向于高于2006年。
與我們用來預估地區級別的選舉參與人數的其他變量(比如說登記率的變化,或是早期投票程序中的活動等)所具備的預測能力相比,谷歌搜索能提供的這種預測能力要高得多。通過對搜索查詢量與地區級別的人口統計學數據進行對比的方式,我們能利用這種信息來對不同人口統計學群體的選舉參與率作出預測。
為了說明這種方式是如何運作的,不妨設想一下,在2008年的這個時候,谷歌搜索數據原本會向我們展示些什么。在那個月中,投票相關信息的搜索次數略微低于2004年10月份的水平;但是,就谷歌搜索查詢量高于四年以前的州而言,那些州幾乎都是非洲裔美國人所占比例最高的州——北卡羅來納、喬治亞和密西西比州等。而在這些州的內部,非洲裔美國人較多的媒體市場——比如說北卡羅來納的洛利杜罕都會區(Raleigh-Durham)、喬治亞州的奧古斯塔(Augusta)和密西西比州的杰克遜(Jackson)等——從2004年10月份到2008年10月份之間的投票相關搜索查詢量的增幅是最高的。舉例來說,杰克遜媒體市場上的非洲裔美國人所占比例為47%,其搜索查詢量的增幅為56%。
換而言之,通過對谷歌搜索數據進行分析的方式,我們原本可以做出一種不會令人感到吃驚的、而且最終會被證明是正確的預測,即與2004年相比,2008年中參與選舉活動的黑人比例會大幅增加。
這種方法原本還能準確地預測到西班牙裔美國人參與選舉活動的比例會略微增長。在西班牙裔美國人所占比例較高的某些地區中,2008年通過谷歌來搜索投票相關信息的查詢量比2004年有所增長,只不過這種正比關系不象在非洲裔美國人中表現的那樣有力而已。
2008年10月份中的谷歌搜索數據并未正確預見到選民的年齡構成。在大選以前,有人宣稱奧巴馬的得票率將導致年輕選民人數大幅增加;但在那一年的10月份,在18歲到34歲之間的年輕人所占比例的媒體市場——比如說佛羅里達州的蓋恩斯維爾(Gainesville)和鹽湖城等——上,通過谷歌搜索來尋找投票相關信息的查詢量并未出現很大的增長。在2008年中,年輕選民人數的增幅不像原本預期的那樣高。
那么,在今年10月份到目前為止的時間里,谷歌搜索對2012年大選給出了什么樣的提示信息呢?幾乎沒有證據表明,今年的選民比例對民主黨或是共和黨更加有利,這與2008年時谷歌搜索給出的信息有所不同。跟往常一樣,谷歌搜索數據表明有些地區的選民人數將會有所增加,而有些地區則將減少。有趣的是,2012年俄亥俄州的選民人數預計將高于2008年和2004年。
當然,未來還有兩個星期的時間能供選民進行搜索。而且,我正在使用的這種方法是一種全新的方法,還有許多的不足之處。但是,到目前為止我們所看到的不同之處看起來還無法讓我們預計人口統計學數據會發生很大的改變,從而對大選的結果造成重大的影響。
平均來說,在黑人人口比例最高的地區中,今年通過谷歌搜索來尋找投票相關信息的查詢量與2008年類似,而不是與2004年類似。通過這一衡量標準來看,看起來民意測驗專家應該假設今年黑人選民所占比例類似于2008年的水平,當時非洲裔美國人在選民中所占比例為12%,而2004年為11%——對于奧巴馬來說,這應該是個好兆頭。
但從谷歌搜索的數據來看,對羅姆尼而言也有好消息:在愛達荷瀑布市(Idaho Falls)和鹽湖城這兩個摩門教徒人口比例最高的媒體市場上,投票相關信息的搜索查詢量有所增加。雖然愛德華茲和猶他州都并非“搖擺州”,但摩門教徒選民人數的增加可能在兩個重要的“搖擺州”中對羅姆尼形成幫助,即內華達州(7%摩門教徒)和科羅拉多州(3%摩門教徒)。
羅姆尼的支持者可能還會對一個事實感到高興,那就是在福音派信徒人數比例最高的某些地區中,投票相關信息的搜索查詢量也同樣有所增加。舉例來說,谷歌搜索數據預測,德克薩斯州的盧博克市(Lubbock)和肯塔基州的帕迪尤卡(Paducah)的選民人數都有可能會有所增長。這可能會減弱共和黨內部的一種擔憂情緒,即福音派選民人數將會由于對羅姆尼信仰摩門教心存疑慮而有所減少。
谷歌搜索數據顯示,幾乎沒有證據表明選民的年齡構成會發生重大改變:在18歲到34歲之間年輕人所占比例較高的地區中,投票相關信息的搜索查詢量沒有發生重大的變化,這一人群傾向于支持奧巴馬;在65歲或以上的老年人所占比例較高的地區中,搜索查詢量同樣也沒有很大變化,這一部分選民則傾向于支持羅姆尼。
2012年10月份到目前為止,西班牙裔人口所占比例較大的地區中的搜索查詢量與2008年10月份同期相比略有減少。雖然奧巴馬比羅姆尼在西班牙裔美國人中更受歡迎,但到目前為止,這種相關性的規模還比較小,因此不會讓奧巴馬感到非常擔心。在未來兩個星期中繼續監控谷歌搜索數據可能會告訴我們,這是否會變成奧巴馬競選活動中一個更加令人擔心的因素。
奧巴馬的對手們希望,2012年的選民將不會象2004年的選民那樣支持民主黨。而我對谷歌搜索數據作出的早期分析表明:不要指望那一點。 |