留言討論


分享本文至 E-mail 信箱

資料看到的社會痛苦指數: 當有人必須隱藏自己性向時(上)—《我們是誰?大數據下的人類行為觀察》

2016 年 10 月 12 日

編按:一般談到大數據只談商機和操控。其實,巨量數據正透露出人類以為四下無人時,我們是什麼樣子,我們想的、說的、做的,其實都不一樣。《我們是誰?大數據下的人類行為觀察》一書中,作者提出的概念是,數據科學家成為新的人類學家,數據能透露的訊息,遠比我們想像中多,因此許多社會或政治上的爭辯,也可透過數據證實,而非以訛傳訛或自以為是,也因為透過分析數據,我們得以看出人類的心理,建構人類的故事。本文選自該書第 11 章。

幾年前,兩位麻省理工學院的學生為了上課報告,運用臉書資料做出了有「同志雷達」(gaydar,能夠偵測同志的雷達)效果的軟體。這個軟體的道理其實很簡單:想猜某人是不是同志,看朋友就知道。

woman-1594711_640
圖片來源:geralt @ pixabay

軟體很快就發現,只要某位男性的朋友群達到一定的同志比例,就能大致可靠推斷他的性向;而且,這種方法完全不需要知道該位男性本人的任何直接資料。正如《波士頓環球報》當時所言:「光是因為在線上交了什麼朋友,就可能讓使用者自動『出櫃』。」這兩個學生使用已知個人資料操練軟體後,軟體辨認某位男性是否為同志的正確率約有 78%,而一切只需要使用者的社交圖。這個成功率相當高,想想看如果只是瞎猜的話,猜對是同志的成功率大概會有多少呢?10%?2%?8%?π/2%?

重點正在於此!這些大學生一開始之所以想做這個程式,是因為沒人知道究竟同性戀占總人口多大比例。過去的各種估計向來差異極大。一九四八年的《金賽性學報告》首次以科學方式提出相關數字,結果認為同性戀約占男性 10%、女性 6%,令許多古板保守派大驚失色。至於之後的研究多有政治因素,而且靠的若不是調查,就是實驗室裡的人為設定環境,結果就是結論高低落差極大,從 1% 到 15% 都有!

我們現在可以走另一條更好的路,得到更精準的估測值。估測是否準確之所以重要,是因為就像某個研究裡講得委婉:「這項研究能有益於公共政策。」自一九五二年以來,美國總統大選只有四次的差距在 5% 以上,所以究竟這批選民占的比例是 1%、5% 或 10%,就會是個政治算計極重要的問題。當然,想知道同性戀人數並不是出於道德考量(就算全美國只有一位同性戀,他/她應得的權利也不該有所不同),而是出於簡單的實際現實:政策的決定必須看實際人數規模。

8940596225_08fc030a63_z
Mayor McGinn @ Flickr

此外,對於一個在歷史上不斷背負烙印的族群來說,如果能有一份有力的資料,就能代表群體發聲,說出個人無法說的話:我是真實存在這裡的人。同性戀是一種比較不尋常的少數族群,假如他們覺得有必要,至少在表面上完全可以與異性戀一模一樣。但這必然是懸於自我保護和自我表達之間的痛苦抉擇,異性戀很少需要做此考量。

然而,除了顯然的個人成本之外,這種「櫃子」也會造成社會成本,因為只要他們不站出來,舊觀念就不會受到挑戰,而偏見如果一直不受到挑戰,只會千秋萬世。種種偏狹逼得人們隱藏起來之後,會創造出惡性循環:有一大群人無法得到認同的時候,只會更加促進這個族群的邊緣化。但在另一方面,讓大家看見他們,就能鼓勵社會接受他們。就算我們選用較低的預測值,同性戀族群也不會比天生金髮的人(大約占總人口的 2%)更不尋常。事實上,同性戀似乎要常見得多了。目前,只是因為能接受的人少,因此同性戀常常被迫離開視線。大家下一次拿起名人雜誌時,可以再想想這件事。

回到資料本身,Google Trends 再次證明它能夠揭露那些人們敢做不敢說的事。根據谷歌的研究員史帝芬斯.德維道維茲表示,全美搜尋色情內容的查詢當中,有 5% 找的是他所稱「男同性戀的描寫」,查詢內容包羅萬象,從最直截了當的「gay porn」(同志色情)到相關的「rocket tube」(一個熱門的同志色情網站)都算在內。更重要的是,這個一比二十的比率,不管在哪一州都相當一致,代表著同性慾望並不受政治和宗教環境的影響。

這種全美一致的現象,具有幾項重大意義。第一,這能推翻那些認為同性戀絕非遺傳的說法。如果連像密西西比州和麻薩諸塞州這麼不同的環境,搜尋同志色情的比例都如此相當,等於強力證明了外界因素對於同性間的吸引力,幾乎無法造成什麼影響。

至於第二個意義,則需要一點時間才能看出來:這裡告訴我們的不見得是關於同志本身,而是關於民眾偏狹而不寬容的態度。二○一三年初,納特.西爾弗(Nate Silver)還任職於《紐約時報》,負責政治主題。他用自己著名的民調建模技術,預測全美各地的同性婚姻提案投票結果。過去他曾將這套方法應用於預測總統大選,能夠收集資料,瞭解各州民意的大致樣貌,再透過前瞻分析,猜測這些態度可能如何演變。西爾弗估計,到了二○二○年,同性婚姻會在四十四州都通過合法。

西爾弗的這項研究是根據政治民調,而有趣的地方在於與它相關的另一項資料來源:各州民眾在蓋洛普調查裡呈報的自身性向。以下用自行呈報為同志的數字,比對西爾弗最新預測能夠接受同性婚姻的各州資料。我針對各州的同志婚姻現況加以編碼,另外也標出幾個離群值(outliers)。
206

水平軸為西爾弗的資料,可以看到最不寬容的州為密西西比州(MS),而最寬容的是羅德島州(RI)。垂直軸則是蓋洛普的資料,數字範圍從北達科他州(ND)的 1.7% 到夏威夷州(HI)的 5.1%。從趨勢線的斜率可以看出,各州對同志接受度愈高,呈報自己是同志的比例就愈高。值得注意的是,如果一直將虛線延伸到 100% 支持同志婚姻(也就是從統計上想像一個完全包容同志的完美未來世界),會發現在沒有社會壓力的情況下,大約有 5% 的人口會呈報自己是同志。這也是由谷歌搜尋所推測出來的數字,而谷歌正是一個確實沒有社會壓力的地方。

此外,這條趨勢線的意義,並不表示同志自然會去住在比較友善的環境。從各州搜尋同志色情內容的數字十分穩定一致,以及臉書的使用者遷居資料,就能夠證實並非如此。比較同性戀臉書用戶的家鄉及現居地,會發現用「遷居」來解釋上面提到蓋洛普調查的同志比例在各州不同,並無法完全成立。同志不會單單因為所在州是否對同志寬容,就決定要搬家。一方面,這證明了家庭、成長過程和慣性的牽絆。但另一方面,也意味著就算有一個人願意收拾行囊,前往舊金山或紐約活得自由自在,很可能同時就有數十個人,仍然住在不得不否定自己的地方。

關於作者


泛科選書(PanBooks)

PanX 泛科技新聞網從科技議題著手,企圖把未來更清楚地描繪出來。從能源議題、金融科技、生物科技,到物聯網、大數據、工業4.0、自造者,都是我們專注的內容。若希望有任何書籍合作歡迎向我們聯絡:contact [at] panx.asia

留言討論


網站更新隱私權聲明
本網站使用 cookie 及其他相關技術分析以確保使用者獲得最佳體驗,通過我們的網站,您確認並同意本網站的隱私權政策更新,了解最新隱私權政策