鄭國威專欄 / 巨量資料（Big Data）帶來的民權爭議

2012 年 08 月 06 日

巨量資料不會侵略你的生活，但對這些資料用途缺乏管理就是另外一回事了。問題並不在於資料量的龐大，而是在於分析資料的方式和運用。過去數十年裡，資料庫的特性有三種，一是即時迅速，二是內容龐大，三是資訊多元；要具備其中兩種特點很容易，但要三者兼具就必須花費非常高昂的成本。然而，現在有Hadoop等雲端運算平台，大幅降低了分析資料的成本，也帶來了資料運用的變革和商業經營的新模式。

以往資料不易收集，企業必須先決定要收集的資料內容和方向，才開始著手進行收集資料的工作。傳統的企業資料倉儲可能是以銷售商品的顏色、尺寸、販售地區進行分析追蹤，在展開收集前就先制定資料庫綱要（schema），也就是說，在一開始就先決定了資料收集的方向和用途。

然而，現在的企業能夠取得大量的資料，因此資料庫綱要反而是在資料收集完成後才決定。Splunk、Palantir等資料分析軟體之所以成功，就是因為能夠在收集資料後進行有效的整合分析。這意味著在決定資料該如何運用之前，所有的資訊早已收集完備了。

這是一件相當危險的事情。

美國銀行曾試圖限制特定地區居民的房貸申請，而後遭到國會阻擋，立法明文禁止因申請人的種族而拒絕貸款。法律可以禁止歧視，但是當「個人化」成為歧視的另一個樣貌，該怎麼辦？我們沒有歧視你哦，我們只是根據對你的了解為你量身打造專屬服務。舉個例子，美國運通曾經因為在某處刷卡消費的信用卡客戶還款記錄不良，以此為由調降了其他在該處刷卡的客戶的信用額度，不論對方信用記錄多麼良好。從這裡開始可以看到無限上綱的趨勢，從信用卡額度到你的汽車保險費用，都可以套用同樣的邏輯；巨量資料的使用成為了民權議題，但社會大眾卻還不知道該如何處理。

巨量資料的分析結果，還可能被用在更讓你意想不到的地方。美國知名交友網站OKcupid在2010年發表過一篇文章，內容是他們在分析比對不同族群特有的用詞習慣，整理出一份關鍵字清單，只憑你的用語就可以推測出你的種族或性別。現在反過來推想看看，從你發布的文章、臉書、或推特的內容，就能知道你的喜好、性別、種族，甚至是你的宗教信仰和性向，接下來，得到這些資訊的企業就可以針對你設計出一套正中紅心的行銷策略。

這就完全演變成民權問題了。

如果我收集你喜歡的音樂類型資訊，你可能會認為這是用來作為向你推薦歌曲的參考依據，但我卻是用這些資料推測你的種族背景，然後因此拒絕你的貸款申請。

另一個例子是單單使用公開的姓名資料分佈圖就可以產生出劃分種族界線的倫敦地圖。想跟同族人住在一起？

那麼我們究竟該如何控制資料的運用？正確的方式是設法將資料的性質和用途連結在一起。比方說，我可以聲明我的音樂愛好只提供做為歌曲推薦的參考，和我的銀行信用無關。要將資料和個人許可綁在一起需要透過加密，缺點是處理速度緩慢、牽扯到數位權利管理（DRM）、麻煩不易推行、並且不利於創新。或者也可以透過立法，但這仍然不容易執行。

資料量化的社會，在食衣住行育樂各方面都能帶來諸多改善，例如偵測傳染病爆發、改善學生學習方式、揭露政治上的朋黨黑幕、替通勤者省下數以億計的開支，在這個面臨人口、犯罪、和能源危機等難題的時代，這是我們無法忽略的益處。但政府同時也必須考慮、檢視對於資料內容的倚賴和平衡，同時避免因此侵害隱私、造成民權和道德問題。這是大多數選民從來沒有想到的，但卻與我們息息相關。

延伸觀看：
TED大會上Malte Spitz針對電話公司擁有的個人資料之詳盡以及其用途不明提出批評：