大數據專題（一）／資料科學如何解決真實世界的問題？

2016 年 06 月 14 日

所有文章

文／陳妤寧

將 Big Data 回歸資料科學的本質，除了資訊工程之外，「統計」這個學門在 Big Data 時代能夠如何讓「數據」發揮更大價值？而在相信數據的無所不能之前，如何檢驗資料的可靠性、確定資料能解決的問題極限、甚至判斷結果背後的統計方式？本次專題邀請到清華統計所博士後研究員謝宗震，同時也是以推廣資料科學為目標的社會企業「DSP 智庫驅動」的知識長，分享如何透過資料科學解決真實世界的問題。

隨著時代演進的資料科學－大、雜、快、疑

「數據是人類活動的歷史記錄，透過資料科學『以古鑑今』是追求進步的捷徑。」謝宗震說，一般來說，談及現今的資料科學或是 Big Data 都會提到 3 + 1 個特性：大、快、雜、疑。隨著科技的發展，人類活動的軌跡越來越能夠被詳實記錄，譬如人們瀏覽電子新聞、購物商城的軌跡，人與人在社群網站的互動過程，人在操作汽車、電視、冷氣的習慣…等等。這種進步就好比是從一幅自畫像進步到一張照片，再到一部電影，現在甚至已經發展到近乎 24 小時不間段的實境節目。在人類活動被無時無刻記錄的同時，資料的量級爆炸性的成長，有一說：「現今世上的資料等於一個人每天 24 小時不停觀看超過 2 千億部的 2 小時 HD 電影，必須花上 4700 萬年才能看完。」

「Data Mining 是解析數據的方法，他的精神是連結不同來源的資料並挖掘價值，而不只是單一資料表分析而已。」謝宗震說，資料採礦（Data Mining）打從 1980 年代就伴隨高科技產業降生，台灣民間也在大約十五年前開始出現 Data Mining 的相關課程和協會，發展的一大關鍵在於資料倉儲的發展，使得「存取不同來源的大量資料」變得越來越便利。

以量販店的資料為例，就包括了產品庫存、發票銷售資料、產品擺放的順序、促銷資料、員工出勤資料……各式各樣的資料可能都儲存在不同的部門、不同的資料庫。除此之外，網路上各種影片、音樂、等難以量化或沒有標準欄位的資料的出現，也讓資料儲存的類型變得更為複雜。

在資料存儲的「巨量性」與「多樣性」之外，因應電子商務時代對「時效性」的要求，運算速度的需求也隨之提高。以著名的電話辨識 app「Whoscall」為例，為了協助使用者在接起電話之前，判別陌生來電是否為其他使用者回報的詐騙或騷擾電話，「Whoscall」必須在短短幾秒內告訴使用者這通電話該不該接。「資料越來越龐大，要讓使用者能在短時間內獲得反饋，提昇電腦計算能力和簡化演算方式就成為重要的發展方向。而後者正是統計人在資料科學中的任務。」謝宗震說。

除了「大」、「雜」、「快」，大數據近年還出現了第四個特性－「疑」，也就是指資料的「可靠性」問題。如果無法先檢驗資料的品質和來源，一味的把搜集到的數據趕快送進運算模型，「那麼只是『Garbage in, garbage out』。」

舉例來說，當我們希望利用社群網站上的討論資料來分析選舉情勢，例如哪個候選人的討論度較高、討論是以正評還是負評居多。在此之前應該先關心網路上的討論者都是哪裡來的？如果這些討論者根本不隸屬於這個選區、甚至這些討論其實源出於機器人、殭屍，那麼這些「品質不佳」的資料就無法有力計算出具有參考價值的候選人支持度。

那麼，具體來拆解資料科學，可以分成哪些工作階段和角色？

資料科學的生命循環，交給四種角色通力合作

資料科學的生命循環，可對應到四種不同的角色。

「資料產品經理人」負責將真實世界的問題轉換成資料可以解決的問題，通常是該問題領域的專業人士；「資料工程師」負責蒐集、整理、清理資料，通常是具備程式技術能力的工程師；「資料分析師」負責資料建模和分析，通常由擅長找出資料關聯的統計人擔當；「資料視覺化設計師」的任務則是要將報表變得簡明易懂。

「每種角色各有專精，但只有整合訓練、了解彼此的領域重點為何，才能形成完整的資料科學家的視野或團隊。」正因如此，由 Code for Tomorrow 孵化出來的社會企業「DSP 智庫驅動」，在設計資料科學的課程也更注重讓不同角色的「資料人」能夠在此學習和資料產品經理人、資料工程師、統計分析師、資料視覺化設計師合作，形成團隊共同進行專案實戰，幫助非營利組織和企業激發資料價值。

謝宗震以自己參加過的 Code for Healthcare 工作坊為例，實際說明資料科學的生命循環。小組成員包含：氣爆受災戶、救災人員、醫護人員、資料科學家、視覺設計師。小組研究的主題為高雄八一氣爆意外後的救護資訊，重大災難發生的當下，第一線消防人員如何得知高高屏地區醫院的急診室承載量，進一步決定如何把傷患送往哪間醫院？決定設計問題的第一步後，小組蒐集高高屏地區資料庫中每五分鐘更新的急診室資料，包括外科醫生人數、病患人數、傷患嚴重程度、呼吸器和各種設備的數量……。

當欄位都蒐集好，接下來才是真正試算：如果意外現場有三十個人受傷，那麼最佳路徑下應該優先送到哪間醫院？如果高高屏地區滿載，是否應向北去找台南醫院協助？有些醫院雖然略遠，但是否在急診室不用排隊？當運算模型完備，最後可由資工專業寫成 app，提供給救護單位使用。

不過在踏入分析之前，謝宗震認為先練習「資料思考」更為重要，所謂先認識再交往，面對資料也要先多做評估，後續展開的分析才會更順利。

先了解資料的「極限」，才能展開有效分析

在建立模型、著手分析之前，如何蒐集、整理資料有著同等的重要性。手上資料能提供的訊息若不足以解答問題，那麼貿然展開分析便是緣木求魚。謝宗震說：「在 DSP 智庫驅動的課程中，我們會拿 YouBike 的公開資料當做上課教材，有些學員希望分析每個使用者從 A 點到 B 點會花多少時間，進一步替週遭店家推播廣告。然而 YouBike 提供的資料僅有『每個站點在每五分鐘有幾台車被騎走』，而沒有詳細的路線資訊。因此除非回過頭去徵求開放更多更精細的資料，目標問題是無法獲得解答的。」

謝宗震分享自身經驗：「在上課的時候，我們遇過最多學員的動機和問題是：『我不知道公司的資料要怎麼用，但資料科學很紅，我應該來進修。』所以我們將課程稍作微調，讓學員先練習『資料思考 Data Thinking』、了解資料能解決問題的極限在哪裡。舉例來說，如果我是一家希望分析手上銷售資料的速食店，但萬一銷售資料沒有記錄漢堡的類別，我就不可能找出人氣漢堡！」

當大數據時代幾乎能「海納百川」地計算海量的資料，傳統的「抽樣」方法以及必須隨之處理的「抽樣誤差」問題，是否就能夠一概免除？

「很多書都會說，既然 Big Data 能蒐集並運算所有的資料的情況下，就能免除抽樣誤差的煩惱，但資料只是真實世界的片段，不可能透過資料完整反應真實世界。」謝宗震跳出大數據本位，直率地分析數據的極限。「就以台北市選舉的網路意見調查為例，可能很多發言者根本不設籍在台北市；而很多只是『潛水』閱讀而沒有公開發言的人，也不會形成資料；更甚者，有很多人可能連上網的能力都尚不具備！」

統計在做什麼？分析建模讓資料分析結果更精緻

目前資料科學領域中，統計人的身影遠少於資工人，謝宗震怎麼看待統計人在資料科學中的價值？他認為關鍵在於演算模型的建立，這個模型可用每個輸入值（x，Input）對應輸出值（f(x)， Output）的函數關係來理解，資料被丟進此黑盒子進行運算，最後得出分析結果，而黑盒子中的方程式或各種演算法，就是統計建模的核心。「如果單純使用平均數或簡易的算法當然也能做出結果，但精緻度是不同的。」而分析建模正是統計的優勢所在。

為了要得到品質好、有代表性的資料，整理資料的過程也需要統計建模的幫忙，例如當問卷欄位上出現缺漏值，「有些人就是不喜歡填身高、體重、和心得，但如果他們有填寫其他題項，就能運用建模來反推可能的缺漏答案。」種種功夫，都是為了在正式展開分析之前，能夠確保資料品質能具有真正的參考價值。

除了計算資料，統計也能幫助我們更好地判讀資料。因為同樣一筆資料，透過不同的統計方法，可能得出天差地遠的結果，進而影響我們對於數據分析的認知立場。

統計在做什麼？洞察數據背後玄機，不同計算方式兩樣情

一般人看到充滿說服力的統計數字時，很容易忽視統計過程中所使用的方法，而直接相信算出來的「結果」。以「貧富差距」報告為例，比較「最富和最貧的年收入差距」是很有感的指標，但是倍數怎麼算，背後其實大有不同的算法。在不同的計算方式之下，一模一樣的原始數據，可能得出「6.08 倍」和「99.39 倍」這兩種相距甚大的年收入差距。

「要計算『最富有的那群人』和『最貧窮的那群人』的差距，可以依每戶綜所稅申報所得分成五等分，擷取最富和最貧的 20%，再將兩群的平均值相除得 6.08。另一方面，也可以將人們分成二十等分，以最富最貧的 5% 計算得 99.39 倍，而美國、日本、澳洲以及國際組織如 CIA、OECD 的計算方式則為 10%。無論如何，當取樣的比例分別是 5%、10% 或 20% 的時候，就會出現不同的統計結果。人們可以選出對自己最有利的計算方式。」

要更精準、更客觀的研究貧富差距，其實不能只看一兩個指標就下判斷。「較好的作法是連續比較 5%、10%、20% 一直到 50% 的差異為何，才能看的出演變趨勢。例如若以 20% 為標準時今年相對於去年的貧富差距變小、10% 時貧富差距上升，那麼代表中等富有和中等貧窮的群族差距拉近了、然而極端富有和極端貧窮的人反而差距更大了。」在貧富差距這個議題中，貧和富能分成更多種，進行更細緻的討論。而對不熟悉統計的一般人來說，至少可以學習注意兩件事：

一、伴隨數字後面的「單位」是什麼？二、同一筆資料存在著不同的算法，在相信結果之前，應先留心它是如何被算出來的，而不是讓自己被數字牽著鼻子走。

總之，「資料是真實世界的一部分，指標是資料的一部分，一種指標只是反應資料的某一種面向，並不代表全部，唯有清楚知道指標的特質才能貼近真實。」

談了這麼多統計人的身懷絕技，但在 Big Data 時代，統計人會遇到什麼挑戰、應該如何自我調適才能充分大展身手？

面對 Big Data 時代，統計人要如何讓自己發揮價值？

「統計這門學科在每個時代都可以『玩資料』，有問題、有資料，就能建立模型分析問題。」謝宗震說，然而現在的 Big Data 時代，統計人難以好整以暇地等客戶捧上問題和資料再著手分析，資料「反客為主」，許多時候連客戶也不一定知道他想問的問題是什麼，統計人必須更主動參與第一線，甚至規劃如何蒐集資料，而非面對已經固定欄位的資料庫一籌莫展。如果統計人無法習慣處理非結構化的第一線資料，就如同打不開冰箱的廚師，拿不到食材，就更別談烹調出美味的食物了。

以電子商務領域為例，商家充滿各式各樣的疑問：要如何促進買氣？要推播給會員什麼廣告？廣告應該放在網站中的那個位置效果會最好？統計人應當參與更多第一線規劃蒐集資料的細節，然而現在設計網站與資料欄位的人卻少有統計學家的蹤影。

「促銷應該統計過去一周賣的最好的前十名商品、還是消費者最想買的前十名商品？要計算廣告成效，應該以點擊率、還是最後轉換的購買率或購買金額為標準？」要得出更細緻的答案，就需要統計人更大程度的參與。若能從中改善使用者體驗，也就能搜集到更好的資料、做出更好的解讀。讓大數據不只是躺在資料庫中，而能走入真實世界，解決更多的真實問題。

封面圖片來源：Intel Free Press @Flickr, CC lisenced.