留言討論


分享本文至 E-mail 信箱

泛知識節紀實:資料科學如何分析紀錄,達成公共服務?

  • 文/何品謙|一個不做死就不會死的專業打醬油,煩惱自己越發壓縮的睡眠時間。

在 2016 年泛知識節現場,在切入正題介紹資料科學之前,作為「DSP 智庫驅動」資料科學家的謝宗震,先為觀眾做了簡單的科普,「所謂資訊科學,便是以科學方法分析人類活動和自然現象的紀錄,來解決真實世界的問題。」但並非這世界上所有的資料,都能被確實的記錄,遠古的山洞壁畫可能隨著時間過去而消失在歷史之中。

然而隨著科技的進步,所有的資料將逐漸趨近於真實世界的模樣,縮小資料與真實的差距。而資料包含︰巨量資料(Big data)、開放資料(Open data)等等。

資料科學的限制

「公司多半是因為生意下滑才會想到我們資料科學家,」謝宗震笑著說,「然而資料的好壞常常影響到我們分析結果的多寡。舉漢堡店來說好了,店家想知道哪種漢堡賣的最好,但若是店家僅僅紀錄了每日漢堡販售的總數,資料科學對此就無能為力了,還不如詢問店員來得快。」這便是資料科學的極限,數據化的紀錄總會喪失部份訊息,多半肇因於資料的詳實與否或紀錄品質。

資料品質將影響之後的分析、報表、決策指標,如何控管資料品質便成了一項重要的課題,而「資料儀表板」便是規劃品管規則的好工具。

謝宗震提到︰「資料儀表板最重要的目的在於視覺化呈現資料,並讓組織中的不同團隊能共享資料,共同提昇素養;同時減少我們資料科學家在報表的需求,也能初步展現我們的價值所在。」

大數據意示圖。pixabay:xresch

資料科學的實際應用

「這邊是高雄市 2015 年火災火警件數統計,」謝宗震指著投影片說︰「火災和火警的區別在於,如果火警沒有即時處理便會釀成火災。而表中可見火災有 61 件,但火警卻高達 4269 件,對於如此大量的案件,如何優化人力配置便成了當務之急。」

在與高雄市消防局合作的過程中,對方面臨的挑戰包含︰缺乏資料分析相關技能、資料過於分散或需要其他政府機關的資料、長官對於此次「不保證成功」嘗試的支持程度等等,那所以該怎麼做?

美國紐澳良市一直以來都有免費的煙霧警報器可安裝,然而當地住戶會實際前往領取後回家安裝的並不多,因此當地政府機關在西元 2014 年末時,開始直接上門提供安裝服務,同時也對民眾進行火災宣導。紐澳良政府在分析了當地可能導致火災的原因,如︰居民所得、建物指標、租屋指標等等之後,終於成功建立統計模型並發放 8000 個煙霧警報器。

事後,當地政府機關表示,“Nothing we did required big data or fancy machines or big tech investments. We are a city of less than 400,000 [residents] and we are strained for resources. If we can do it, anyone can do it.” 於是火災風險地圖的建立,隨後擴展到全美 178 個城市。

那台灣可以怎麼做?

「所以我們提出了一項『資料英雄計畫』,」謝宗震說︰「集結民間企業、資料工程師、學生等等,利用三個月的共同工作時間一同完成,具備高社會影響力並可再利用的資料科學專案。」

如高雄市的火災風險地圖在完成之後,便指出火警風險指數最高的前五大地區,分別是楠梓區翠屏里、左營區福山里、大寮區中庄里、前鎮區草衙里和大寮區山頂里。「很多消防員都對分析的結果深表同感,但在結果出來之前他們往往也不能明確指出火警頻繁的區域。」

做了這麼多專案,謝宗震提到︰「其實最難的還是建立和利害關係人的信任,希望能透過資料英雄計畫,和資料甚至是跨領域的人才,解決更多公共服務的問題。」

大數據。pixabay:xresch

關於作者


泛知識節

從「科學太重要了,所以不能只交給科學家」,到「科學家太重要了,所以不能只懂科學」,再到「知識太重要了,所以不能讓它關在牆裡」,「泛知識節」為泛科知識召集之年度大型活動,承繼 PanSci 泛科學年會的精神與架構,邀請「科學」「科技」「娛樂」「旅行」四個領域的專家與耕耘者,一同談說、分享、攻錯。 這是一個大型的舞台,我們在此治茶拂席,虛位以待,請你上座。

留言討論


網站更新隱私權聲明
本網站使用 cookie 及其他相關技術分析以確保使用者獲得最佳體驗,通過我們的網站,您確認並同意本網站的隱私權政策更新,了解最新隱私權政策