大數據（Big Data）是什麼？｜PanX 每週單字

2016 年 03 月 14 日

大數據就像青少年之於性：每個人都在說，但卻沒人真的知道怎麼做；每個人都覺得其他人在用大數據，所以每個人都說他們在用大數據。

上面這句話出自於美國經濟學者 Dan Ariely。近年來，不論是 IT 產業、行銷界或者學界，針對大數據（Big data，或又稱巨量資料）的討論相當多，但也因為大數據涵蓋的範圍太廣泛，每個人對大數據的定義又各自存在歧義，因此對其抽象概念和實際運作總有種似懂非懂的感覺。大數據儼然成為二十一世紀的新都市傳說，每個人都在說，也不知道誰真的看過（誤）。

簡單來說，大數據就是規模非常、非常龐大的數位資訊，這些資料量巨大到無法藉人工和現有科技來儲存、傳送和分析，進而促使人們研發出更高階的資料儲存設備和科技。而大部份對大數據的解釋，皆有下列四個特性：

Volume：累積的巨大的資料量。
Variety：資料形式的多樣性，包括文字、影像、社群訊息、搜尋行為等等。
Velocity：快速的傳輸速度。
Veracity：為確保資料的真實性與正確性，分析過程相當重要。

大數據發展史：資訊爆炸才正要開始

「Big Data」的概念是 IBM 於 2011 年提出的，當時 IBM 為了介紹他們做創立的資料庫，便在 Twitter 上發表了「#IBMbigdata」的 hashtag。

但大數據其實不是近年新穎的產物，早在 1960 年代，歐洲粒子物理研究中心（CERN）的科學家們就開始面對資料擴張的挑戰了，後來大數據才走出科學開發領域，應用在醫學、天氣學、預估商業情勢等等，這也是我們直到現在才聽聞大數據的原因。

科學研究機構不再是大數據的唯一權威，各個領域皆開始搜集大數據資料，例如遍及全球的行動網路裝置、地面或空中攝影機、儲存或發表於網路的資料，以及網路使用者活動等數以萬計的數位記錄器。

從書寫時代開始，人類就不斷地蒐集資料。大數據的概念，正是因應了數位時代中不斷累積的各式資訊而生，科技的發展也讓資訊量不斷暴增。專家預測，到了 2020 年，資料量將會是 2009 年的 44 倍，個體使用者所製造的資訊將占所有資訊量的 70%，企業將會儲存搜集 80% 的總資訊量，而屆時會有三分之一的數據將依靠雲端運算。

大數據的應用：大數據其實沒那麼大

尚未經過整理的資料稱為「非結構資料」（unstructured data），例如存於網頁的文字、影像，或記錄器蒐集到的網路行為，而受惠於科技網路的便利和開放資料的興起，非結構資料變得更加容易取得和分析。以近年大幅進展的人工智慧來說，語言處理、行為模式辨認和機器學習（Machine Learning）等技術，便能運用在許多領域上。

其中，機器學習便是大數據分析的一種方法，給予電腦大量的「訓練資料（Training Data）」，機器再從中找出規律，學習如何將資料分類。

面對著浩瀚似海的數據，該拿它怎麼辦呢？專攻機器發明和人工智慧的林守德教授認為，關鍵在於如何從巨量資料中，找出真正能解答問題的部分。

「從應用的角度來說，定義問題才是最關鍵的第一步，才能進一步判斷要使用哪些數據來解答？或是需要多大多小的數據來處理？」

決定什麼問題要使用大數據解決是首要之務，再來找出這個問題適合由哪些數據來回答，否則，運算再高階的電腦或是再高效的演算法都派不上用場。以自動駕駛汽車為例，當系統要預測某個路段下一個小時的車流量，需要採用什麼數據？需要其他路段的流量資料做搭配嗎？

然而，不是所有公司都像 Facebook 和 Google，一般公司沒有那麼多的經費、高階技術和時間來蒐集分析數據。雖然資料運算需要大量的數據，但仍可透過設計新的運算法和選擇不同的「訓練資料」（Training Data）來提升運算效率，「遷移學習」（transfer learning）便是許多公司運用的技術。

大數據在當今最關鍵的問題，是如何從繁而雜的資訊中找出真正有用的部分。對於資訊工作者來說，設計出有決策能力的軟體，以輔助人們做出決策，是一項重要的課題和任務。

參考資料：

封面圖片來源：pexels