大數據(Big Data)是什麼?|PanX 每週單字
大數據就像青少年之於性:每個人都在說,但卻沒人真的知道怎麼做;每個人都覺得其他人在用大數據,所以每個人都說他們在用大數據。
上面這句話出自於美國經濟學者 Dan Ariely。近年來,不論是 IT 產業、行銷界或者學界,針對大數據(Big data,或又稱巨量資料)的討論相當多,但也因為大數據涵蓋的範圍太廣泛,每個人對大數據的定義又各自存在歧義,因此對其抽象概念和實際運作總有種似懂非懂的感覺。大數據儼然成為二十一世紀的新都市傳說,每個人都在說,也不知道誰真的看過(誤)。
簡單來說,大數據就是規模非常、非常龐大的數位資訊,這些資料量巨大到無法藉人工和現有科技來儲存、傳送和分析,進而促使人們研發出更高階的資料儲存設備和科技。而大部份對大數據的解釋,皆有下列四個特性:
- Volume:累積的巨大的資料量。
- Variety:資料形式的多樣性,包括文字、影像、社群訊息、搜尋行為等等。
- Velocity:快速的傳輸速度。
- Veracity:為確保資料的真實性與正確性,分析過程相當重要。
大數據發展史:資訊爆炸才正要開始
「Big Data」的概念是 IBM 於 2011 年提出的,當時 IBM 為了介紹他們做創立的資料庫,便在 Twitter 上發表了「#IBMbigdata」的 hashtag。
但大數據其實不是近年新穎的產物,早在 1960 年代,歐洲粒子物理研究中心(CERN)的科學家們就開始面對資料擴張的挑戰了,後來大數據才走出科學開發領域,應用在醫學、天氣學、預估商業情勢等等,這也是我們直到現在才聽聞大數據的原因。
科學研究機構不再是大數據的唯一權威,各個領域皆開始搜集大數據資料,例如遍及全球的行動網路裝置、地面或空中攝影機、儲存或發表於網路的資料,以及網路使用者活動等數以萬計的數位記錄器。
從書寫時代開始,人類就不斷地蒐集資料。大數據的概念,正是因應了數位時代中不斷累積的各式資訊而生,科技的發展也讓資訊量不斷暴增。專家預測,到了 2020 年,資料量將會是 2009 年的 44 倍,個體使用者所製造的資訊將占所有資訊量的 70%,企業將會儲存搜集 80% 的總資訊量,而屆時會有三分之一的數據將依靠雲端運算。
大數據的應用:大數據其實沒那麼大
尚未經過整理的資料稱為「非結構資料」(unstructured data),例如存於網頁的文字、影像,或記錄器蒐集到的網路行為,而受惠於科技網路的便利和開放資料的興起,非結構資料變得更加容易取得和分析。以近年大幅進展的人工智慧來說,語言處理、行為模式辨認和機器學習(Machine Learning)等技術,便能運用在許多領域上。
其中,機器學習便是大數據分析的一種方法,給予電腦大量的「訓練資料(Training Data)」,機器再從中找出規律,學習如何將資料分類。
面對著浩瀚似海的數據,該拿它怎麼辦呢?專攻機器發明和人工智慧的林守德教授認為,關鍵在於如何從巨量資料中,找出真正能解答問題的部分。
「從應用的角度來說,定義問題才是最關鍵的第一步,才能進一步判斷要使用哪些數據來解答?或是需要多大多小的數據來處理?」
決定什麼問題要使用大數據解決是首要之務,再來找出這個問題適合由哪些數據來回答,否則,運算再高階的電腦或是再高效的演算法都派不上用場。以自動駕駛汽車為例,當系統要預測某個路段下一個小時的車流量,需要採用什麼數據?需要其他路段的流量資料做搭配嗎?
然而,不是所有公司都像 Facebook 和 Google,一般公司沒有那麼多的經費、高階技術和時間來蒐集分析數據。雖然資料運算需要大量的數據,但仍可透過設計新的運算法和選擇不同的「訓練資料」(Training Data)來提升運算效率,「遷移學習」(transfer learning)便是許多公司運用的技術。
大數據在當今最關鍵的問題,是如何從繁而雜的資訊中找出真正有用的部分。對於資訊工作者來說,設計出有決策能力的軟體,以輔助人們做出決策,是一項重要的課題和任務。
參考資料:
- WIKIPEDIA-Big Data
- The Age of Big Data
- Big Data and the History of Information Storage
- Big Data Doesn’t Exist
- 運用海量資料讓機器「自學」,電腦將成為更好的決策代理人–專訪台大資工教授林守德
留言討論