留言討論


分享本文至 E-mail 信箱

機器學習第一個不成文規定可說是牛頓原理?-《大演算》

2016 年 11 月 17 日
  • 編按:本書作者佩德羅.多明戈斯(Pedro Domingos)認為:如果有人能整合五大演算法的優點,就可能研發出終極演算法。《大演算》旨在揭開大數據、人工智慧、機器學習的祕密,並且融合機器學習的五大學派,試圖找到一個能解開宇宙間所有問題的終極演算法。本文摘自此書第三章「人類的歸納問題」。談談機器學習的基礎概念:牛頓原理、合取概念,以及機器學習如何學習解釋數據學習資料。

在牛頓著作《原理》(Principia)一書中,除了描述他的三個運動定律,牛頓也確切闡明歸納的四條規則。雖然這些規則都遠不如物理定律來得知名,但它們可以說是一樣重要。其中最關鍵的規則是第三條,我們可以這樣釋意:

牛頓原理(Newton’s Principle):無論我們所觀看到的事物為何,這一切必然都是真實的,這就是宇宙一切事物的各種真實現象。

毫不誇張地說,這種平淡無奇的說法,已成為牛頓學說革命與現代科學的核心。從巨觀到微觀物理學,克卜勒定律可以完全適用於六個星體。在他那個年代,已經知道太陽系的行星。牛頓定律則適用於宇宙中物質的每一個粒子。在一般性的原則下,這兩個定律之間的飛躍進展是令人震驚的,而且這是牛頓原理的直接影響結果。這個原理本身就是一個擁有驚人力量的知識學習機。沒有牛頓原理就沒有各種自然定律,只是一個永遠無法完整拼湊的小規律而已。

OLYMPUS DIGITAL CAMERA
沒有牛頓原理就沒有各種自然定律,只是一個永遠無法完整拼湊的小規律而已。圖 / flickr, CC BY 2.0

牛頓原理可說是機器學習的第一個不成文規則,依據這個原理,我們歸納出所能做到最廣泛適用的規則,只有當我們受限於數據資料時,才會迫使我們縮小其應用範圍。乍看之下,這可能看起來似乎過分自信可笑,但它已經為科學持續運作超過三百年之久。不過這當然是可以想像的,一個宇宙是如此多變且反覆無常,以至於牛頓原理可能會產生系統性失敗,但那一定不是我們的宇宙。

不過牛頓原理只是第一步。我們仍然需要弄清楚,什麼是我們觀察到的一切真實現象,如何從原始資料中探勘出規則定律。標準的解決方式,是假設我們知道真相的形式,而學習器的工作就是不斷地充實它。

舉例來說,在約會問題上,你可以假設你朋友的回答是由單一因素決定的,在這種情況下,機器學習只是包含檢查每個已知的因素(約會時間、約會的形式、天氣和電視節目),就可以看出是否這個假設能夠每次準確地預測出她的答案。當然這個問題不是上述任何因素可以回答的!你孤注一擲並且失敗了。

所以請你稍微放寬你的假設,是不是你朋友的答覆是由兩個因素的合取一起決定的?若有四個因素,每個因素有兩個可能的值,那麼至少也會有二十四種可能性必須檢查(有六對因素組合可以挑選,乘以每個因素的值都會有兩種選擇)。或許我們會有一種難為的窘境,因為有四組兩個因素的合取,正確地預測出結果!那該怎麼辦呢?

如果你有清晰的靈感,你可以選擇其中的一種,並且抱持樂觀的態度。話雖這麼說,另一個更明智選擇方式就是民主,透過開放投票的方式,選出獲勝的預測模式。

14039795375_9ab0ab752c_z
稍微放寬你的假設,是不是你朋友的答覆是由兩個因素的合取一起決定的?圖 / flickr, CC BY 2.0

如果全部兩個因素的合取都失敗了,你可以嘗試所有任意數量的因素合取; 機器學習專家和心理學家稱之為「合取概念」(conjunctive concepts)。字典定義所謂的合取概念,是一張椅子由一個座部、一個椅背和一定數量椅腳所構成,這就是合取。如果將這些組合物件移除任何一件,那它就不再是一張椅子了。合取概念是源自托爾斯泰(Tolstoy)的想法,當時他在《安娜.卡列尼娜》(Anna Karenins)這本書的開篇句中寫道:「所有幸福的家庭都是一樣的,而每個不幸的家庭,則各有各的不幸。」

對每個人來說也是同樣的道理。要快樂,你需要健康、愛情、朋友、金錢,以及你所喜歡的工作等,如果拿走其中任何一項要素,那痛苦必隨之而來。

在機器學習領域,一個概念的機器學習樣本,被稱為正類別機器學習樣本,而反例則被稱為負類別機器學習樣本。如果你想學會如何識別影像圖片中的貓,那麼貓的影像圖片就是正類別機器學習樣本,而狗的影像圖片就是負類別機器學習樣本。如果你蒐集了一個來自世界文學家庭的資料庫,那麼安娜.卡列尼娜會是一個幸福家庭的負類別機器學習樣本,只有少數幾個珍貴的正類別機器學習樣本而已。

1089567053_946f4ad172_z
如果你想學會如何識別影像圖片中的貓,那麼貓的影像圖片就是正類別機器學習樣本,而狗的影像圖片就是負類別機器學習樣本。圖 / flickr, CC BY 2.0

典型的機器學習具有嚴謹的假設,如果它們無法解釋數據學習資料,那麼就會逐步地放寬假設限制,這個過程通常是由學習器自動完成,不需要人為操控任何協助。首先,它會嘗試從單一因素,然後逐步增加第二個因素的合取,再來是加入第三個因素的合取,依此類推。但是我們容易碰到一個問題:有很多的合取概念,根本無法理想化的測試所有的組合。

就以上述約會案例討論,就是有點運氣成分,因為它是屬於非常小型個案(四個變數和四種範例)。但現在假設你要經營一個線上交友服務,你需要找出哪一對可以進行配對。如果你系統的每個用戶已經填寫好一份調查問卷,回答了五十個是或否的問題,那麼每位潛在的配對對象,會有一百種屬性用以描述其特性,從每位準情侶的成員那裡,取得五十份調查問卷。然而根據已經在約會並回報結果的情侶資料,你可以找到所謂「理想伴侶」概念的合取定義嗎?那會有3100 種可能定義需要去嘗試(對於每一個屬性會有三種選項:是、否、不是概念的一部分)。

即使用世界上最快的電腦,當你完成推算時,情侶可能早已不復存在,而你的公司也會破產,除非你運氣好,用一個很短的定義,竟然中了大獎。因為有這麼多的規則、這麼有限的時間,所以我們需要做一些更聰明的媒合模式。

這是一種方法,減輕你的疑慮,假設所有的配對都是好的,嘗試將不具備某些屬性的所有配對人選排除。先針對每個屬性重覆進行這個過程,並排除最糟糕的配對人選,以及最不相配的人選後,選擇可能配對對象。你的定義看起來像是說:「當男生個性是外向的,這便是優先一個好配對。」然後添加評估屬性,逐步排除不符的配對人選,最後選擇出一個配對對象。或許最後的篩選條件已修正為:「男生的個性必須是外向的,而且女生也是如此,這便是一個好的配對。」

緊接再添加第三個屬性到之前的兩個裡,依此類推。直到你能排除各組合配對人選,只剩最後一對,你就大功告成了:最終取得一個符合正類別機器學習範例樣本,並排除所有負類別機器學習範例樣本,就能具體歸納此概念定義。舉例來說,「只有當他們倆人的個性都是外向的,其中他是一位愛狗人士,而她不是一位愛貓人士,這一對便是好的配對。」現在你可以丟棄資料,並且只保留這個定義,因為它封裝了所有與你的目的相關的定義。

這個演算法保證可以在合理的時間內完成配對,這就是我們在這本書中,第一個例舉的實際學習過程!


《大演算》書封

 

start

關於作者


PanX 泛科技

PanX 泛科技新聞網從科技議題著手,企圖把未來更清楚地描繪出來。從能源議題、金融科技、生物科技,到物聯網、大數據、工業4.0、自造者,都是我們專注的內容。若有任何見解歡迎向我們聯絡或投稿:contact [at]panx.asia

留言討論


網站更新隱私權聲明
本網站使用 cookie 及其他相關技術分析以確保使用者獲得最佳體驗,通過我們的網站,您確認並同意本網站的隱私權政策更新,了解最新隱私權政策