機器學習第一個不成文規定可說是牛頓原理？－《大演算》

2016 年 11 月 17 日

編按：本書作者佩德羅．多明戈斯（Pedro Domingos）認為：如果有人能整合五大演算法的優點，就可能研發出終極演算法。《大演算》旨在揭開大數據、人工智慧、機器學習的祕密，並且融合機器學習的五大學派，試圖找到一個能解開宇宙間所有問題的終極演算法。本文摘自此書第三章「人類的歸納問題」。談談機器學習的基礎概念：牛頓原理、合取概念，以及機器學習如何學習解釋數據學習資料。

在牛頓著作《原理》（Principia）一書中，除了描述他的三個運動定律，牛頓也確切闡明歸納的四條規則。雖然這些規則都遠不如物理定律來得知名，但它們可以說是一樣重要。其中最關鍵的規則是第三條，我們可以這樣釋意：

牛頓原理（Newton’s Principle）：無論我們所觀看到的事物為何，這一切必然都是真實的，這就是宇宙一切事物的各種真實現象。

毫不誇張地說，這種平淡無奇的說法，已成為牛頓學說革命與現代科學的核心。從巨觀到微觀物理學，克卜勒定律可以完全適用於六個星體。在他那個年代，已經知道太陽系的行星。牛頓定律則適用於宇宙中物質的每一個粒子。在一般性的原則下，這兩個定律之間的飛躍進展是令人震驚的，而且這是牛頓原理的直接影響結果。這個原理本身就是一個擁有驚人力量的知識學習機。沒有牛頓原理就沒有各種自然定律，只是一個永遠無法完整拼湊的小規律而已。

OLYMPUS DIGITAL CAMERA — *沒有牛頓原理就沒有各種自然定律，只是一個永遠無法完整拼湊的小規律而已。圖 / flickr, CC BY 2.0*

牛頓原理可說是機器學習的第一個不成文規則，依據這個原理，我們歸納出所能做到最廣泛適用的規則，只有當我們受限於數據資料時，才會迫使我們縮小其應用範圍。乍看之下，這可能看起來似乎過分自信可笑，但它已經為科學持續運作超過三百年之久。不過這當然是可以想像的，一個宇宙是如此多變且反覆無常，以至於牛頓原理可能會產生系統性失敗，但那一定不是我們的宇宙。

不過牛頓原理只是第一步。我們仍然需要弄清楚，什麼是我們觀察到的一切真實現象，如何從原始資料中探勘出規則定律。標準的解決方式，是假設我們知道真相的形式，而學習器的工作就是不斷地充實它。

舉例來說，在約會問題上，你可以假設你朋友的回答是由單一因素決定的，在這種情況下，機器學習只是包含檢查每個已知的因素（約會時間、約會的形式、天氣和電視節目），就可以看出是否這個假設能夠每次準確地預測出她的答案。當然這個問題不是上述任何因素可以回答的！你孤注一擲並且失敗了。

所以請你稍微放寬你的假設，是不是你朋友的答覆是由兩個因素的合取一起決定的？若有四個因素，每個因素有兩個可能的值，那麼至少也會有二十四種可能性必須檢查（有六對因素組合可以挑選，乘以每個因素的值都會有兩種選擇）。或許我們會有一種難為的窘境，因為有四組兩個因素的合取，正確地預測出結果！那該怎麼辦呢？

如果你有清晰的靈感，你可以選擇其中的一種，並且抱持樂觀的態度。話雖這麼說，另一個更明智選擇方式就是民主，透過開放投票的方式，選出獲勝的預測模式。

14039795375_9ab0ab752c_z — *稍微放寬你的假設，是不是你朋友的答覆是由兩個因素的合取一起決定的？圖 / flickr, CC BY 2.0*

如果全部兩個因素的合取都失敗了，你可以嘗試所有任意數量的因素合取；機器學習專家和心理學家稱之為「合取概念」（conjunctive concepts）。字典定義所謂的合取概念，是一張椅子由一個座部、一個椅背和一定數量椅腳所構成，這就是合取。如果將這些組合物件移除任何一件，那它就不再是一張椅子了。合取概念是源自托爾斯泰（Tolstoy）的想法，當時他在《安娜．卡列尼娜》（Anna Karenins）這本書的開篇句中寫道：「所有幸福的家庭都是一樣的，而每個不幸的家庭，則各有各的不幸。」

對每個人來說也是同樣的道理。要快樂，你需要健康、愛情、朋友、金錢，以及你所喜歡的工作等，如果拿走其中任何一項要素，那痛苦必隨之而來。

在機器學習領域，一個概念的機器學習樣本，被稱為正類別機器學習樣本，而反例則被稱為負類別機器學習樣本。如果你想學會如何識別影像圖片中的貓，那麼貓的影像圖片就是正類別機器學習樣本，而狗的影像圖片就是負類別機器學習樣本。如果你蒐集了一個來自世界文學家庭的資料庫，那麼安娜．卡列尼娜會是一個幸福家庭的負類別機器學習樣本，只有少數幾個珍貴的正類別機器學習樣本而已。

1089567053_946f4ad172_z — *如果你想學會如何識別影像圖片中的貓，那麼貓的影像圖片就是正類別機器學習樣本，而狗的影像圖片就是負類別機器學習樣本。圖 / flickr, CC BY 2.0*

典型的機器學習具有嚴謹的假設，如果它們無法解釋數據學習資料，那麼就會逐步地放寬假設限制，這個過程通常是由學習器自動完成，不需要人為操控任何協助。首先，它會嘗試從單一因素，然後逐步增加第二個因素的合取，再來是加入第三個因素的合取，依此類推。但是我們容易碰到一個問題：有很多的合取概念，根本無法理想化的測試所有的組合。

就以上述約會案例討論，就是有點運氣成分，因為它是屬於非常小型個案（四個變數和四種範例）。但現在假設你要經營一個線上交友服務，你需要找出哪一對可以進行配對。如果你系統的每個用戶已經填寫好一份調查問卷，回答了五十個是或否的問題，那麼每位潛在的配對對象，會有一百種屬性用以描述其特性，從每位準情侶的成員那裡，取得五十份調查問卷。然而根據已經在約會並回報結果的情侶資料，你可以找到所謂「理想伴侶」概念的合取定義嗎？那會有3¹⁰⁰ 種可能定義需要去嘗試（對於每一個屬性會有三種選項：是、否、不是概念的一部分）。

即使用世界上最快的電腦，當你完成推算時，情侶可能早已不復存在，而你的公司也會破產，除非你運氣好，用一個很短的定義，竟然中了大獎。因為有這麼多的規則、這麼有限的時間，所以我們需要做一些更聰明的媒合模式。

這是一種方法，減輕你的疑慮，假設所有的配對都是好的，嘗試將不具備某些屬性的所有配對人選排除。先針對每個屬性重覆進行這個過程，並排除最糟糕的配對人選，以及最不相配的人選後，選擇可能配對對象。你的定義看起來像是說：「當男生個性是外向的，這便是優先一個好配對。」然後添加評估屬性，逐步排除不符的配對人選，最後選擇出一個配對對象。或許最後的篩選條件已修正為：「男生的個性必須是外向的，而且女生也是如此，這便是一個好的配對。」

緊接再添加第三個屬性到之前的兩個裡，依此類推。直到你能排除各組合配對人選，只剩最後一對，你就大功告成了：最終取得一個符合正類別機器學習範例樣本，並排除所有負類別機器學習範例樣本，就能具體歸納此概念定義。舉例來說，「只有當他們倆人的個性都是外向的，其中他是一位愛狗人士，而她不是一位愛貓人士，這一對便是好的配對。」現在你可以丟棄資料，並且只保留這個定義，因為它封裝了所有與你的目的相關的定義。

這個演算法保證可以在合理的時間內完成配對，這就是我們在這本書中，第一個例舉的實際學習過程！

《大演算》書封