曾有個演算法比 Google 更容易凸顯網頁內容評價，為什麼它最後輸了？－《演算法星球》

2016 年 11 月 09 日

人物Ｘ趨勢

編按：演算法隨著網路與電腦的普及無所不在，是現代人無法忽視的思考方式。＜演算法星球＞一書中，作者用各種簡單風趣的案例來解釋演算法是什麼？又與從電話簿裡找號碼、搜尋引擎的原理、幫孩子分蛋糕以及為想婚男女配對等挑戰有何關係？本文選自該書第 5 章「仙境」，既然到了演算法星球，怎麼能不談搜尋引擎的演算法呢？

隨機遊走：他在那裡流連徘徊，那裡就很「重要」。Google 的網頁排名（級別）功能就是這麼運作的。圖片來源：《演算法星球》

Google 把一個網頁的連結理解為「推薦文」。獲得許多推薦文的人，就擁有一定程度的聲譽，他所給的推薦也相對有力。至於只是給出許多推薦文的人，他的推薦則相對普通。Google 評價網頁的方式，和我們評估一位員工在公司中的權力強弱相同，這就是所謂的網頁排名，這也是 Google 的核心。大部分的現代搜尋引擎都是建立於網頁排名之上。所以就技術而言，Google 不是沒有競爭對手的。

反網頁排名

網頁排名好在哪裡？好在它運作成功。

推薦文的直覺或是隨機遊走觸及到一個網頁的機率，都是能讓人們試試網頁排名準確性的極佳方法。其實不只 Google，今日所有領先的搜尋引擎，都運用了類似網頁排名並以網絡為基礎的判準，這就是它們在實務上的成功關鍵。因此，每一個網頁上的更新，都得拿來和排名較量一下才行。

有沒有可能以完全不一樣的方式運作呢？當然可能。

1998 年，出現了兩個關於如何從眾多連結網絡中，把網頁的重要性引發出來的建議。其中一個是 Google 搜尋引擎最早使用的方法，這方法是由 Google 創辦人賴利．佩奇（Larry Page）與謝爾蓋．布林（Sergey Brin）所提出。另一個建議則出現在喬恩．克萊因伯格（Jon Kleinberg）於世界最著名的演算法學術會議所發表的研究中，被克萊因伯格稱為「集線器與機關」（Hubs and authorities）或「超連結引發之主題網頁檢索名次排序法」（hyperlink-induced topic search），簡稱 HITS。

今天我們想知道一些資訊時會說：「Google 看看！」而不是「希登看看！」，和上述三位人物的人生抉擇有非常大的關係。克萊因伯格並沒有將他的方法發展成一個企業。（今日他不是佩奇、布林等級的億萬富翁，而是最傑出的資訊科學家，並任職康乃爾大學。或許他的人生規劃比較理想。）

克萊因伯格當年想要與佩奇、布林做同樣的事，亦即從眾多連結的結構中找出網頁的重要性。這兩種方法都期待在這個結構裡，重新辨識出其他人曾做過有關內容的評價。HITS 還多運用了一個小技巧，讓內容評價更容易被顯現出來。這個小技巧背後的想法是：誰最可以鑑定一位作家的價值和份量呢？是另一位作家嗎？作家其實最能勝任這個任務，有時也能公正評價同行。至於評論家、出版者以及文學研究學者，許多人一輩子都在做這些事。

人們偏愛使用評論家所給的評價，這些評價基本上都思慮完整，甚於詢問過作家本人。這類分立現象存在於許多領域：設計師與時尚雜誌、記者與編輯部、學者與大學、勞方與資方、消耗品製造商與二手雜誌等等。一方是機關，也就是被評價內容的來源，如作家本身；另一方則是集線器（hubs），負責蒐集評價，就如評論家的角色。

依照 HITS 的邏輯，你不需要是位優秀的作家，才能評論其他作家，你只要是一位備受肯定的評論家就行了。因此每個網頁都會有兩種評價，一個從機關而來，另一個則來自於集線器。一個網頁的機關級別，依據連結到該網頁的集線器網頁級別而定；而網頁的集線器級別，也相對按照連結到該網頁的其他機關網頁級別而定。如此看來，HITS 比網頁排名好，然而為什麼 HITS 沒有成功呢？HITS 在很久以後才被落實在搜尋引擎中，但當時 Google 已經漸趨完善，市場實力也已經非常雄厚了。（可以這麼猜測，Google 測試過 HITS，但是結果不如預期。）

事實上，HITS 有個技術性缺點。Google 所有的網頁排名已在資料庫中準備好了，只要一個搜尋問題被提出，重要的網頁就會被調出來，按照網頁排名整理後送出。HITS 的兩個評價級別則依賴著彼此的搜尋關鍵字，當搜尋問題出現的那時刻，才開始進行計算，如此一來工作量就太大，變得太麻煩了。此外，也還有一個概念上的問題。HITS 附加了一個引導進入集線器與機關的結構，當問題不同時，這個結構就不一樣，以至於它在許多狀況下，可能是根本無法存在的。（有時候結構少，反而能帶來更多啟發。）

(八旗)0UAL0012演算法星球-正封+書腰72