曾有個演算法比 Google 更容易凸顯網頁內容評價,為什麼它最後輸了?-《演算法星球》
- 編按:演算法隨著網路與電腦的普及無所不在,是現代人無法忽視的思考方式。<演算法星球>一書中,作者用各種簡單風趣的案例來解釋演算法是什麼?又與從電話簿裡找號碼、搜尋引擎的原理、幫孩子分蛋糕以及為想婚男女配對等挑戰有何關係?本文選自該書第 5 章「仙境」,既然到了演算法星球,怎麼能不談搜尋引擎的演算法呢?
Google 把一個網頁的連結理解為「推薦文」。獲得許多推薦文的人,就擁有一定程度的聲譽,他所給的推薦也相對有力。至於只是給出許多推薦文的人,他的推薦則相對普通。Google 評價網頁的方式,和我們評估一位員工在公司中的權力強弱相同,這就是所謂的網頁排名,這也是 Google 的核心。大部分的現代搜尋引擎都是建立於網頁排名之上。所以就技術而言,Google 不是沒有競爭對手的。
反網頁排名
網頁排名好在哪裡?好在它運作成功。
推薦文的直覺或是隨機遊走觸及到一個網頁的機率,都是能讓人們試試網頁排名準確性的極佳方法。其實不只 Google,今日所有領先的搜尋引擎,都運用了類似網頁排名並以網絡為基礎的判準,這就是它們在實務上的成功關鍵。因此,每一個網頁上的更新,都得拿來和排名較量一下才行。
有沒有可能以完全不一樣的方式運作呢?當然可能。
1998 年,出現了兩個關於如何從眾多連結網絡中,把網頁的重要性引發出來的建議。其中一個是 Google 搜尋引擎最早使用的方法,這方法是由 Google 創辦人賴利.佩奇(Larry Page)與謝爾蓋.布林(Sergey Brin)所提出。另一個建議則出現在喬恩.克萊因伯格(Jon Kleinberg)於世界最著名的演算法學術會議所發表的研究中,被克萊因伯格稱為「集線器與機關」(Hubs and authorities)或「超連結引發之主題網頁檢索名次排序法」(hyperlink-induced topic search),簡稱 HITS。
今天我們想知道一些資訊時會說:「Google 看看!」而不是「希登看看!」,和上述三位人物的人生抉擇有非常大的關係。克萊因伯格並沒有將他的方法發展成一個企業。(今日他不是佩奇、布林等級的億萬富翁,而是最傑出的資訊科學家,並任職康乃爾大學。或許他的人生規劃比較理想。)
克萊因伯格當年想要與佩奇、布林做同樣的事,亦即從眾多連結的結構中找出網頁的重要性。這兩種方法都期待在這個結構裡,重新辨識出其他人曾做過有關內容的評價。HITS 還多運用了一個小技巧,讓內容評價更容易被顯現出來。這個小技巧背後的想法是:誰最可以鑑定一位作家的價值和份量呢?是另一位作家嗎?作家其實最能勝任這個任務,有時也能公正評價同行。至於評論家、出版者以及文學研究學者,許多人一輩子都在做這些事。
人們偏愛使用評論家所給的評價,這些評價基本上都思慮完整,甚於詢問過作家本人。這類分立現象存在於許多領域:設計師與時尚雜誌、記者與編輯部、學者與大學、勞方與資方、消耗品製造商與二手雜誌等等。一方是機關,也就是被評價內容的來源,如作家本身;另一方則是集線器(hubs),負責蒐集評價,就如評論家的角色。
依照 HITS 的邏輯,你不需要是位優秀的作家,才能評論其他作家,你只要是一位備受肯定的評論家就行了。因此每個網頁都會有兩種評價,一個從機關而來,另一個則來自於集線器。一個網頁的機關級別,依據連結到該網頁的集線器網頁級別而定;而網頁的集線器級別,也相對按照連結到該網頁的其他機關網頁級別而定。如此看來,HITS 比網頁排名好,然而為什麼 HITS 沒有成功呢?HITS 在很久以後才被落實在搜尋引擎中,但當時 Google 已經漸趨完善,市場實力也已經非常雄厚了。(可以這麼猜測,Google 測試過 HITS,但是結果不如預期。)
事實上,HITS 有個技術性缺點。Google 所有的網頁排名已在資料庫中準備好了,只要一個搜尋問題被提出,重要的網頁就會被調出來,按照網頁排名整理後送出。HITS 的兩個評價級別則依賴著彼此的搜尋關鍵字,當搜尋問題出現的那時刻,才開始進行計算,如此一來工作量就太大,變得太麻煩了。此外,也還有一個概念上的問題。HITS 附加了一個引導進入集線器與機關的結構,當問題不同時,這個結構就不一樣,以至於它在許多狀況下,可能是根本無法存在的。(有時候結構少,反而能帶來更多啟發。)
留言討論