服務熱線:(852)39995400  (852)68882160
購物車
註冊

用戶登入

×
忘記用戶名
忘記密碼
在線客服

服務熱線

(852)39995400

WhatsApp 微信號

電郵 support@tnet.hk
在線諮詢    

更多聯繫方式

Google炸彈,你玩過了麽?

  • 發佈時間:2011-01-05

  • 瀏覽次數:3651

  •  

            雖然也許你從沒聽過Google炸彈這個詞,但在使用搜索引擎的時候你極有可能已經感受過它的威力。2003年10月,一位名叫George Johnston的博主引爆了迄今為止最為著名的Google炸彈,此次爆炸的回聲在此後的4年裏回響於整個網絡。其結果就是如果你在Google的搜索框中輸入“miserable failure”進行搜索,返回的第一個鏈接將指向時任美國總統George W. Bush在白宮官方網站上的個人生平介紹(見來自Wikipedia的網頁存照)。

            其實早在1999年,微軟便成了Google bomb的“受害者”,當時Microsoft的主頁“莫名奇妙”地成了關鍵詞“more evil than Satan himself”(比撒旦更邪惡)所對應的搜索結果的第一個項。自那以後,隨著一次次的爆炸,Google炸彈逐漸為人所知。那麼Google炸彈的機理是什麼,換句話說如何制作一顆Google炸彈呢?為了回答這些問題,我們還要追本溯源,從頭談起。

            話說1998年以前的互聯網就像美國西部大開發時代,到處是未被開墾的處女地,寶藏深深的隱藏於這片信息的叢林。面對如此豐富卻可望而不可及的信息,人們產生的了深深的無力感。Jorge Luis Borges在1941年創作的短篇小說“通天塔圖書館”(”The Library of Babel”)中對此種心境進行了如下描繪:

            “當人們聽說圖書館已經收集齊全所有的書籍時,首先得到的是一種奇特的幸福感。人們都覺得自己是一座完整無缺的秘密寶庫的主人。任何個人或世界的問題都可以在某個六角形裏找到有說服力的答案。…… 過分的指望自然會帶來過分的沮喪。確信某個六角形裏的某個書架上藏有珍本書籍,而那些書籍卻不可企及的想法,是幾乎難以忍受的。”

             更確切的說,在互聯網發展的初期,人們曾經天真的認為如果能做出網絡上的所有內容的完整索引,就相當於獲得了隨時隨意獲取其中信息的能力。但事實卻是網絡上的信息量如此巨大,以至於人們面對搜索引擒所返回的成千上萬的相關頁面無所適從。為解決這一問題,就需要一種能夠將與關鍵詞相關網頁進行排序的方法,使得真正有用的頁面排在搜索結果的前列。一言以蔽之,就是要尋求一種方法來判定那個網頁真正重要。這就是擺在Google兩位創始人Sergey Brin和Larry Page面前的問題。那麼什麼樣的網頁才重要?

             其實類似的問題我們每個人在現實生活種都曾遇到過。比如,最近你在奔小康的康莊大道上又前進了一大步,在咬了5次牙,跺了十次腳後,毅然決然的入手了一輛寶馬60系,看這愛車趴在你面前,你決定要給與“她”最好的呵護——買車險,在做出這個決定的一瞬間之後,你就犯了難,現在車險種類繁多,選擇那種才合適呢?就在你猶豫不覺,精神恍惚之際,話匣子裏傳出了你所熱愛的,著名影視歌全能藝人嘹亮而富有磁性的聲音:“餵!我是優優啊,哦,電話車險?選中平泰!品牌大,理賠快,身邊好多人都在用……”,於是妥了,一方面是優優一句頂一萬句的號召力,另一方面不是“身邊好多人都在用”,那咱也用它吧。

             以上事件揭示了在面臨眾多選擇時影響我們判斷的因素:專家,名人說好的就應該比較靠譜,如果大家都說好,那就真的靠譜了。而Sergey Brin和Larry Page正是應用這一樸素的觀察來解決網頁排序問題的。他們所提出的判定方法一言以蔽之即:

                                 PR(A) = (1-d)/n + d(PR(T1)/C(T1) + … + PR(Tn)/C(Tn)),

                                                  其中d的意義將在下文中闡明。

     

             被重要網頁所引用的網頁就是重要的。

             這句讀起來頗具“雞生蛋,蛋生雞”的意味的話可以翻譯為以下表示:假設網絡上共有n個網頁,網頁T1…Tn指向網頁A,令C(X)表示網頁X上的鏈出的超鏈接總數,那麼網頁X的重要程度PR(X)即為:

     

             其實以上這個似乎略有些復雜的公式說白了就是我們平時上網的簡化寫照。雖然我們每個人都有自己獨特的上網習慣,但有一點我想大致每個人都一樣。我們都要打開某個網頁,然後看看其內容是否有趣,在這個過程中,我們可能點擊頁面上的某個連接進而跳到下一個網頁,也可能關掉此頁面,重新進入一個新的頁面。如果假設每次打開新頁面時,我們都在所有頁面中隨機的進行選擇,同樣的每次我們決定要點擊鏈接時也隨機的從當前頁面上的所有鏈接中選擇。

             那麼若將1-d視為我們關掉網頁重新打開新頁面的幾率,PR(A)理解為我們訪問網頁A的幾率,由於訪問A有兩種方式,一種是在新打開網頁時,我們偶然的選擇了A,由於重新打開網頁的幾率為1-d,而在茫茫網頁中點到A的幾率為1/n,則通過此種方式訪問A的幾率為(1-d)/n;第二種方式則是通過點擊某個網頁上的鏈接溜達到A,由於我們知道只有T1…Tn有指向A的鏈接,而T1頁面共有C(T1)個鏈接,則要通過T1頁面訪問到A,必須滿足如下三個先決條件:到達 A(幾率為PR(T1)),決定點擊鏈接(幾率為d),從C(T1)個鏈接種選擇到指向A的鏈接(幾率為1/C(T1)),所以通過訪問T1到達頁面A的幾率為PR(T1)*d *1/C(T1) = d*PR(T1)/C(T1),對於其它頁面我們有同樣的結果,於是通過訪問其它網頁訪問到A的幾率為d(PR(T1)/C(T1) + … + PR(Tn)/C(Tn)),則抵達A的幾率PR(A)既為(1-d)/n + d(PR(T1)/C(T1) + … + PR(Tn)/C(Tn))。

             可是說了這麼多,我們得到的還是一個“雞生蛋,蛋生雞”的等式,那麼到底如何計算PR(A)呢?說白了,也沒有任何奇妙的,甚至可以說是有些野蠻的方式,那就是疊代法。只需要假設一開始所有網頁都是平等的,既對於任意頁面X有PR_(0)(X) = 1/n,而後將這些數值代入上述等式右邊,得到PR_(1)(A)=(1-d)/n +d(PR_(0)(T1)/C(T1) + … + PR_(0)(Tn)/C(Tn)),而後依法炮制,將PR_(1)(X)代入等式右側,得到PR_(2),如此這般,再這般如此,經過多次跌代,既可得到真實值的一個近似。這些數值就決定了被返回的搜索網頁的順序。Google依據這些PR值,將網頁歸為十一個等級,並賦予0到10之間的一個數值。任何人都可以通過Google toolbar及一些第三方工具,來查詢自己正在訪問的網頁屬於那個級別,比如在寫作本文時:baidu.com為9,bing.com為 8,Google.com.hk為7,而Google.com則毫無懸念被打了10分。

            以上就是Google決定某個網頁重要性的基本想法。憑借這一技術,及卓越的商業嗅覺,Sergey Brin和Larry Page將Google這家他們在1998年一手創立的公司打造成了這個時代的商業典範。而他們也憑借此成就入選了2004年人物雜誌全球最炙手可熱的鉆石王老五50強。當然,時至今日,世界上只有極少人知道Google頁面排序的具體實現方式,但其本質想法依然是以上的第22條軍規,也就是“被重要網頁引用的網頁就是重要的”。

            既然網頁的重要程度取決於廣大勞動人民的選擇,自然就可以通過增加指向某一網頁的鏈接數來人為地幹預,影響排序的結果,這也就是Google炸彈的原理。所以只要在網絡上制造足夠多以同一關鍵詞指向目標網頁的鏈接,就可以提升該頁面相對於某關鍵詞的搜索排名,甚至使這個頁面成為這一關鍵詞搜索結果返回的第一個結果。具體來說有就是首先選擇一個目標網頁,如http://songshuhui.net,其次是關鍵詞,如:最好的科普網站,最後就是廣發英雄帖,號召大家將鏈接: <a href=“http://songshuhui.net”)“>最好的科普網站 播撒到網絡上,如果足夠多的人參與其中,也許不久後,當你搜索“最好的科普網站”時,http://songshuhui.net就會赫然成為第一個返回結果。當然,大多數網頁排名還是整個網絡自己進化產生的結果,比如若你用Google搜索“click here”,結果的第一名是Adobe Reader的下載頁面。究其原因無非是網絡上有很多類似”要閱讀PDF文件,請點擊這裏“的鏈接。

     

            起初Google對於Google炸彈的態度是不提倡,不幹預,並認為防範Google炸彈並非其第一要務。但在2007年,由於擔心廣大網民將 Google炸彈制作者的觀點誤認為是Google的官方態度,Google改進了它的排序算法。這次的算法升級,導致了“miserable failure”炸彈及其它許多炸彈的失效。但是在同年3月,“miserable failure”曾經短暫復活了,後來發現,原來是白宮的工作人員大意的在網頁中寫入了“failure”一詞。據此人們推測,Google防止 Google炸彈的方式可能是判斷目標網頁中是否含有鏈入鏈接所包含的關鍵字。此外,如果在短期內監測到大量包含同樣關鍵詞的鏈接鏈向某一網頁,Google的排序算法就會判斷此網頁受到Google炸彈攻擊,繼而將在計算網頁PR數值的時候忽略這些鏈接的影響。但這並不能阻止人們借轟炸Google表達自己意見及主張的熱情。就在今年9月,一群法國網友就將炸彈投向了他們的總統,並成功的將“trou du cul du web” (網絡屁眼)鏈接到了薩科齊facebook主頁。但這是一顆短命的炸彈,原因是在此行為曝光不久,薩科齊的facebook主頁即被關閉,同時 Google內部也有消息傳出說Google使用專門程序成功排除了這顆炸彈。 可見引爆Google炸彈漸漸的也成了比較有科技含量的活計了。

            今天,人們對於Google炸彈可謂仁者見仁,智者見智。有人認為它增加了網絡上的噪音,降低了網頁排名的準確性。有人則認為它無非是網民表達意見的一種方式。但我想對於geek或nerd來說,既然它存在,那麼嘗試一下再說才是最要緊的吧?

    文章來源:科學松鼠會

    www.tnet.hk

    ICANN & CNNIC & HKDNR認證頂級域名註冊商

搜索

Document