服務熱線:(852)39995400  (852)68882160
購物車
註冊

用戶登入

×
忘記用戶名
忘記密碼
在線客服

服務熱線

(852)39995400

WhatsApp 微信號

電郵 support@tnet.hk
在線諮詢    

更多聯繫方式

搜索引擎的終極使命

  • 發佈時間:2010-12-09

  • 瀏覽次數:3566

  • 當搜索引擎洞悉人性、心理與社會,它會變成什麽?
         當你向互聯網上傳一個頁面,來自世界各地的無數“蜘蛛”便會蜂擁而至。它們抓取並復制你的網頁,跟蹤著網頁中的鏈接,悄悄地爬上更多的頁面,用觸角將它們納入索引數據庫。數據庫像轟鳴的機器,拆解網頁上的文字內容、標記關鍵詞的位置、字體和顏色,並生成龐大的表格。這時,你輸入一個單詞,點擊Google或百度上的“搜索”按鈕,它會在0.2秒內得到響應,帶著單詞奔向索引數據庫的每個神經末梢,檢索到所有包含搜索詞的網頁,依據它們的瀏覽次數與關聯性等一系列算法確定網頁級別、排列出順序,最終按你期望的格式呈現在網頁上。
         這就是一個“關鍵詞”的雲端之旅。在過去的10多年裏,類似的旅程總共進行過數十萬億次。它催生了搜索引擎的先驅Overture,成就了本世紀最早期的創新明星Google,還有Yandex、Navar和百度等來自全球各地的Google效仿者。它讓搜索引擎成為人們最依賴的互聯網工具,以及推動人類信息自由流動的傳福音者……
    但現在,這一切可能都不再重要了。
         設想一下,當你同時打開RSS訂閱工具、Twitter(新浪微博)和Facebook(開心網)坐在電腦前的時候,你更傾向於用哪種方式獲得信息?那些通過社交工具推送到你面前的內容,是不是通常比你主動搜索的信息更有價值?你搜索“美洲豹最便宜的價格,”得到的結果是車還是棒球桿?如果你對騰訊與360的戰爭完全沒興趣的話,在你搜索“周鴻祎”的時候,真的一定希望“馬化騰”跳出來嗎?
         這就是當下的搜索引擎在幾何級網頁數量爆炸時面臨的困境:即便搜索引擎優化(SEO)工具越來越普遍地被網頁設計者們純熟地應用,但它仍然不能確保人們在第一時間搜索到他們需要的信息——甚至,成功幾率越來越低。
        “目前上萬億的網頁,其中大約有250億的頁面可被檢索,有可能出現在用戶搜索結果裏的頁面,最多占5%,未來幾年這個數字甚至會降低到1%以下,”微軟亞洲研究院常務副院長馬維英說。當下的搜索引擎技術就像圖書館檢索那樣為所有的書建立檢索碼,但最後有可能帶給用戶的價值越來越少——它被持續膨脹的網頁數量稀釋了。
    那麽,未來人們需要什麽樣的搜索引擎?
         Google試圖提供最新的解決方案是:超快速的自動搜索。Google首席執行官施密特在最近的一次演講中提醒人們永遠不要低估速度對搜索的重要性。他還認為,搜索最終將不僅僅是搜索網頁,而是個人的幾乎所有信息——包括電子郵件、音樂和你關註的話題。在得到你的允許後,它將成為你專屬你個人的搜索。
         這似乎解決了搜索引擎的個性化需求和匹配問題,但Google未曾真正提及的是:與任何一類以“你”為中心的媒介相同,“你搜索”需要建立在社交網絡化的基礎之上——例如你搜索到的內容被你的朋友推薦,它會在搜索結果中得到提升,從而進入你個人搜索的優先級。在這個過程中,朋友的“頂”就進入了搜索引擎,成為整個搜索的一部分。
         但奉邏輯學與數學為宗教的Google卻並不擅長社交網絡領域——它甚至站在全球最大社交網站Facebook的對立面。讓搜索“社交化”意味著賦予搜索引擎社會學和心理學的屬性,而這會改變Google的基本邏輯。
         事實上,搜索引擎領域邏輯更替的核心是:搜索引擎將越來越通曉人類的語言和意圖,為用戶抓取他們最想知道的網頁內容,甚至能識別語音、圖像及表情等非文本材料——不但返回更精確的文本結果,還包括大量的多媒體內容。
         越來越多中小型公司試圖沿著這條道路證明Google代表的當下“客觀主義”搜索技術的簡陋:當你在一家名為Powerset的搜索引擎網站搜索“誰曾打敗過安德烈·阿加西(Andre Agassi,美國著名職業網球運動員)”的時候,呈現在第一位的搜索結果是另一位網球運動員皮特·桑普拉斯(Pete Sampras)的頁面。而在Google上,最前面的結果仍然是阿加西的個人信息。如果在另一家搜索引擎Cognition的頁面上輸入相關的法律和訴訟問題,也能得到相關條款的精確回應。
         這就是人們通常所謂的“語義搜索”,但割據的小型語義搜索網站采集的信息量有限,並不足以在全面抗衡Google這樣的巨頭。但它們被召集在一面旗幟下,意義就完全不同了。
         這個“召集者”不是別人,正是在互聯網時代落寞許久的巨頭微軟。
         在收購雅虎的交易失敗後,微軟對互聯網和搜索引擎的布局走向了一條隱蔽但頗具技巧的道路。2008年7月,微軟宣布收購上文中提到的語義搜索引擎Powerset。緊接著又推出了購物比較引擎Live Cashback、旅遊搜索引擎Farecast以及健康搜索引擎health.live.com等基於語義的搜索分支。2009年6月微軟發布全新搜索品牌Bing之後,它們又被整合進入Bing的框架體系。
         但它們尚未構成一個完整的搜索產品。這是因為語義搜索技術的處理能力和速度仍是主要缺點,有時甚至需要長達20秒才能分析完一個頁面。但微軟的不同在於,它有能力投資更大型的服務器集群,這使語義搜索成為微軟在搜索引擎領域樹立的壁——當然,你也可以把它看作微軟搜索引擎計劃的Plan B。
         不容忽視的是,支持微軟在語義搜索領域有望搶先獲得一席之地的,是它背後的基礎研究力量。在基礎的計算科學領域,語義搜索並非一個嶄新的話題。至少在微軟內部,圍繞它的研究至少已經有10多年的歷史。而現在,是它們集中爆發並轉化為現實產品的時候了。
         “盡管人們不該讓科學家預測一項研究計劃轉化為現實產品的周期有多長,但是我們在搜索引擎領域的多年基礎研究,正好到了收獲果實的時候,因為人們對搜索的需求正在發生變化,這就是你現在看到的一切。”微軟全球高級副總裁裏克·雷斯特(Rick Rashid)說。
    【感知搜索】
         至少在目前,微軟相信它能在語義搜索上扳回一局的原因,是因為搜索引擎技術的門檻並非輕易地能被任何玩家企及。
         在雷斯特看來,搜索引擎的技術至少在四個方面設置了門檻,並把大量試圖覬覦這一領域的玩家過濾在了最終的遊戲之外:其一是服務器抓取數據的能力,它將不僅僅來自普通網頁,還將來自各類垂直的數據庫與社交網站中的關鍵信息;其二是在幾何級增長的互聯網數據和信息爆炸面前維系處理它們的速度;其三是巨額投資在全球各地建設大規模的服務器集群;最後一點,是能追蹤分析用戶的行為與心理,通曉用戶的意圖和心理。“而這也恰恰是語義搜索的基礎,”雷斯特對本刊說。
    而有了龐大的服務器集群,也能夠保證處理幾何級增長信息的速度,這種能感知人們輸入語言意圖的“智慧搜索”,又將如何實現?
    微軟給出的答案是:重新制定搜索引擎的規則。
         “搜索引擎必須了解到底需要在網上完成什麽樣的任務,我們現在需要看到的是一個任務,然後幫助用戶做出決策並采取行動,而不是給用戶十個鏈接再讓他們逐 個打開去尋找信息是否有用,”微軟亞洲研究院常務副院長馬維英說,“這有機會對搜索的格局產生顛覆式的創新。”
         這意味著當下搜索引擎的原理從一開始就被打破了——搜索的起點將不再是關鍵詞,而是一個包含著關鍵詞的短文本和信息群,機器需要通過對它的分析和判斷,再排列出相應的文本和網頁順序,推送到用戶的瀏覽器上。
         也就是說,必應(Bing)將更像是一個路由器:它了解用戶的搜索目的,把目的與任務結合起來,以更多的搜索表現形式,理解搜索目的,抽取出所有的知識,把知識按照目的組織起來,甚至提供一個新的搜索生態系統。
         它對研究人員來說是完全不同的工作流程。傳統互聯網搜索的最小排序單元是網頁,但當搜索的對象(entity)從網頁轉移到某一個人、事物和現象的時候,盡管搜索出結果仍然是網頁,但它需要機器對相關的內容進行知識抽取、整合並總結,以一套完整的框架性結構的呈現在網頁上。其中,搜索與社交網絡的結合,以及專業問答類社區可能會發揮更重要的價值。
         至少在微軟內部,實現這一切並不容易。搜索團隊必須滲透到微軟研究院的基礎架構、機器學習、自然語言等領域的大量核心資源當中。至少,它得允許研究員和工程師輕松地修改代碼,這是在微軟第一代搜索引擎的架構中難以實現的。
         以微軟即將發布的“學術搜索”為例:它旨在幫助用戶快速找到某個學術研究領域內的頂尖學者、學術會議和期刊,獲得一個學術領域的興趣與發展的詳細信息,發現某個研究領域的學術論文和學術新星。它是完全建立在“對象”基礎上的搜索,甚至可以搜索研究人員之間的關系、論文的共同作者,以及哪所院校在這某個領域研究最出色,過去五年哪些機構排名上升等相當“瑣碎”的信息——只要你向搜索引擎提出這些問題。
         更現實的應用是微軟的中文旅遊搜索——它沒有抓取浩如煙海的旅遊網頁信息,而是將抓取的對象鎖定在社交網站和個人博客上的20多萬篇網友遊記,從中提煉出超過3萬個熱門景點的旅遊狀況。當用戶提出針對某一景點的旅遊問題時,它會自動抽取相應的信息,組合答案呈現給用戶。它還與必應(Bing)地圖相結合,鼓勵網友上傳旅遊路線和圖片,創建旅行計劃,以期進一步豐富旅遊搜索的信息資源和語義庫。
         “它會提供給你最終的答案,直接找出答案的結果,而且完全不同於社區問答類產品,是搜索的結果,”微軟亞洲研究院院長洪小文說。
    而這種顛覆式的數據挖掘、知識提取與算法邏輯,甚至使人們對多媒體的感知也可以通過搜索的形式呈現。微軟研究院還開發了一個可擴展的解決方案,通過索引超過      兩百萬張網頁圖片,建立了一個名為MindFinder的系統,可以實現高效、基於素描的圖像尋回——這意味著你使用任何一種觸屏數字設備的時候,可以用簡單的手勢勾勒某個事物的草圖——它將被視為搜索的指令,然後在屏幕上呈現出你預期中的畫面。
    你一動念頭,搜索結果就會冒出來。
    【搜索即服務】
         盡管以語義搜索為代表的智能化未來充滿了想象力,但它卻並非下一代搜索引擎的終極使命。至少在微軟看來,搜索引擎並不一定局限在“必應”(Bing)的搜索框當中。
         看看它的語義搜索實驗能在Twitter上發生些什麽:在全球已有1.45億註冊用戶的Twitter每天承載著9000多萬次的更新和超過8億次的搜索——它已經成為世界上全面的和鮮活的數據庫,也是政府、企業和公共機構體察輿情的重要來源。
         但這些Tweets(指Twitter上的用戶言論)中有很大的比例是毫無意義的空話和垃圾內容,且夾雜著各種縮寫和不規範語言,這導致傳統的關鍵字搜索所返回的內容列表,其分析價值相當有限。而語義搜索能對海量Tweets和大規模用戶之間的聯系進行分析,提取關鍵信息。當你輸入“Barack Obama”(美國總統奧巴馬)的時候,它能自動統計出數十億條Twitter信息中對奧巴馬的“正面”(positive)和“負面”(negative)評價的比例,並列出諸如“聰明”、“善良”、“決斷”、“吝嗇”和“愚蠢”等一系列用戶形容奧巴馬的最頻繁的關鍵詞。
         這意味著搜索引擎本身不僅以搜索框的形式出現,還可以化身成一種互聯網服務的工具。“只有當搜索引擎能夠被開發出更多應用的時候,萬維網才會被帶到下一個時代,”微軟全球高級副總裁雷斯特說。
         而社交網站的搜索開發顯然是其中的一個方向——它不僅可以提升搜索本身在當下的重要性,也符合語義搜索的趨勢需要。維基百科創始人吉米·威爾斯(Jimmy Wales)曾試圖創建一個結合用戶意誌和語義關聯的搜索引擎網站Wikia Search,但後來放棄了。他曾表示過未來的搜索形態可能分散在各種互聯網的角落裏,而不是搜索框。
          而據稱Facebook也試圖將其龐大的數據源進行全面探索,以結構化的數據和開放圖譜(open graph)為基礎,推出一款語義搜索引擎的計劃。在它的背後,是微軟與Facebook的搜索戰略合作關系——必應搜索(Bing)已成為Facebook諸多服務的一部分。隨著微軟在語義搜索領域基礎研究的產品變現,它將進一步體現在用戶在Facebook的搜索體驗中。如果Facebook用戶使用“必應”搜索“比薩”一詞,搜索結果將會出現食物的圖片、食譜以及最近的比薩店地圖,而不僅僅是提供一些比薩店的網址鏈接。
    從內容走向應用和服務,這是搜索的宿命。

    (文章來源環球企業家網站)

     

    www.tnet.hk

    ICANN & CNNIC & HKDNR認證頂級域名註冊商

搜索

Document