Google搜索質量介紹 |
發布時間: 2012/9/3 11:30:59 |
搜索質量團隊是一支負責Google搜索結果排名的團隊。我們的工作非常明確:每天都有數以億計的人們向Google發出搜索請求 ,Google需要在短短幾分之一秒的時間內從數十億網頁中挑選出符合搜索要求的頁面,并且以恰當的排序提供給用戶。雖然近期我們也在做一些其他工 作,但請允許我以后再向您詳細介紹。
雖然很多人都在使用Google的搜索服務,但令人吃驚的是很少有人了解Google的搜索排名。這是我們的過錯,但實際上我們是有意進行保密的。坦誠布公地說,很大程度上,我們需要對我們所從事的工作保密 。這主要有兩個原因:競爭和欺詐濫用行為。競爭是很容易理解的。沒有哪一家公司愿意與對手分享其核心技術;至于欺詐濫用行為 ,如果我們將排名算法公布于眾,會使這個搜索系統容易被人為操縱。通過保密來保證安全從來都不是最好的辦法,所以我們也不完全依賴 它,但保密措施也確實幫助我們避免了許多被欺詐濫用的可能。
排名算法的細節從很多方面來說都堪稱是Google皇冠上的寶石。我們感到非常自豪也特別注意保護它們。據估計,已有一千多名程序員(科學家)將自己多年的研究成果貢獻在它們的 發展中,因而它們的創新速度從沒有放緩過。
但保持完全神秘并不是理想狀態,這篇博客就是我們想要改善此狀況的一種努力。我們會努力做到定期向大家介紹新產品,講解已有產品 ,提供建議,傳播信息,進而增進交流。現在就讓我介紹一些關于我們團隊的信息,以此作為與大家溝通的開始。更多的博客也將會陸續發布 。
借此機會我想簡單的介紹一下自己。我的名字是Udi Manber,目前擔任工程事務副總裁,負責搜索質量的相關工作。我在Google工作已超過兩年,在搜索技術方面已經有差不多20年的從業經歷。
負責精確排名技術的小組是整個團隊的核心。對搜索結果進行排名是很困難的,比一般人想象的要難得多。原因之一是語言本身天然具有模糊 性,而記錄信息的文檔也五花八門,沒有一定的法則。目前,還沒有一個如何傳達信息的統一標準,因此我們需要試圖理解任何人 以任何理由寫出的所有網頁。而且,這只是問題的一部分。我們還需要理解人們提出的、平均少于三個單詞的搜索提問,并將它們映射到我們對所有網絡文檔的理解中。更不用說每個人都有 不同的需要。我們必須盡最大努力在幾毫秒內滿足這些需求。
在我們的排名算法中,最有名的部分是 PageRank ,它是由谷歌的兩位創始人——LarryPage和Sergey Brin 開發出來的。目前PageRank仍被使用,只是它已成為了一個更大系統中的一部分。其他部分包括語言模型(處理短語、同義詞、符號 、拼寫錯誤的能力等),查詢模式(我們不僅要考慮語言本身,還要考慮人們如何使用語言),時間模型(有些問題要靠互聯網上僅 僅產生才三十分鐘的最新網頁來解答,而另一些問題則需由經受了時間考驗的網頁來解答),和個性化模式(并不是所有人都想得到同樣的答 案)。
在我們的團隊中,還有一個小組負責評估我們的工作。評估方式有許多種,但目標都是一致的:提高用戶體驗 。這不是主要目標,而是唯一目標。這里既有每分鐘都在進行的自動評估(確保系統運行正常),對總體質量的周期性評估 ,還有更重要的是為具體算法改進而開展的評估,這也是最重要的。當一名工程師有一個新想法或開發出一種新算法時,我們都會對其想法進行全面測試。我們有一個統計小組專門負責統計 數據,同時評估這些新想法的價值。我們每周都會(有時甚至一周兩次)召開專門會議審議這些新想法并且批準新方案的開展。在2007年,我們共推出了450多個新改進,平均每周推出9個。其中的一些改進是簡單而明顯的——舉例來說,我們解決了希伯來語縮寫檢索詞的問題(在希伯來語中,縮寫詞是由最后一個字符旁的(")來標識的,因此,IBM的縮寫將是IB"M);當然也有一些改進是非常復雜的——舉例來說,在一月份我們對PageRank算法做了顯著改進。絕大部分時間里我們都在尋求改進搜索結果的相關性,但同時我們也在開展以簡化算法為目的的項目。畢竟 ,簡單一些總是好的。
在過去兩年中,跨國界搜索一直是我們關注的重點。這意味著我們要精通所有語言,而不僅僅是那些主要的語種。以去年為例 ,我們在阿塞拜疆語上取得了重大進展,而這種語言世界上僅有800萬人在使用。在過去幾個月,我們進行了多種語言的拼寫檢查,包括愛沙尼亞語,加泰羅尼亞語,塞爾維亞語,塞爾維亞克羅地亞語 ,烏克蘭語,波斯尼亞語,拉脫維亞語,菲律賓他加祿語,斯洛文尼亞和波斯語。我們建立了一個遍布全球的網絡體系來為我們 提供反饋意見,同時還有來自Google全球各部分的講不同語言的員工自愿幫助我們改進搜索結果。
還有一個小組是專門致力于對搜索特性和用戶界面的改進。一個強大的引擎對于一輛好汽車是非常必要的,但并不是足夠的 。好車還要舒適和易于駕駛。 Google的搜索用戶界面非常簡潔,很少有用戶曾經瀏覽過搜索幫助頁面,因為不借助它用戶也能使用得得心應手(但是閱讀這些幫助頁面總是 有益的,而且我們一直在努力完善它們)。當我們添加新特性時,我們會努力確保它們具有直觀性并且易于每個人使用。過去一年中 ,我們做的最明顯的變化是 整合搜索。其他變化還包括谷歌筆記本(Google Notebook),自定義搜索引擎(Custom Search Engine),當然還包括在iGoogle上的改進 。用戶界面小組由一個專門負責進行用戶研究和評估新特性的專家團隊組成。他們的足跡遍布世界各地,有時甚至到用戶的家中去了解他們最 自然的使用習慣。 (不過不用擔心,他們是不會搞突然襲擊或是不請自來的 !)
我們還有一個小組專門負責與 網絡垃圾和各種類型的欺詐濫用行為作斗爭。他們處理的問題非常廣泛:從隱藏文本到充斥大量無用關鍵詞而偏離 主題的網頁,以及其他許多旨在提高搜索結果排名的惡意行為。這個小組密切跟蹤網絡垃圾的最新發展趨勢并研究出行之有效的對策 ;與所有其他小組一樣,他們的工作也是國際性的。反網絡垃圾小組與Google網站管理員中心小組緊密合作,從而能與大家分享他們的心得 ,并聽取網站管理員們的意見。
還有其他一些小組投身于其他的專門項目?傊,我們的組織結構是比較非正式的。人員具有靈活性,新項目隨時都有可能開始。
對于搜索,其中很關鍵的一點就是用戶的期望始終在快速增長。明天的檢索查詢要比今天的更具挑戰性。就像運算速度受摩爾定律支 配,每18個月要成倍增長一樣,搜索中也有一個隱形的規律,那就是最難的那部分搜索查詢其復雜性在短時間內就會成倍增加,變得更為復雜 。這是不可能進行精確衡量的,但我們都能親身感受到。我們知道自己不能總停留在現有狀態上,我們必須努力工作,迎接挑戰。正如我剛才所說的,在未來幾個月中我們將繼續為您提供 搜索質量改進的最新消息,敬請期待。 本文出自:億恩科技【www.vbseamall.com】 |