沒有規則的世界

2013-09-29 20:31:08

  在全面掌握搜索技術的基础知識之前,我一直都沒能真正理解這個全新的世界。克雷格-西爾弗斯坦利用午餐閑談時間,自願為我和幾個不懂技術的員工“開班授課”,他把這種交談叫作“Google7A—面向非專業人員的搜索”。克雷格畢業於斯坦福大學,臉上挂著孩童般的笑容,很有幽默感。他喜歡說自己是Google的第1.5名員工,因為公司正式成立時,他的名字在花名冊上的位置位於拉里和謝爾蓋之間。克雷格平時也給我們開小竈,不定哪個下午,他會面帶笑容,在走廊里假聲假氣地拖著長音問道:“吃小竈嗎?”這時,我們這些人就會從各自的格子間中走出來,去吃他剛從Google的面包機中拿出來的沒有營養的無形面包。

  我們集中在乒乓球室中上課,裡面是以前放在蘇珊車庫里的深綠色乒乓球桌。桌上的球網放倒了,也許是前一天開董事會的時候,哪一位風險投資人為了找地方放筆記本電腦而把它放倒的吧。克雷格開始講課,我們則大快朵頤。

  “一個搜索引擎有3個組成部分。”他開口說道。白闆上的題目是“一個查詢的來龍去脈”,他在題目下面不斷寫著要講的內容。

  “首先,我們得收集網路上的頁面信息,可以通過一種稱為‘爬取’的進程實現。我們的蜘蛛程序叫作Googlebot,它從一個鏈接跳到另一個鏈接,把每個網址及其內容數據匯集起來。爬取過程通常需要一個月左右的時間,一旦完成,我們就有大量資料需要存儲到合用的列表中。這個過程叫作建索引。”

  我在筆記本上記下“爬取”和“建索引”兩個詞,分別框起來,然後用線把兩個框連起來,隨即變成了一副眼鏡的模樣,一個蜘蛛從上面吊下,那里應該就是鼻子了。

  克雷格繼續說:“我們一旦有了索引,就會利用我們的PageRank算法,根據每個頁面的重要性,分配一個頁面次序。PageRank算法是Google的秘密調料。”

  “秘密調料?”我們能比其他所有搜索引擎做得好,看來公司創始人很快就要透露底細了,我向前傾了傾身子,準備好好學習。

  “PageRank查看網路上的所有網頁,根據指向每個網頁的其他鏈接衡量該網頁的價值。來自可靠網站的鏈接越多,這個網頁的PageRank值就越大。這是秘訣的前一半。”

  我在“眼鏡”下方記下“PageRank”,在它週圍畫了個橢圓,看起來有點像是一個滑稽的嘴巴,於是又在上面畫了人頭,還在旁邊加了些頭髮。

  “另一半就是要斷定哪些結果跟我們收到的特定查詢的關聯程度最高。我們的大多數競爭對手看的都是基本信息,比如某個詞在一個頁面上出現了多少次。我們看的是查詢條目在頁面上是怎麼使用的。緊接著這個詞出現的是什麼詞?用的是黑體還是其他不同的字體?在指向那些頁面的鏈接中,這個詞是怎樣出現的?這種鏈接分析非常重要。在指向一個頁面的鏈接中出現的詞叫作鏈接錨文本。”

  在筆記本上,從那個滑稽嘴巴的一角長出一個鏈條,直到頁面底部,在底下突然出現了一個錨,週圍是露著牙齒的遊魚。

  克雷格繼續說:“查詢匹配的好壞決定我們的搜索質量,由於評價查詢是否匹配得很好多少有些主觀,因而這不是一個確切的科學問題。如果你搜索輸入的是‘jaguar’(美洲豹),你指的是汽車、豹子,還是足球隊呢?對類似這樣的查詢,有時候很難消除歧義。”

  我記下“消除歧義”這個詞,自己默念了3遍,以便把它變成我自己的詞匯。然後又畫了個有點像斑斑點點的狸貓的東西,它正追捕那個鐵錨邊上的魚。由於是在水里,我又加了幾個水泡。

  “一旦確定了有用網頁的顯示順序,就需要把搜索結果意見回饋給提交查詢的用戶。這就是‘gwiss’幹的事。”克雷格說到“gwiss”的時候,在白闆上寫下“GWS”,下面註明是“GoogleWebSever”(Google網路伺服器)。

  “GWS是一個軟體系統,當用戶提交查詢及意見回饋搜索結果的時候,實際上都是由它來跟用戶交互。我們打算更新Google的用戶界面時,就需要推出一套新的GWS系統來實現變化。”

  我想不出GWS是個什麼樣子,因此在那個人頭後面畫了些瑞士乳酪。等到克雷格講完的時候,我對Google的工作方式有了寬泛的理解,此外還在我的收藏中增加了一幅怪異的塗鴉作品,這可是不會跟新同事們分享的東西。

  後來,烏爾斯向我證實,早在拉里和謝爾蓋1998年離開斯坦福大學之前,Google就已經在搜索質量方面穩操勝券了,因為鏈接分析就是互聯網上等著點化成金的石頭。Google搜索結果的高關聯性對早期用戶和新聞媒體產生了強大的吸引力,但是背後卻隐藏著面臨崩潰危險的脆弱基础。烏爾斯告訴我:“我們的排序方法遠遠勝過AltaVista,但是速度很慢,而且無法穩定可靠地建立索引。”

  如何改進Google在爬取、索引及服務交互方面的效率?正是這一挑戰讓烏爾斯進入Google。他估計實施改進計劃需要?年左右的時間,隨後他返回歐洲。“整件事情是個系統性的問題,我對此估計不足,”烏爾斯承認,“我們以前用的是大學里的系統,現在基本上需要重寫一遍。”雖然Google對自己掌握的數據做得很好,可是它收集的數據遠遠不夠,而且搜索數據的速度也不夠快。

  速度還是規模,只能選一個。當我們爬過的網頁越來越多時,索引就會變得更大,PageRank算法需要利用的數據也就更多,這樣我們才能產生相關性更好的結果。這一點吸引了更多的用戶和研究人員,因而我們的追隨者隊伍不斷壯大。然而,更大的索引需要更多的機器運行更多的處理過程,更多的處理過程需要耗費更多的時間。上網的人都知道,用戶增加會對網路提出更多的要求,從而讓速度變慢。

  對於Google的未來走向,是要成為一個終端站點,還是要做其他網站的服務提供商,當拉里和謝爾蓋不得不面對這個選擇時,他們決定兩者都要。即便是選擇全面擴張,Google的搜索速度也要加快。他們都對自然法則強加在頭上的約束限制不屑一顧,於是他們開始尋找同道中人。

本文摘自《Google傳》


   Google的企業宗旨“不作惡”是如何來的?為什麼拉里和謝爾蓋有能力吸引矽谷中首屈一指的風險投資公司支援他們?浏覽器工具欄競爭中,微軟和Google掀起了秘密決戰,最後勝敗如何?當微軟公司宣稱“我們要麼買下你們,要麼就滅掉你們!”時,Google又是如何逃過一劫?
  這是一部最詳細、最全面、最真實地記錄一家偉大的互聯網公司發展歷程的書。在這本書中,作者提到拉里R26;佩奇是個很強勢的家伙,他火熱的激情要說明全世界不再浪費時間。拉里喜歡削減一切不必要的開銷,不過在成本控制方面,不折不扣地把節儉才智發揮到極致的還是謝爾蓋。在意大利米蘭,他為了節省50美元,而不願意選擇乘坐出租車。

 承諾與聲明

兄弟財經是全球歷史最悠久,信譽最好的外匯返佣代理。多年來兄弟財經兢兢業業,穩定發展,獲得了全球各地投資者的青睞與信任。歷經十餘年的積澱,打造了我們在業內良好的品牌信譽。

本文所含內容及觀點僅為一般信息,並無任何意圖被視為買賣任何貨幣或差價合約的建議或請求。文中所含內容及觀點均可能在不被通知的情況下更改。本文並未考 慮任何特定用戶的特定投資目標、財務狀況和需求。任何引用歷史價格波動或價位水平的信息均基於我們的分析,並不表示或證明此類波動或價位水平有可能在未來 重新發生。本文所載信息之來源雖被認為可靠,但作者不保證它的準確性和完整性,同時作者也不對任何可能因參考本文內容及觀點而產生的任何直接或間接的損失承擔責任。

外匯和其他產品保證金交易存在高風險,不適合所有投資者。虧損可能超出您的帳戶註資。增大槓桿意味著增加風險。在決定交易外匯之前,您需仔細考慮您的財務目標、經驗水平和風險承受能力。文中所含任何意見、新聞、研究、分析、報價或其他信息等都僅 作與本文所含主題相關的一般類信息.

同時, 兄弟財經不提供任何投資、法律或稅務的建議。您需向合適的顧問徵詢所有關於投資、法律或稅務方面的事宜。