大數據先鋒

2013-09-21 20:57:02

  無所不包的谷歌翻譯系統2006年,谷歌公司也開始涉足機器翻譯。這被當作實現“收集全世界的數據資源,並讓人人都可享受這些資源”這個目標的一個步驟。谷歌翻譯開始利用一個更大更繁雜的資料庫,也就是全球的互聯網,而不再只利用兩種語言之間的文本翻譯。

  谷歌翻譯系統為了訓練計算機,會吸收它能找到的所有翻譯。它會從各種各樣語言的公司網站上去尋找聯合國和歐洲委員會這些國際組織發佈的官方文件和報告的譯本。它甚至會吸收速讀專案中的書籍翻譯。谷歌翻譯部的負責人弗朗茲-奧齊(FranzOch)是機器翻譯界的權威,他指出,“谷歌的翻譯系統不會像Candide一樣只是仔細地翻譯300萬句話,它會掌握用不同語言翻譯的質量參差不齊的數十億頁的文檔。”不考慮翻譯質量的話,上萬億的語料庫就相當於950億句英語。

  盡管其輸入源很混亂,但較其他翻譯系統而言,谷歌的翻譯質量相對而言還是最好的,而且可翻譯的內容更多。到2012年年中,谷歌資料庫涵蓋了60多種語言,甚至能夠接受14種語言的語音輸入,並有很流利的對等翻譯。之所以能做到這些,是因為它將語言視為能夠判別可能性的數據,而不是語言本身。如果要將印度語譯成加泰羅尼亞語,谷歌就會把英語作為中介語言。因為在翻譯的時候它能適當增減詞匯,所以谷歌的翻譯比其他系統的翻譯靈活很多。

  谷歌的翻譯之所以更好並不是因為它擁有一個更好的算法機制。和微軟的班科和佈里爾一樣,這是因為谷歌翻譯增加了很多各種各樣的數據。從谷歌的例子來看,它之所以能比IBM的Candide系統多利用成千上萬的數據,是因為它接受了有錯誤的數據。2006年,谷歌發佈的上萬億的語料庫,就是來自於互聯網的一些廢棄內容。這就是“訓練集”,可以正確地推算出英語詞匯搭配在一起的可能性。

  20世紀60年代,擁有百萬英語單詞的語料庫——佈朗語料庫算得上這個領域的開創者,而如今谷歌的這個語料庫則是一個質的突破,後者使用龐大的資料庫使得自然語言處理這一方向取得了飛躍式的發展。自然語言處理能力是語音識別系統和計算機翻譯的基础。彼得-諾維格(PeterNorvig),谷歌公司人工智能方面的專家,和他的同事在一篇題為《數據的非理性效果》(TheUnreasonableEffectivenessofData)的文章中寫道,“大數據基础上的簡單算法比小數據基础上的複雜算法更加有效。”諾維格和他同事就指出,混雜是關鍵。

  “從某種意義上,谷歌的語料庫是佈朗語料庫的一個退步。因為谷歌語料庫的內容來自於未經過濾的網頁內容,所以會包含一些不完整的句子、拼寫錯誤、語法錯誤以及其他各種錯誤。況且,它也沒有詳細的人工糾錯後的註解。但是,谷歌語料庫是佈朗語料庫的好幾百萬倍大,這樣的優勢完全壓倒了缺點。”

本文摘自《大數據時代》


   《大數據時代》是國外大數據系統研究的先河之作,本書作者維克託-邁爾-舍恩伯格被譽為“大數據時代的預言家”,擁有在哈佛大學、牛津大學、耶魯大學和新加坡國立大學等多個互聯網研究重鎮任教的經歷,早在2010年就在《經濟學人》上發佈了長達14頁對大數據應用的前瞻性研究。維克託-爾耶-舍恩伯格在本書中前瞻性地指出,大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型,並用三個部分講述了大數據時代的思維變革、商業變革和管理變革。
  維克託最具洞見之處在於,他明確指出,大數據時代最大的轉變就是,放棄對因果關係的渴求,而取而代之關註相關關係。也就是說只要知道“是什麼”,而不需要知道“為什麼”。這颠覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。

 承諾與聲明

兄弟財經是全球歷史最悠久,信譽最好的外匯返佣代理。多年來兄弟財經兢兢業業,穩定發展,獲得了全球各地投資者的青睞與信任。歷經十餘年的積澱,打造了我們在業內良好的品牌信譽。

本文所含內容及觀點僅為一般信息,並無任何意圖被視為買賣任何貨幣或差價合約的建議或請求。文中所含內容及觀點均可能在不被通知的情況下更改。本文並未考 慮任何特定用戶的特定投資目標、財務狀況和需求。任何引用歷史價格波動或價位水平的信息均基於我們的分析,並不表示或證明此類波動或價位水平有可能在未來 重新發生。本文所載信息之來源雖被認為可靠,但作者不保證它的準確性和完整性,同時作者也不對任何可能因參考本文內容及觀點而產生的任何直接或間接的損失承擔責任。

外匯和其他產品保證金交易存在高風險,不適合所有投資者。虧損可能超出您的帳戶註資。增大槓桿意味著增加風險。在決定交易外匯之前,您需仔細考慮您的財務目標、經驗水平和風險承受能力。文中所含任何意見、新聞、研究、分析、報價或其他信息等都僅 作與本文所含主題相關的一般類信息.

同時, 兄弟財經不提供任何投資、法律或稅務的建議。您需向合適的顧問徵詢所有關於投資、法律或稅務方面的事宜。