大數據的簡單算法比小數據的複雜算法更有效

2013-09-23 08:16:31

   所以,數據多比少好,更多數據比算法系統更智能還要重要。那麼,混亂呢?在班科和佈里爾開始研究數據幾年後,微軟的最大競爭對手,谷歌,也開始更大規模地對這些問題進行探讨。谷歌用的是上萬億的語料庫,而不是十億的。谷歌做這類研究不是因為語法檢查,而是為了解決翻譯這個更棘手的難題。

  20世紀40年代,電腦由真空管制成,要佔據整個房間這麼大的空間。而機器翻譯也只是計算機開發人員的一個想法。在冷戰時期,美國掌握了大量關於蘇聯的各種資料,但缺少翻譯這些資料的人手。所以,計算機翻譯也成了亟須解決的問題。

  最初,計算機研發人員打算將語法規則和雙語詞典結合在一起。1954年,IBM以計算機中的250個詞語和六條語法規則為基础,將60個俄語詞組翻譯成了英語,結果振奮人心。IBM701通過穿孔卡片讀取了“Mipyeryedayemmislyiposryedstvomryechyi”這句話,並且將其譯成了“我們通過語言來交流思想”。在慶祝這個成就的發佈會上,一篇報道就有提到,這60句話翻譯得很流畅。這個程序的指揮官利昂-多斯特爾特(LeonDostert)表示,他相信“在三五年後,機器翻譯將會變得很成熟”。

  事實證明,計算機翻譯最初的成功誤導了人們。1966年,一群機器翻譯的研究人員意識到,翻譯比他們想象的更困難,他們不得不承認他們的失敗。機器翻譯不能只是讓電腦熟悉常用規則,還必須教會電腦處理特殊的語言情況。畢竟,翻譯不僅僅只是記憶和复述,也涉及選詞,而明確地教會電腦這些非常不現實。法語中的“bonjour”就一定是“早上好”嗎?有沒有可能是“日安”、“你好”或者“喂”?事實上都有可能——這需要視情況而定。

  在20世紀80年代後期,IBM的研發人員提出了一個新的想法。與單纯教給計算機語言規則和詞匯相比,他們試圖讓計算機自己估算一個詞或一個詞組適合於用來翻譯另一種語言中的一個詞和詞組的可能性,然後再決定某個詞和詞組在另一種語言中的對等詞和詞組。

  20世紀90年代,IBM的這個Candide專案花費了大概十年的時間,將大約有300萬句之多的加拿大議會資料譯成了英語和法語並出版。由於是官方文件,翻譯的標準就非常高。用那個時候的標準來看,數據量非常之龐大。統計機器學習從誕生之日起,就聪明地把翻譯的挑戰變成了一個數學問題,而這似乎很有效!計算機翻譯在短時間內就提高了很多。然而,在這次飛躍之後,IBM公司盡管投入了很多資金,但取得的成效不大。最終,IBM公司停止了這個專案。

本文摘自《大數據時代》


   《大數據時代》是國外大數據系統研究的先河之作,本書作者維克託-邁爾-舍恩伯格被譽為“大數據時代的預言家”,擁有在哈佛大學、牛津大學、耶魯大學和新加坡國立大學等多個互聯網研究重鎮任教的經歷,早在2010年就在《經濟學人》上發佈了長達14頁對大數據應用的前瞻性研究。維克託-爾耶-舍恩伯格在本書中前瞻性地指出,大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型,並用三個部分講述了大數據時代的思維變革、商業變革和管理變革。
  維克託最具洞見之處在於,他明確指出,大數據時代最大的轉變就是,放棄對因果關係的渴求,而取而代之關註相關關係。也就是說只要知道“是什麼”,而不需要知道“為什麼”。這颠覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。

 承諾與聲明

兄弟財經是全球歷史最悠久,信譽最好的外匯返佣代理。多年來兄弟財經兢兢業業,穩定發展,獲得了全球各地投資者的青睞與信任。歷經十餘年的積澱,打造了我們在業內良好的品牌信譽。

本文所含內容及觀點僅為一般信息,並無任何意圖被視為買賣任何貨幣或差價合約的建議或請求。文中所含內容及觀點均可能在不被通知的情況下更改。本文並未考 慮任何特定用戶的特定投資目標、財務狀況和需求。任何引用歷史價格波動或價位水平的信息均基於我們的分析,並不表示或證明此類波動或價位水平有可能在未來 重新發生。本文所載信息之來源雖被認為可靠,但作者不保證它的準確性和完整性,同時作者也不對任何可能因參考本文內容及觀點而產生的任何直接或間接的損失承擔責任。

外匯和其他產品保證金交易存在高風險,不適合所有投資者。虧損可能超出您的帳戶註資。增大槓桿意味著增加風險。在決定交易外匯之前,您需仔細考慮您的財務目標、經驗水平和風險承受能力。文中所含任何意見、新聞、研究、分析、報價或其他信息等都僅 作與本文所含主題相關的一般類信息.

同時, 兄弟財經不提供任何投資、法律或稅務的建議。您需向合適的顧問徵詢所有關於投資、法律或稅務方面的事宜。