允許不精確(2)

2013-09-22 08:54:50

  混亂還可以指格式的不一致性,因為要達到格式一致,就需要在進行數據處理之前仔細地清洗數據,而這在大數據背景下很難做到。“大數據”專家帕堤爾(DJPatil)指出,I.B.M.、T.J.WatsonLabs、InternationalBusinessMachines都可以用來指代IBM,甚至可能有成千上萬種方法稱呼IBM。當然,在萃取或處理數據的時候,混亂也會發生。因為在進行數據轉化的時候,我們是在把它變成另外的事物。比如,我們在對twitter的信息進行情感分析來預測好萊塢票房的時候,就會出現一定的混亂。其實,混亂的起源和類型本來就是一團亂麻。

  假設你要測量一個葡萄園的溫度,但是整個葡萄園只有一個溫度測量儀,那你就必須確保這個測試儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的數據可能會是錯誤的,也可能會更加混亂,但衆多的讀數合起來就可以提供一個更加準確的結果。因為這裡面包含了更多的數據,而它提供的價值不僅能抵消掉錯誤數據造成的影響,還能提供更多的額外價值。

  現在想想增加讀數頻率的這個事情。如果每隔一分鐘就測量一下溫度,我們至少還能夠保證測量結果是按照時間有序排列的。如果變成每分鐘測量十次甚至百次的話,不僅讀數可能出錯,連時間先後都可能搞混掉。試想,如果信息在網路中流動,那麼一條記錄很可能在傳輸過程中被延遲,在其到達的時候已經沒有意義了,甚至幹脆在奔湧的信息洪流中彻底迷失。雖然我們得到的信息不再那麼準確,但收集到的數量龐大的信息讓我們放棄嚴格精確的選擇變得更為劃算。

  在第一個例子里,我們為了獲得更廣泛的數據而犧牲了精確性,也因此看到了很多如若不然無法被關註到的細節。在第二個例子里,我們為了高頻率而放棄了精確性,結果觀察到了一些本可能被錯過的變化。雖然如果我們能夠下足夠多的工夫,這些錯誤是可以避免的,但在很多情況下,與致力於避免錯誤相比,對錯誤的包容會帶給我們更多好處。

  為了規模的擴大,我們接受適量錯誤的存在。正如技術咨詢顧問福瑞斯特(Forrester)說的,有時得到2加2約等於3.9的結果,也很不錯了。當然,數據不可能完全錯誤,但為了了解大致的發展趨勢,我們願意對精確性做出一些讓步。

本文摘自《大數據時代》


   《大數據時代》是國外大數據系統研究的先河之作,本書作者維克託-邁爾-舍恩伯格被譽為“大數據時代的預言家”,擁有在哈佛大學、牛津大學、耶魯大學和新加坡國立大學等多個互聯網研究重鎮任教的經歷,早在2010年就在《經濟學人》上發佈了長達14頁對大數據應用的前瞻性研究。維克託-爾耶-舍恩伯格在本書中前瞻性地指出,大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型,並用三個部分講述了大數據時代的思維變革、商業變革和管理變革。
  維克託最具洞見之處在於,他明確指出,大數據時代最大的轉變就是,放棄對因果關係的渴求,而取而代之關註相關關係。也就是說只要知道“是什麼”,而不需要知道“為什麼”。這颠覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。

 承諾與聲明

兄弟財經是全球歷史最悠久,信譽最好的外匯返佣代理。多年來兄弟財經兢兢業業,穩定發展,獲得了全球各地投資者的青睞與信任。歷經十餘年的積澱,打造了我們在業內良好的品牌信譽。

本文所含內容及觀點僅為一般信息,並無任何意圖被視為買賣任何貨幣或差價合約的建議或請求。文中所含內容及觀點均可能在不被通知的情況下更改。本文並未考 慮任何特定用戶的特定投資目標、財務狀況和需求。任何引用歷史價格波動或價位水平的信息均基於我們的分析,並不表示或證明此類波動或價位水平有可能在未來 重新發生。本文所載信息之來源雖被認為可靠,但作者不保證它的準確性和完整性,同時作者也不對任何可能因參考本文內容及觀點而產生的任何直接或間接的損失承擔責任。

外匯和其他產品保證金交易存在高風險,不適合所有投資者。虧損可能超出您的帳戶註資。增大槓桿意味著增加風險。在決定交易外匯之前,您需仔細考慮您的財務目標、經驗水平和風險承受能力。文中所含任何意見、新聞、研究、分析、報價或其他信息等都僅 作與本文所含主題相關的一般類信息.

同時, 兄弟財經不提供任何投資、法律或稅務的建議。您需向合適的顧問徵詢所有關於投資、法律或稅務方面的事宜。