穿孔卡片與美國人口普查(1)

2013-09-20 23:10:20

  美國在1880年進行的人口普查,耗時8年才完成數據匯總。因此,他們獲得的很多數據都是過時的。1890年進行的人口普查,預計要花費13年的時間來匯總數據。即使不考慮這種情況違反了憲法規定,它也是很荒謬的。然而,因為稅收分攤和國會代表人數確定都是建立在人口的基础上的,所以必須要得到正確的數據,而且必須是及時的數據。

  美國人口普查局面臨的問題與當代商人和科學家遇到的問題很相似。很明顯,當他們被數據淹沒的時候,已有的數據處理工具已經難以應付了,所以就需要有更多的新技術。

  後來,美國人口普查局就和當時的美國發明家赫爾曼-霍爾瑞斯(HermanHollerith)簽訂了一個協議,用他的穿孔卡片制表機來完成1890年的人口普查。

  經過大量的努力,霍爾瑞斯成功地在1年時間內完成了人口普查。這簡直就是一個奇迹,它標志著自動處理數據的開端,也為後來IBM公司的成立奠定了基础。但是,將其作為收集處理大數據的方法依然過於昂貴。畢竟,每個美國人都必須填一張可制成穿孔卡片的表格,然後再進行統計。這麼麻煩的情況下,很難想象如果不足十年就要進行一次人口普查應該怎麼辦。但是,對於一個跨越式發展的國家而言,十年一次的人口普查的滞後性已經讓普查失去了大部分意義。

  這就是問題所在,是利用所有的數據還是僅僅採用一部分呢?最明智的自然是得到有關被分析事物的所有數據,但是當數量無比龐大時,這又不太現實。那如何選擇樣本呢?有人提出有目的地選擇最具代表性的樣本是最恰當的方法。1934年,波蘭統計學家耶日-奈曼(JerzyNeyman)指出,這只會導致更多更大的漏洞。事實證明,問題的關鍵是選擇樣本時的隨機性。

  統計學家們證明:採樣分析的精確性隨著採樣隨機性的增加而大幅提高,但與樣本數量的增加關係不大。雖然聽起來很不可思議,但事實上,一個對1100人進行的關於“是否”問題的抽樣調查有著很高的精確性,精確度甚至超過了對所有人進行調查時的97%。這是真的,不管是調查10萬人還是1億人,20次調查里有19都是這樣。為什麼會這樣?原因很複雜,但是有一個比較簡單的解釋就是,當樣本數量達到了某個值之後,我們從新個體身上得到的信息會越來越少,就如同經濟學中的邊際效應遞減一樣。

  認為樣本選擇的隨機性比樣本數量更重要,這種觀點是非常有見地的。這種觀點為我們開辟了一條收集信息的新道路。通過收集隨機樣本,我們可以用較少的花費做出高精準度的推斷。因此,政府每年都可以用隨機採樣的方法進行小規模的人口普查,而不是只能每十年進行一次。事實上,政府也這樣做了。例如,除了十年一次的人口大普查,美國人口普查局每年都會用隨機採樣的方法對經濟和人口進行200多次小規模的調查。當收集和分析數據都不容易時,隨機採樣就成為應對信息過量的辦法。

  很快,隨機採樣就不僅應用於公共部門和人口普查了。在商業領域,隨機採樣被用來監管商品質量。這使得監管商品質量和提升商品品質變得更容易,花費也更少。以前,全面的質量監管要求對生產出來的每個產品進行檢查,而現在只需從一批商品中隨機抽取部分樣品進行檢查就可以了。本質上來說,隨機採樣讓大數據問題變得更加切實可行。同理,它將客戶調查引進了零售行業,將焦點讨論引進了政治界,也將許多人文問題變成了社會科學問題。

  隨機採樣取得了巨大的成功,成為現代社會、現代測量領域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數據的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴於採樣的絕對隨機性,但是實現採樣的隨機性非常困難。一旦採樣過程中存在任何偏見,分析結果就會相去甚遠。

本文摘自《大數據時代》


   《大數據時代》是國外大數據系統研究的先河之作,本書作者維克託-邁爾-舍恩伯格被譽為“大數據時代的預言家”,擁有在哈佛大學、牛津大學、耶魯大學和新加坡國立大學等多個互聯網研究重鎮任教的經歷,早在2010年就在《經濟學人》上發佈了長達14頁對大數據應用的前瞻性研究。維克託-爾耶-舍恩伯格在本書中前瞻性地指出,大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型,並用三個部分講述了大數據時代的思維變革、商業變革和管理變革。
  維克託最具洞見之處在於,他明確指出,大數據時代最大的轉變就是,放棄對因果關係的渴求,而取而代之關註相關關係。也就是說只要知道“是什麼”,而不需要知道“為什麼”。這颠覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。

 承諾與聲明

兄弟財經是全球歷史最悠久,信譽最好的外匯返佣代理。多年來兄弟財經兢兢業業,穩定發展,獲得了全球各地投資者的青睞與信任。歷經十餘年的積澱,打造了我們在業內良好的品牌信譽。

本文所含內容及觀點僅為一般信息,並無任何意圖被視為買賣任何貨幣或差價合約的建議或請求。文中所含內容及觀點均可能在不被通知的情況下更改。本文並未考 慮任何特定用戶的特定投資目標、財務狀況和需求。任何引用歷史價格波動或價位水平的信息均基於我們的分析,並不表示或證明此類波動或價位水平有可能在未來 重新發生。本文所載信息之來源雖被認為可靠,但作者不保證它的準確性和完整性,同時作者也不對任何可能因參考本文內容及觀點而產生的任何直接或間接的損失承擔責任。

外匯和其他產品保證金交易存在高風險,不適合所有投資者。虧損可能超出您的帳戶註資。增大槓桿意味著增加風險。在決定交易外匯之前,您需仔細考慮您的財務目標、經驗水平和風險承受能力。文中所含任何意見、新聞、研究、分析、報價或其他信息等都僅 作與本文所含主題相關的一般類信息.

同時, 兄弟財經不提供任何投資、法律或稅務的建議。您需向合適的顧問徵詢所有關於投資、法律或稅務方面的事宜。