Google 每天處理約 20000TB 的數據
作者: its
|
發布: 2008/11/24 (上午 07:02)
|
閱讀: 29553
|
評論: 0
|
靜態地址
|
內容源碼
Google 熱衷于處理全球的信息,每天,他們花費大量時間探索更好的信息整理技術,他們目前使用的技術為 MapReduce,這是一種可以對數據進行并發處理的軟件架構。鑒于其簡單性與處理大規模數據的能力,MapReduce 是 Google 日常數據處理的完美技術方案。
Google 的數據整理實驗一直以每 TB 數據表現為基準。這些標準話實驗幫助 Google 理解和對比不同技術的優秀劣,并獲得經驗和教訓,以改進下一代數據處理技術。
目前,Google 的每 TB 數據處理能力為,在1000臺計算機中處理 1TB 數據的時間為68秒(使用 Google File System 將 1TB 數據保存在100億個 100 字節的非壓縮文本文件中),以前的表現為 910 臺電腦 209秒。
但 Google 要處理的數據遠超過 TB 級,因此,Google 做了 PB 級數據處理實驗。1PB 數據是 1TB 的1000倍,或者,形象一點說,1PB 數據相當于 2008 年5月,美國國會圖書館存檔的 Web 數據的 12 倍。2008年1月的統計結果顯示,Google 每天處理的數據為平均為 20PB,相當于 20000TB。在 4000 臺計算機中處理 1PB 數據花費6小時領2分鐘。
有一個有趣的問題,就是,如何保存這么多數據。Google 將這些數據保存在 48000 個硬盤中(每個只利用了部分空間),每次進行數據整理,至少有一個硬盤壞掉(鑒于處理的時長,硬盤的數目和硬盤本身的壽命,這并不奇怪),因此,為了保證數據安全,Google 將每份數據都在不同的硬盤上寫三份。
本文國際來源:http://googleblog.blogspot.com/2008/11/sorting-1pb-with-mapreduce.html 中文翻譯來源:COMSHARP CMS
|