Google 每天處理約 20000TB 的數據

行業新聞

Google 熱衷于處理全球的信息，每天，他們花費大量時間探索更好的信息整理技術，他們目前使用的技術為 MapReduce，這是一種可以對數據進行并發處理的軟件架構。鑒于其簡單性與處理大規模數據的能力，MapReduce 是 Google 日常數據處理的完美技術方案。

Google 的數據整理實驗一直以每 TB 數據表現為基準。這些標準話實驗幫助 Google 理解和對比不同技術的優秀劣，并獲得經驗和教訓，以改進下一代數據處理技術。

目前，Google 的每 TB 數據處理能力為，在1000臺計算機中處理 1TB 數據的時間為68秒（使用 Google File System 將 1TB 數據保存在100億個 100 字節的非壓縮文本文件中），以前的表現為 910 臺電腦 209秒。

但 Google 要處理的數據遠超過 TB 級，因此，Google 做了 PB 級數據處理實驗。1PB 數據是 1TB 的1000倍，或者，形象一點說，1PB 數據相當于 2008 年5月，美國國會圖書館存檔的 Web 數據的 12 倍。2008年1月的統計結果顯示，Google 每天處理的數據為平均為 20PB,相當于 20000TB。在 4000 臺計算機中處理 1PB 數據花費6小時領2分鐘。

有一個有趣的問題，就是，如何保存這么多數據。Google 將這些數據保存在 48000 個硬盤中（每個只利用了部分空間），每次進行數據整理，至少有一個硬盤壞掉（鑒于處理的時長，硬盤的數目和硬盤本身的壽命，這并不奇怪），因此，為了保證數據安全，Google 將每份數據都在不同的硬盤上寫三份。

本文國際來源：http://googleblog.blogspot.com/2008/11/sorting-1pb-with-mapreduce.html
中文翻譯來源：COMSHARP CMS

評論

...

發送給朋友| 打印友好

7 x 12 小時服務熱線

0532 - 83669660