必威电竞|足球世界杯竞猜平台

數據湖
來源:互聯網

數據湖是一個未整合的、非面向主題的數據集合。高德納咨詢公司 Research 在其定義中添加了更多的背景:“原始數據源之外的各種數據資產存儲實例的集合。這些資產存儲在與源格式幾乎完全一樣(甚至完全一樣)的副本中?!?/p>

數據湖的概念是由趨勢演變而來的,因為企業迫切需要一種方法來處理傳統數據倉庫無法處理的日益增長的數據格式以及不斷增長的數據規模和速度。數據湖可以存放來源不同的任何類型的數據,這些數據可以是結構化的、非結構化的、半結構化的或二進制的。它是你可以以可伸縮的方式存儲和處理所有數據的地方。

在2006年引人Apache Hadoop之后,數據湖成為開源軟件工具生態系統的同義詞,簡稱“Hadoop”,其使用計算機網絡為分布式存儲和大數據處理提供了一個軟件框架,來解決涉及大量數據和計算的問題。雖然大多數人會認為Hadoop只不過是一個數據湖,但它確實解決了多樣性、速度和規模方面的一些挑戰。

價值

數據湖的一部分價值是把不同種類的數據匯聚到一起,另一部分價值是不需要預定義的模型就能進行數據分析?,F在的大數據架構是可擴展的,并且可以為用戶提供越來越多的實時分析。在商業智能(BI)和數據倉庫還沒有被淘汰的今天,大數據分析和大數據湖正在向更多類型的實時智能服務發展,這些實時的智能服務可以支持實時的決策制定。

隱憂

數據湖架構面向多數據源的信息存儲,包括物聯網在內。大數據分析或歸檔可通過訪問數據湖處理或交付數據子集給請求用戶。但數據湖架構可不僅僅是一個巨大的磁盤而已。

數據湖的數據持久性和安全卻是需要優先考慮的因素。很多選擇都能交付一個合理的成本,但并非所有都能滿足數據湖的長期存儲需求。挑戰就在于數據湖中很多數據永遠不會刪除。這種數據的價值在于它要拿來分析以及和年復一年的數據進行比對,這將抵消其容量成本。

在數據湖架構中,信息安全作為另一項挑戰往往被人忽視。相比于其它,這種類型的存儲安全要更加重要。數據湖架構從定義上看是將所有的雞蛋放在一個籃子中。而如果其中一個存儲庫的安全被破壞,那么未知方將可能訪問所有數據。很多數據都以易于讀取的格式存儲,像是JPEG、PDF文件——如果你的數據湖架構不夠安全,那么信息損失很容易。

參考資料 >

生活家百科家居網