網路議題

資料網格釋出!Databricks 推出 Lakehouse Federation

Databricks 推出 Lakehouse Federation 構建資料網格作者:資料技術公司 Databricks 在其 Data + AI Summit 上推出了 Lakehouse Federation 功能,旨在構建一個資料網格。使用這一新功能,企業可以將各種孤立的資料系統整合起來,跨 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

資料網格釋出!Databricks 推出 Lakehouse Federation

Databricks 推出 Lakehouse Federation 構建資料網格

作者:

資料技術公司 Databricks 在其 Data + AI Summit 上推出了 Lakehouse Federation 功能,旨在構建一個資料網格。使用這一新功能,企業可以將各種孤立的資料系統整合起來,跨各種平臺,如 MySQL 和 PostgreSQL 資料庫、Amazon Redshift、Snowflake、Azure SQL Database、Azure Synapse 和 Google's BigQuery 進行資料的發現、查詢和管理。這一功能由 Databricks 的 Unity Catalog 提供治理支援。Databricks 聯合創始人兼技術長 Matei Zaharia 表示:“[Lakehouse Federation]是爲了將我們的平臺擴充套件到可輕鬆管理和查詢其他系統的資料。” 他解釋說,這一新功能的核心特點之一是查詢聯邦,它允許使用者存取不同的資料源並高效查詢這些資料,同時在 Databricks 內部將其視爲標準資料庫。通常情況下,一家公司可能在一個 MySQL 資料庫中擁有實時資料,並爲應用程式提供支援,但分析師可能希望將其與資料倉庫中的歷史資料相結合,並跨兩個系統進行查詢。使用 Lakehouse Federation,Databricks 現在能夠處理此類查詢計劃(並根據需要快取資料以保持系統效能)。當然理想情況下,Databricks 希望每個人都使用其平臺,但現實情況是,盡管企業希望簡化基礎設施,但遷移資料平臺的難度很大。“這允許您至少爲使用者提供單一介面和單一管理位置,”Zaharia 解釋道。通常,公司會嘗試自行構建此類系統,這往往既成本高昂又復雜(而且常常失敗)。Zaharia 還指出,Databricks 在這方面具有有趣的優勢,因爲其產品建立在 Apache Spark 上,而 Spark 開源生態系統包含各種存取器,Databricks 可以利用這些存取器構建像 Lakehouse Federation 這樣的產品,而無需重建許多核心整合工具。其中一個優勢在於,Databricks 還將其資料治理功能整合在其中使企業能夠更輕鬆地在不同平臺上管理對其資料的存取。例如,微軟的 Purview 治理解決方案也一直看好這一點。現在資料治理比以往任何時候都更受企業的關注。“我們透過一個系統使組織能夠存取所需的所有資料,這將導致更多創新,並且最好的創新是不會犧牲安全性。透過讓客戶能夠在不同平臺上一致地應用規則和跟蹤資料使用情況,我們將幫助他們滿足合規要求,同時推動業務發展,” Zaharia 表示。

對於企業來說資料是一項重要的資產,因此有效地管理和利用資料對於其業務發展至關重要。隨着資料規模的不斷擴大和資料來源的多樣化,企業面臨着巨大的挑戰。往往,各個部門和業務單元在使用不同的資料系統和技術,資料被儲存在各種孤立的資料湖和資料倉庫中,缺乏統一的資料存取和管理機制。

構建資料網格的意義

在這種情況下,構建一個資料網格變得至關重要。資料網格是一種將資料資源組織爲相互存取的網路結構的方法,它透過統一的資料存取層和資料治理機制,使企業能夠在各種資料系統中自由發現、查詢和管理資料。資料網格旨在打破資料孤島,實現資料的互聯互通,幫助企業更有效地使用資料,促進創新和業務增長。

在 Databricks 的 Lakehouse Federation 功能中,Databricks 提供了一種靈活且強大的解決方案,幫助企業在不同的資料系統中實現資料的整合和查詢。例如,如果一個企業在一個 MySQL 資料庫中有實時資料,但分析師需要同時查詢該資料庫和資料倉庫中的歷史資料,那麼 Databricks 的 Lakehouse Federation 功能可以幫助實現這一需求。這樣的功能使得企業可以在 Databricks 平臺上透過簡單的查詢語句來獲取從不同資料系統中檢索的資料,無需在不同系統之間切換和復雜的資料整合操作。

挑戰和機遇

然而構建一個有效的資料網格並不容易。企業在這方面面臨着一些挑戰。首先是資料系統的多樣性和復雜性。企業通常使用多種資料系統,如 MySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure SQL Database 和 Google's BigQuery 等。這些系統具有不同的資料模型、查詢語言和資料存取機制,將它們整合在一起並提供統一的查詢介面和資料存取層是具有挑戰性的。

其次是資料治理和資料安全的問題。在資料網格中進行資料整合和查詢時,必須確保資料存取的安全性,防止未經授權的使用者存取和濫用資料。此外企業還需要遵守法規和合規要求,確保資料的合法性和隱私保護。

然而構建一個強大的資料網格也帶來了巨大的機遇。透過將不同的資料系統整合在一起,企業可以更加高效地利用資料資源。資料網格可以幫助企業發現資料之間的聯動和聯系,促進跨部門和跨團隊合作,提供更深入的分析和洞察力。同時資料網格還可以加固企業的資料治理,確保資料的質量、可靠性和合規性。

建議和展望

對於企業來說構建一個有效的資料網格是一個長期的、漸進的過程。以下是一些建議來幫助企業在構建資料網格時取得成功:

1. 制定整體的資料戰略

企業需要制定明確的資料戰略,明確資料的價值和用途,制定資料管理和治理的規程和流程。一個全面的資料戰略是構建一個有意義的資料網格的基礎。

2. 選擇合適的技術平臺和解決方案

企業應根據自身的需求和現有的技術基礎,選擇合適的技術平臺和解決方案。Databricks 的 Lakehouse Federation 功能是一個很好的選擇,但也可以考慮其他的資料整合和查詢工具。

3. 強調資料治理和安全性

資料治理和安全性是資料網格建設中的關鍵考慮因素。企業應該制定嚴格的資料存取控制和許可權管理機制,確保資料的安全性和合規性。此外企業還應該關注資料質量和資料隱私的問題。

4. 培養人才和建立團隊

構建一個資料網格需要具備專業的技術人才和團隊。企業應該培養資料管理和資料治理方面的專業人才,並建立一個高效協作的團隊。

總之資料網格是構建一個靈活、高效和安全的資料管理和查詢環境的關鍵。借助 Databricks 的 Lakehouse Federation 功能,企業可以更好地整合和查詢各種資料系統,實現資料的互聯互通。然而構建一個強大的資料網格需要企業有清晰的資料戰略、合適的技術平臺和解決方案以及強調資料治理和安全性的意識。透過正確的方法和策略,企業可以充分利用資料資源,推動創新和業務增長。

Lakehouse--資料網格-Databricks-LakehouseFederation
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。