Wdrożenia data lake w polskich organizacjach: konteksty

Źródło: Intel Free Press, CC BY 2.0, Wikimedia Commons

Wdrożenie architektury data lake w organizacji działającej na rynku polskim wiąże się zwykle z kilkoma powtarzającymi się etapami, niezależnie od branży czy wielkości przedsiębiorstwa.

Punkt wyjścia: rozproszone źródła danych

Decyzja o wdrożeniu data lake podejmowana jest zwykle w momencie, gdy organizacja gromadzi dane pochodzące z wielu różnorodnych źródeł — systemów transakcyjnych, aplikacji webowych, urządzeń IoT — których konsolidacja w klasycznej hurtowni danych okazuje się niewystarczająco elastyczna.

Zespoły odpowiedzialne za wdrożenie

Za wdrożenie architektury data lake odpowiada zwykle zespół inżynierii danych, współpracujący z analitykami biznesowymi przy definiowaniu docelowych przypadków użycia. Rola zespołu inżynieryjnego obejmuje konfigurację procesów ładowania danych, opisanych szerzej w wydaniu Procesy ETL i ELT w architekturze danych, oraz zapewnienie odpowiedniego zarządzania metadanymi.

Typowe wyzwania integracyjne

Wśród najczęściej napotykanych wyzwań przy wdrożeniach data lake w polskich organizacjach wymienia się konieczność integracji z systemami opartymi na starszych architekturach oraz potrzebę zapewnienia odpowiedniego poziomu zarządzania jakością i dokumentacją danych, aby uniknąć zjawiska opisanego w wydaniu Ewolucja architektury danych: od hurtowni do lakehouse jako „data swamp”.

Wdrożenia data lake w polskich organizacjach: konteksty

Spis treści

Punkt wyjścia: rozproszone źródła danych

Zespoły odpowiedzialne za wdrożenie

Typowe wyzwania integracyjne

Ewolucja architektury danych: od hurtowni do lakehouse

Data warehouse a data lake: kluczowe różnice

Procesy ETL i ELT w architekturze danych