Ewolucja architektury danych: od hurtowni do lakehouse

Źródło: SqlPac, CC BY-SA 3.0, Wikimedia Commons

Architektura przechowywania danych analitycznych przeszła w ciągu ostatnich dekad wyraźną ewolucję, odzwierciedlającą zmieniające się potrzeby organizacji w zakresie skali, elastyczności i różnorodności przetwarzanych danych.

Relacyjne hurtownie danych

Pierwszym powszechnie stosowanym podejściem do przechowywania danych analitycznych były relacyjne hurtownie danych, oparte zwykle na modelu schematu gwiazdy, w którym dane faktów powiązane są z tabelami wymiarów. Struktura ta wymagała wcześniejszego zdefiniowania schematu danych przed ich załadowaniem.

Pierwsze wdrożenia data lake

Wraz ze wzrostem różnorodności i wolumenu danych, w tym danych nieustrukturyzowanych, organizacje zaczęły wdrażać architekturę data lake, umożliwiającą przechowywanie danych w ich oryginalnym formacie bez konieczności wcześniejszego definiowania sztywnego schematu, co opisano szerzej w wydaniu Data warehouse a data lake: kluczowe różnice.

Problem „data swamp”

Brak odpowiedniego zarządzania metadanymi w wielu wczesnych wdrożeniach data lake prowadził do zjawiska określanego jako „data swamp” — sytuacji, w której dane stają się trudne do odnalezienia i wykorzystania ze względu na brak spójnej struktury katalogowej i dokumentacji.

Model data lakehouse

Odpowiedzią na ograniczenia zarówno klasycznych hurtowni danych, jak i niezarządzanych data lake, stał się model data lakehouse, łączący elastyczność przechowywania surowych danych z mechanizmami zarządzania transakcyjnością i jakością danych znanymi z hurtowni.

Ewolucja architektury danych: od hurtowni do lakehouse

Spis treści

Relacyjne hurtownie danych

Pierwsze wdrożenia data lake

Problem „data swamp”

Model data lakehouse

Data warehouse a data lake: kluczowe różnice

Procesy ETL i ELT w architekturze danych

Przetwarzanie rozproszone: Hadoop i Spark w praktyce