Het geautomatiseerde datawarehouse

Een datawarehouse opzetten bestaat uit een aantal stappen die in ieder datawarehouse terugkomen. Deze taken kennen we onder de afkorting ETL (extraction, transformation and loading). ETL smeekt om automatisering.

De voordelen op een rij

  • Sneller resultaat, binnen een week online
  • Minder ontwikkeltijd, meer tijd voor analyse
  • Actuele documentatie
  • Meerdere bronsystemen inzichtelijk
  • Monitoring en alerts
  • Actuele data, ook gedurende de dag
  • Duidelijke analyses en rapportages

De vulling van een datawarehouse

Een datawarehouse wordt gevuld door middel van ETL. Simpel gezegd bestaat het vullen van een datawarehouse uit een aantal stappen:

  • Kopiëren van data uit het bronsysteem
  • Omzetten van deze data naar bruikbare informatie
  • Beschikbaar stellen voor rapportage en analyse

Bij het kopiëren van de data gaat het bijvoorbeeld om de tabellen uit de bron. Dit is een repeterende taak, die in eerste instantie vrij eenvoudig te automatiseren lijkt. In onze oplossing is dit ook geautomatiseerd voor de meest uiteenlopende databronnen, zoals SQL Server, IBM databases, Azure SQL database, MySQL, Intrac, Excel bestanden enzovoort.

Houdt rekening met het service window

Het simpelweg overzetten van data is vrij eenvoudig te doen, het wordt pas echt leuk als het om grote hoeveelheden gaat en dus het kopiëren van een complete tabel niet wenselijk is omdat daarmee de service window in gevaar komt waarbinnen het laden afgerond moet zijn. Kortom er moet een manier gevonden worden om te zorgen dat niet alle data opgehaald hoeft te worden. Alleen gewijzigde of nieuwe data ophalen maakt het automatiseren van deze stap alweer een stuk ingewikkelder en standaard aanwezig in onze opzet.

data_flow_gebruikers

Naast het automatiseren van een stap, is het ook wenselijk om te zorgen dat de resources die ter beschikking staan optimaal gebruikt worden. Als er werk te doen is, is het wel prettig als de server gebruikt wordt en er geen processoren stil staan terwijl er één heel druk is. Het geautomatiseerde proces dient dus te zorgen dat taken parallel uitgevoerd worden en alle processeroren aan het werk zetten.

Nieuw veld binnen 10 minuten online

Zodra de data in het datawarehouse staat wordt deze omgezet naar een feitengebieden en dimensies. Ook hier is veel automatisering mogelijk op verschillende vlakken. De meeste dimensies hebben veel overeenkomsten qua opzet en dus aantrekkelijke kandidaten om te automatiseren. Daarnaast is het tegenwoordig belangrijk dat een aanpassing snel gemaakt kan worden.

Het toevoegen van een veld aan een dimensie is zo eenvoudig mogelijk gemaakt. Het aanpassen van een dimensie is zo simpel dat een nieuw veld toevoegen aan een dimensie in no-time gerealiseerd is. En dan mag u denken aan een minuut of tien.

Bijwerken van de data, ook overdag

Voor feitengebieden is het wenselijk dat het laden van de transacties opgedeeld kan worden in een stukje archief (data die niet meer wijzigd) en data die actueel is. Door dit te automatiseren kan het herladen van een datawarehouse ook overdag.

Erg handig voor een financiele afdeling die maandelijks te maken heeft met afsluitingen. Op deze manier wordt controleren en corrigeren eenvoudig en zorgt voor sneller afsluiten van een periode.

Documentatie altijd actueel

Om te kunnen automatiseren is metadata en metametadata belangrijk. De automatisering die wordt toegepast is gebaseerd op de metadata en metametadata die te vinden is in SQL Server. Automatiseren vind ik leuk, documenteren wat minder en voelt dubbelop. Omdat de stappen grotendeels geautomatiseerd plaatsvinden is hier in de metadata en metametadata een beschrijving van. Door deze beschrijving samen te vatten in een rapport is de documentatie altijd actueel en direct opvraagbaar via SQL Reporting Services.

Datawarehouse als superjacht

Door de grote toename van data is het automatiseren van een datawarehouse topprioriteit geworden. Voor veel mensen klinkt het woord datawarehouse als een grote logge olietanker. En in het verleden was dit ook zo. Maar door automatisering toe te passen is het datawarehouse verandert in een snel wendbaar superjacht.

Speel in op verandering

Naast de toename van de data enerzijds merk ik ook dat bedrijven snel veranderen. Vaak verandert ook de manier waarop er naar de data wordt gekeken. Het is dan wel prettig als de analyse hier snel op aangepast kan worden. Het komt erop neer dat het ETL stuk snel aangepast moet kunnen worden.