Wirtschaftsinformatik / Very Large Business Applications

Diplomarbeit zum Thema ETL-Prozesse in aktuellen Data Warehouses

Motivation

Das Data Warehouse hat sich in größeren Unternehmen bereits als Datenquelle für das strategische Reporting etabliert. Dabei ist es meist die Data Warehouse Technologie, welche von den verschiedenen Anbietern identisch umgesetzt wurde. Obwohl die eingesetzte Technologie oft vergleichbar ist, lässt die Definition eines Data Warehouse ausreichend Spielraum, um eine Differenzierung der Produkte zu ermöglichen. Neben der Datenmodellierung und dem Reporting ist die Datenbeschaffung einer der Hauptaspekte in einem Data Warehouse. Beim Data Warehousing tritt der ETL-Prozess in Kraft, die Extraktion, Transformation und das Laden der Daten. Die Wissenschaft hat bereits viele Vorschläge gemacht, wie dieser Prozess zu implementieren ist. Allerdings kann die Umsetzung in der Praxis von den Leitlinien bewusst oder gar unbeabsichtigt abweichen.

Ziel der Arbeit

In dieser Diplomarbeit gilt es zu untersuchen, wie der ETL-Prozess von den Data Warehouse Anbietern SAP, Oracle und Microsoft realisiert wurde. Es werden die Produkte SAP BW (NetWeaver2004s), Oracle 10g und Microsoft SQL Server 2005 untereinander und mit den Vorgaben aus der Wissenschaft verglichen. Es gilt die im Folgenden genannten Punkte zu untersuchen:

  • Wie wird der ETL-Prozess in der Theorie beschrieben? Welche Vorgaben werden gemacht, wie sehen die Zielsetzungen aus? Worauf ist besonders bei der Extraktion, der Transformation und dem Laden zu achten?
  • Wie wurde der ETL-Prozess im Detail von den Anbietern SAP, Oracle und Microsoft umgesetzt?
  • Extraktion: Welche Datenquellen sind betroffen? In welchem qualitativen Zustand sind die Daten in diesen Quellen abgelegt? Ist eine Delta-Extraktion möglich? Was muss das Quellsystem leisten? Was ist für die Performance entscheidend?
  • Transformation: Wie können die Daten bereinigt werden? Wie leistungsstark ist dieser Vorgang? Gibt es automatisierte Routinen für Konvertierungen oder gar das Transponieren von Tabellen?
  • Laden: Wie sieht der Datenfluss innerhalb des DWH aus? Wie kann eine Integration der Daten realisiert werden? Gibt es eine Stammdatenintegration? Können die Daten noch modifiziert werden?
  • Welche Vorteile/ Potenziale, Nachteile / Schwächen werden bei den Ansätzen deutlich?
  • Worin unterscheiden sich die Anbieter, welche Gründe gibt es dafür?
  • Welche anderen Methoden gibt es, um Daten in das DWH zu laden? Welche anderen Datenquellen können eingesetzt werden? Ist der ETL-Prozess der einzige sinnvolle Weg, um Daten in ein DWH zu laden?
  • Was kann am ETL-Prozess verbessert werden?

Bei Interesse melden Sie sich bitte bei Prof. Dr.-Ing. Jorge Marx Gómez oder Dipl.-Inf.(FH) Nico Brehm.