Grundlagen (Hersteller-Unabhängig)
Datenbank-Modellierung
Die meisten Datenbanken benutzen normalisierte Daten. Anders ist es im Data Warehouse: hier trifft man in der Regel auf denormalisierte Daten, auch wenn es durchaus Konzepte für normalisierte Daten im DWH gibt. Ziel des Data Warehouse (OLAP) auf schnelle Lesezugriffe zu optimieren, währende Transaktionsdatenbanken (OLTP) auf Inserts und Update optimiert sind.
- Datenbankmodellierung
- Grundlagen der Datenbankmodellierung
- Entity Framework Designer
- Datenbankmodellierung mit Visio
- Visio Tutorial – Database Model Design (J.G. Zheng)
- um basierend auf einem relationalen Datenbankmodell, welches in Visio designt worden ist, kann man auf ein Visio-Add-in zurückgreifen
- OLTP vs OLAP
- David Taylor – OLTP vs OLAP: Difference Between OLTP and OLAP
- OLTP – Online Transaction Processing:
- OLAP – Online Analytical Processing
- Data Warehouse
- Schlenker, Ulrike – Datenmodellierung für das Data Warehouse – Vergleich und Bewertung konzeptioneller und logischer Methoden (Diplomarbeit)
- Datenbankschema: Stars vs Snowflake
- Granularität
- Partitionierung
Business Intelligence Platform

Datenaufbereitung (ETL)

ETL steht für Extract, Transform, Load und beschreibt den Prozess der Datenextraktion einer Datenquelle und Transformation in das Format für die weitere Verarbeitung, beispielsweise für das DWH.
- Informatica – Power Center
- IBM – Infosphere Information Server
- Oracle Data Integrator
- Microsoft SQL Integration Services (SSIS)
- Talend
- Pentaho Data Integration
- Apache NiFi
- SAP – Business Objects Date Integrator
- Sybase ETL
- DBSoftlab
- Jasper
Data Warehouse in der Cloud
- Google Big Query
- Amazon Redshift
- Azure Data Warehouse / Azure Synapse Analytics
- Snowflake
- Apache Kylin
- weiterführende Informationen:
- Data Warehouse Cloud Benchmark
- Farhad Alam & Neel Kamal – Survey on Data Warehouse from Taditional ot Realtime and Society Impact of Real Time Data
Cubes (OLAP Cubes)
Allgmeines
Ein OLAP-Würfel oder Datenwürfel (englisch OLAP cube oder engl. data cube), auch Cube-Operator genannt, ist ein in der Data-Warehouse-Theorie gebräuchlicher Begriff zur logischen Darstellung von Daten. Die Daten werden dabei als Elemente eines mehrdimensionalen Würfels (engl. cube) angeordnet. Die Dimensionen des Würfels beschreiben die Daten und erlauben auf einfache Weise den Zugriff. Daten können über eine oder mehrere Achsen des Würfels ausgewählt werden. Die Bezeichnung OLAP (Online Analytical Processing) stammt aus der Datenanalyse. [Wikipedia]
- Slicing: Ausschneiden von Scheiben aus dem Datenwürfel

- Dicing: Hierbei wird ein kleinerer Würfel erzeugt, der ein Teilvolumen des Gesamtwürfels enthält. Dieses geschieht durch Teileinschränkungen auf einer oder mehreren Dimensionen.

- Pivoting / Rotation: Drehen des Datenwürfels, so dass mindestens eine andere Dimension sichtbar wird
- Drill-Down: Aggregationen eines Informationsobjekts auf detaillierte Werte herunterbrechen; „Hereinzoomen“
- Drill-Up/Roll-Up: Gegenoperation zu Drill-Down; Verdichten auf höhere Hierarchiestufe (z. B. von der Monats- auf die Jahressicht)

- Drill-Across: Dimension auf der gleichen Hierarchiestufe; Betrachtung der benachbarten Dimensionselemente (andere Region, anderes Produkt, anderer Monat)
- Drill-Through: während man sich bei Drill-Up oder Drill-Down vertikal durch die Daten(Hierarchie) bewegt, wird Drill-Through dafür verwendet horizontal weitere OLAP-Würfel auszuwerten; manchmal wird Drill-Across mit Drill-Through gleichgesetzt
- Split: Der Split-Operator ermöglicht es, einen Wert nach mehreren Dimensionen aufzuteilen, um weitere Details zu ermitteln (z. B. den Umsatz einer Filiale für eine bestimmte Menge von Produkten)
- Merge / Drill-In: Im Gegensatz zu Split wird hier die Granularität durch das Entfernen zusätzlicher Dimensionen wieder verringert.
Software
- Microsoft SSAS
- Multidimensional Cubes
- Tabular Cubes
- IBM Cognos
- IBM Cognos Transformer (File-based MOLAP cube with pre-aggregation)
- IBM Cognos TM1 (In-memory MOLAP technology with write-back support)
- IBM Cognos Dynamic Cubes (In-memory accelerator for dimensional analysis)
- Dimensionally modeled relational (DMR) (Dimensional view of a relational database)
- Oracle
- Oracle Hyperion Essbase
- SAP
- SAP BI (vormale SAP Netwever Business Warehouse = SAP BW)
DAX vs MDX
Bei Multidimensionalen Modellen wird MDX als Abfrage verwendet. Hierbei werden Tupel als Zellen im Cube Space angesprochen. Die Axen im Tupel beschreiben die Koordinaten.
(Date.Calendar.[Calendar Year].&[2013], Measures.[Internet Sales Amount])
Tabulare Modelle greifen auf die Abfragesprache DAX zurück. Hierbei werden die zugrundeliegenden Tabellen gefiltert. Somit ist das Ergebnis die Schnittmenge der einzelnen Kriterien.
weitere Details dazu siehe [hier]
Visualisierung der Daten
- Darstellung der Daten am Sharepoint (nicht mehr aktuell)
- Power BI
- Qlik
- Tableau
- Google Looker
- Amazon QickSight