Grundlagen (Hersteller-Unabhängig)
Begriffsbestimmungen
Was ist Data Science?
Business Intelligence, auch als BI bezeichnet, ist ein Bereich, der sich mit der Sammlung, Analyse und Bereitstellung von Unternehmensdaten befasst. Ziel von BI ist es, Unternehmen dabei zu unterstützen, datenbasierte Entscheidungen zu treffen und somit ihre Geschäftsleistung zu verbessern. Dies kann dazu beitragen, Unternehmen wettbewerbsfähiger zu machen, indem sie ihnen helfen, schnellere und genauere Entscheidungen zu treffen.
BI-Tools werden häufig verwendet, um Daten aus verschiedenen Quellen zu integrieren und zu visualisieren, um Muster und Trends zu identifizieren, die für das Unternehmen von Bedeutung sind. Dazu gehören beispielsweise Dashboards und Berichte, die es Führungskräften ermöglichen, schnell auf wichtige Informationen zuzugreifen und Entscheidungen auf der Grundlage von Daten zu treffen.
Ein wichtiger Aspekt von BI ist die Verwendung von Algorithmen und anderen Analysemethoden, um die Daten zu analysieren und zu interpretieren. Dies kann dazu beitragen, wichtige Muster und Zusammenhänge in den Daten zu erkennen, die von Menschen möglicherweise nicht bemerkt werden würden. Auf diese Weise können Unternehmen wichtige Einblicke in ihre Geschäftstätigkeit und ihre Kunden gewinnen, die ihnen bei der Entscheidungsfindung helfen.
BI kann auf verschiedene Arten eingesetzt werden, um Unternehmen bei der Verbesserung ihrer Geschäftsleistung zu unterstützen. Zum Beispiel können BI-Tools dazu verwendet werden, um Verkaufs- und Marketingstrategien zu optimieren, indem sie Unternehmen dabei helfen, Kundenbedürfnisse besser zu verstehen und entsprechend darauf zu reagieren. Auch können BI-Tools dazu beitragen, die Effizienz von Geschäftsprozessen zu verbessern, indem sie Möglichkeiten zur Automatisierung und Optimierung von Prozessen aufzeigen.
Was ist Data Science?
Data Science ist ein interdisziplinäres Feld, das sich mit der Extraktion von Wissen und Erkenntnissen aus großen Datenmengen (große Daten, auch als Big Data bezeichnet) befasst. Dies kann durch die Anwendung verschiedener Methoden und Techniken aus dem Bereich der Statistik, der Informatik und der Machine Learning erfolgen.
Data Scientists verwenden Datenanalyse-Tools und -Techniken, um Muster und Zusammenhänge in den Daten zu identifizieren und zu verstehen. Sie nutzen die gewonnenen Erkenntnisse, um Probleme und Fragestellungen zu lösen und Entscheidungen zu treffen. Data Scientists arbeiten in vielen verschiedenen Branchen, wie beispielsweise im Bereich der Finanzdienstleistungen, im Einzelhandel, in der Medizintechnik und in der Öl- und Gasindustrie.
Ein wichtiger Teil des Jobs eines Data Scientists ist es, die gewonnenen Erkenntnisse in einer für nicht-technische Personen verständlichen Form darzustellen, damit sie von Führungskräften und anderen Entscheidungsträgern genutzt werden können. Data Scientists müssen daher oft enge Zusammenarbeit mit anderen Abteilungen und Teams innerhalb eines Unternehmens pflegen, um ihre Erkenntnisse zu vermitteln und in die Entscheidungsfindung einzubringen.
Um erfolgreich als Data Scientist zu sein, benötigt man in der Regel eine solide Ausbildung in Bereichen wie Statistik, Informatik und Machine Learning. Zudem sind auch Kenntnisse in Programmiersprachen wie Python und R und in Datenbanktechnologien wie SQL von Vorteil. Data Scientists müssen auch die Fähigkeit haben, komplexe Probleme zu lösen und Entscheidungen auf der Grundlage von Daten zu treffen.
Was ist Big Data?
Big Data bezieht sich auf sehr große Datenmengen, die zu umfangreich und komplex sind, um sie mit traditionellen Datenverarbeitungsmethoden und -tools effektiv zu analysieren. Big Data stellt eine Herausforderung dar, weil es oft schwierig ist, die notwendigen Ressourcen und Technologien zu beschaffen, um die Daten zu speichern, zu verarbeiten und zu analysieren.
Big Data kommt in vielen verschiedenen Branchen und Bereichen zum Einsatz, wie beispielsweise im Einzelhandel, in der Finanzdienstleistungsbranche und in der Medizintechnik. Es kann dazu verwendet werden, um Muster und Zusammenhänge in den Daten zu identifizieren und Entscheidungen auf der Grundlage von Daten zu treffen. Beispiele hierfür sind die Analyse von Kundenkaufverhalten im Einzelhandel oder die Vorhersage von Aktienkursentwicklungen in der Finanzbranche.
Um Big Data effektiv nutzen zu können, sind spezielle Tools und Technologien erforderlich, die in der Lage sind, große Datenmengen zu verarbeiten und zu analysieren. Dazu gehören beispielsweise verteilte Datenbanken, die es ermöglichen, Daten auf mehreren Rechnern gleichzeitig zu verarbeiten, und Machine-Learning-Algorithmen, die es erlauben, die Daten automatisch zu analysieren.
Insgesamt bietet Big Data Unternehmen die Möglichkeit, mehr Einblicke in ihre Geschäftstätigkeit und ihre Kunden zu gewinnen und dadurch datengestützte Entscheidungen zu treffen, die ihre Geschäftsleistung verbessern können.
Was ist der Unterschied zwischen Big Data und Business Intelligence?
Der Hauptunterschied zwischen Big Data und Business Intelligence (BI) besteht darin, dass Big Data sich mit der Sammlung und Analyse von sehr großen Datenmengen befasst, während BI sich mit der Sammlung, Analyse und Bereitstellung von Unternehmensdaten für die Entscheidungsfindung befasst.
Big Data bezieht sich auf Datenmengen, die zu umfangreich und komplex sind, um sie mit traditionellen Datenverarbeitungsmethoden und -tools effektiv zu analysieren. BI hingegen bezieht sich auf die Verwendung von Tools und Technologien, um Daten aus verschiedenen Quellen zu integrieren und zu visualisieren, um Muster und Trends zu identifizieren, die für das Unternehmen von Bedeutung sind.
Ein weiterer Unterschied besteht darin, dass Big Data oft von Data Scientists genutzt wird, die spezielle Kenntnisse und Fähigkeiten in Bereichen wie Statistik, Informatik und Machine Learning besitzen. BI hingegen wird häufig von Führungskräften und anderen Entscheidungsträgern genutzt, um datengestützte Entscheidungen zu treffen.
Insgesamt kann Big Data dazu beitragen, Unternehmen mehr Einblicke in ihre Geschäftstätigkeit und ihre Kunden zu gewinnen, was ihnen bei der Entscheidungsfindung helfen kann. BI hingegen kann dazu beitragen, Unternehmen bei der Verbesserung ihrer Geschäftsleistung zu unterstützen, indem es ihnen hilft, schnellere und genauere Entscheidungen zu treffen.
Was ist der Unterschied zwischen Business Intelligence und Data Science?
Der Hauptunterschied zwischen Business Intelligence (BI) und Data Science besteht darin, dass BI sich mit der Sammlung, Analyse und Bereitstellung von Unternehmensdaten für die Entscheidungsfindung befasst, während Data Science sich mit der Extraktion von Wissen und Erkenntnissen aus großen Datenmengen befasst.
BI bezieht sich auf die Verwendung von Tools und Technologien, um Daten aus verschiedenen Quellen zu integrieren und zu visualisieren, um Muster und Trends zu identifizieren, die für das Unternehmen von Bedeutung sind. Data Science hingegen bezieht sich auf die Anwendung von Methoden und Techniken aus dem Bereich der Statistik, der Informatik und des Machine Learning, um Muster und Zusammenhänge in den Daten zu identifizieren und zu verstehen.
Ein weiterer Unterschied besteht darin, dass BI häufig von Führungskräften und anderen Entscheidungsträgern genutzt wird, um datengestützte Entscheidungen zu treffen. Data Science hingegen wird oft von Data Scientists genutzt, die spezielle Kenntnisse und Fähigkeiten in Bereichen wie Statistik, Informatik und Machine Learning besitzen.
Insgesamt kann BI dazu beitragen, Unternehmen bei der Verbesserung ihrer Geschäftsleistung zu unterstützen, indem es ihnen hilft, schnellere und genauere Entscheidungen zu treffen. Data Science hingegen kann dazu beitragen, Unternehmen mehr Einblicke in ihre Geschäftstätigkeit und ihre Kunden zu gewinnen, was ihnen bei der Entscheidungsfindung helfen kann.
Datenbank-Modellierung
Die meisten Datenbanken benutzen normalisierte Daten. Anders ist es im Data Warehouse: hier trifft man in der Regel auf denormalisierte Daten, auch wenn es durchaus Konzepte für normalisierte Daten im DWH gibt. Ziel des Data Warehouse (OLAP) auf schnelle Lesezugriffe zu optimieren, währende Transaktionsdatenbanken (OLTP) auf Inserts und Update optimiert sind.
- Datenbankmodellierung
- Grundlagen der Datenbankmodellierung
- Entity Framework Designer
- Datenbankmodellierung mit Visio
- Visio Tutorial – Database Model Design (J.G. Zheng)
- um basierend auf einem relationalen Datenbankmodell, welches in Visio designt worden ist, kann man auf ein Visio-Add-in zurückgreifen
- OLTP vs OLAP
- David Taylor – OLTP vs OLAP: Difference Between OLTP and OLAP
- OLTP – Online Transaction Processing:
- OLAP – Online Analytical Processing
- Data Warehouse
- Schlenker, Ulrike – Datenmodellierung für das Data Warehouse – Vergleich und Bewertung konzeptioneller und logischer Methoden (Diplomarbeit)
- Datenbankschema: Stars vs Snowflake
- Granularität
- Partitionierung
Business Intelligence Platform

Datenaufbereitung (ETL)

ETL steht für Extract, Transform, Load und beschreibt den Prozess der Datenextraktion einer Datenquelle und Transformation in das Format für die weitere Verarbeitung, beispielsweise für das DWH.
- Informatica – Power Center
- IBM – Infosphere Information Server
- Oracle Data Integrator
- Microsoft SQL Integration Services (SSIS)
- Talend
- Pentaho Data Integration
- Apache NiFi
- SAP – Business Objects Date Integrator
- Sybase ETL
- DBSoftlab
- Jasper
Data Warehouse in der Cloud
- Google Big Query
- Amazon Redshift
- Azure Data Warehouse / Azure Synapse Analytics
- Snowflake
- Apache Kylin
- weiterführende Informationen:
- Data Warehouse Cloud Benchmark
- Farhad Alam & Neel Kamal – Survey on Data Warehouse from Taditional ot Realtime and Society Impact of Real Time Data
Cubes (OLAP Cubes)
Allgmeines
Ein OLAP-Würfel oder Datenwürfel (englisch OLAP cube oder engl. data cube), auch Cube-Operator genannt, ist ein in der Data-Warehouse-Theorie gebräuchlicher Begriff zur logischen Darstellung von Daten. Die Daten werden dabei als Elemente eines mehrdimensionalen Würfels (engl. cube) angeordnet. Die Dimensionen des Würfels beschreiben die Daten und erlauben auf einfache Weise den Zugriff. Daten können über eine oder mehrere Achsen des Würfels ausgewählt werden. Die Bezeichnung OLAP (Online Analytical Processing) stammt aus der Datenanalyse. [Wikipedia]
- Slicing: Ausschneiden von Scheiben aus dem Datenwürfel

- Dicing: Hierbei wird ein kleinerer Würfel erzeugt, der ein Teilvolumen des Gesamtwürfels enthält. Dieses geschieht durch Teileinschränkungen auf einer oder mehreren Dimensionen.

- Pivoting / Rotation: Drehen des Datenwürfels, so dass mindestens eine andere Dimension sichtbar wird
- Drill-Down: Aggregationen eines Informationsobjekts auf detaillierte Werte herunterbrechen; „Hereinzoomen“
- Drill-Up/Roll-Up: Gegenoperation zu Drill-Down; Verdichten auf höhere Hierarchiestufe (z. B. von der Monats- auf die Jahressicht)

- Drill-Across: Dimension auf der gleichen Hierarchiestufe; Betrachtung der benachbarten Dimensionselemente (andere Region, anderes Produkt, anderer Monat)
- Drill-Through: während man sich bei Drill-Up oder Drill-Down vertikal durch die Daten(Hierarchie) bewegt, wird Drill-Through dafür verwendet horizontal weitere OLAP-Würfel auszuwerten; manchmal wird Drill-Across mit Drill-Through gleichgesetzt
- Split: Der Split-Operator ermöglicht es, einen Wert nach mehreren Dimensionen aufzuteilen, um weitere Details zu ermitteln (z. B. den Umsatz einer Filiale für eine bestimmte Menge von Produkten)
- Merge / Drill-In: Im Gegensatz zu Split wird hier die Granularität durch das Entfernen zusätzlicher Dimensionen wieder verringert.
Software
- Microsoft SSAS
- Multidimensional Cubes
- Tabular Cubes
- IBM Cognos
- IBM Cognos Transformer (File-based MOLAP cube with pre-aggregation)
- IBM Cognos TM1 (In-memory MOLAP technology with write-back support)
- IBM Cognos Dynamic Cubes (In-memory accelerator for dimensional analysis)
- Dimensionally modeled relational (DMR) (Dimensional view of a relational database)
- Oracle
- Oracle Hyperion Essbase
- SAP
- SAP BI (vormale SAP Netwever Business Warehouse = SAP BW)
DAX vs MDX
Bei Multidimensionalen Modellen wird MDX als Abfrage verwendet. Hierbei werden Tupel als Zellen im Cube Space angesprochen. Die Axen im Tupel beschreiben die Koordinaten.
(Date.Calendar.[Calendar Year].&[2013], Measures.[Internet Sales Amount])
Tabulare Modelle greifen auf die Abfragesprache DAX zurück. Hierbei werden die zugrundeliegenden Tabellen gefiltert. Somit ist das Ergebnis die Schnittmenge der einzelnen Kriterien.
weitere Details dazu siehe [hier]
Visualisierung der Daten
- Darstellung der Daten am Sharepoint (nicht mehr aktuell)
- Power BI
- Qlik
- Tableau
- Google Looker
- Amazon QickSight