ArvatoSystems_Cloud_adults-analysis-brainstorming-1661004

Modernes Datenmanagement für VNR

Daten schneller verarbeiten und einfacher nutzen dank AWS-Services

Der VNR Verlag zählt zu den größten Fachverlagen in Deutschland. Das in Bonn sesshafte Unternehmen macht Expertenwissen für unterschiedliche Zielgruppen verfügbar. Zum Angebotsportfolio gehören Fachinformationen in Papierform, Loseblattwerke, Fachzeitschriften, digitale Informationen über z.B. Portale, Newsletter und Trader-Dienste sowie Weiterbildungs- und fachliche Austauschformate wie Tagungen, Kongresse und Seminare.

Dank Serverless-IT und den Vorzügen der AWS-Cloud konnten IT-Standardaufgaben bei VNR im Bereich Datenmanagement automatisiert und damit verbundene Kostenaufwände reduziert werden. Die VNR IT-Experten können sich nun voll und ganz auf ihre Kernaufgaben im Bereich Machine Learning fokussieren.

Kundenvorteile

Zeitersparnis

Effizienzgewinn

Stabilität

Zuverlässigkeit

Kostenreduktion

Projektübersicht

Ausgangssituation

VNR verfügt über große Mengen an Kundentransaktionsdaten, die in einer Oracle-Datenbank gehostet werden. Diese sollten extrahiert und in Datenstrukturen umgewandelt werden, die sowohl für ein Data Warehouse als auch für Machine Learning Zwecke geeignet sind. Die Machine Learning Experten von VNR sollten dann in die Lage versetzt werden, diese Daten für die Entwicklung, Schulung und Umschulung von Modellen einfach nutzen und einen Endpunkt für die tatsächliche Nutzung der Daten bereit stellen zu können. In der bisherigen Kundenumgebung waren der Aufbau der Infrastruktur und die Datenflüsse nicht trivial zu implementieren, was die Machine Learning Experten von ihren eigentlichen Aufgaben abhielt.

Lösung

Arvato Systems implementierte eine automatische Extract-Transform-Load (ETL) Pipeline mit S3-Ereignissen, Lambda und DynamoDB. Das Hochladen eines Daten-Chunks aus der ursprünglichen Oracle-Datenbank löst den Transformationsprozess aus und ermöglicht eine massive Parallelisierung. In mehreren Schritten wird das Rohformat mit Hilfe von Transformationsvorlagen in die verschiedenen Zielformate konvertiert. Die Ergebnisse werden dann in Redshift für Datawarehousing und eine DynamoDB für Machine Learning Zwecke importiert. Das gesamte Setup wird als Infrastruktur-as-Code über CloudFormation geskriptet und in eine CI/CD-Pipeline integriert, einschließlich Unit-Test, Deployment in eine Test- und schließlich eine Produktionsumgebung. Mit AWS Sagemaker und API Gateway konnten die Machine Learning Experten die S3- und DynamoDB-Daten einfach integrieren, um ein Modell zu erstellen und zu trainieren sowie einen Endpunkt für dessen Nutzung zu hosten. Ein API-Gateway mit einem Lambda-Backend bietet API-Zugriff auf den Endpunkt.

Ergebnis

Die neuen Prozesse, insbesondere ETL, sind deutlich schneller, effizienter, stabiler und wartungsfreundlicher. Die Verarbeitungskosten sind wesentlich geringer als bei einer manuell gepflegten Ausführungsumgebung. S3 und DynamoDB sind auch in Bezug auf die Datengröße sehr kosten-günstig und ersparen die Skalierung des Datenraums bei gleichzeitiger hoher Verfügbarkeit und Langlebigkeit. Sagemaker übernimmt den Integrationsbedarf von Daten und Maschinen für das Training und Hosting der Machine Learning Prozesse und ermöglicht einen einfachen Einstieg für neue Mitglieder des ML-Teams von VNR.