Beratung & Innovation
Lösungen & Technologien
Infrastruktur & Betrieb
Branchen
Mehr
MA_Tina_Marx_AWS
IHR ANSPRECHPARTNER
ArvatoSystems_Cloud_adults-analysis-brainstorming-1661004

Modernes Datenmanagement für VNR

Daten schneller verarbeiten und einfacher nutzen dank AWS-Services

ArvatoSystems_Kunde_VNR

Der VNR Verlag zählt zu den größten Fachverlagen in Deutschland. Das in Bonn sesshafte Unter-nehmen macht Expertenwissen für unterschiedliche Zielgruppen verfügbar. Zum Angebotsportfolio gehören Fachinformationen in Papierform, Loseblattwerke, Fachzeitschriften, digitale Informationen über z.B. Portale, Newsletter und Trader-Dienste sowie Weiterbildungs- und fachliche Austauschformate wie Tagungen, Kongresse und Seminare. 

Dank Serverless-IT und den Vorzügen der AWS-Cloud konnten IT-Standardaufgaben bei VNR im Bereich Datenmanagement automatisiert und damit verbundene Kostenaufwände reduziert werden. Die VNR IT-Experten können sich nun voll und ganz auf ihre Kernaufgaben im Bereich Machine Learning fokussieren. 

Projektübersicht

Ausgangssituation

VNR verfügt über große Mengen an Kundentransaktionsdaten, die in einer Oracle-Datenbank gehostet werden. Diese sollten extrahiert und in Datenstrukturen umgewandelt werden, die sowohl für ein Data Warehouse als auch für Machine Learning Zwecke geeignet sind. Die Machine Learning Experten von VNR sollten dann in die Lage versetzt werden, diese Daten für die Entwicklung, Schulung und Umschulung von Modellen einfach nutzen und einen Endpunkt für die tatsächliche Nutzung der Daten bereit stellen zu können. In der bisherigen Kundenumgebung waren der Aufbau der Infrastruktur und die Datenflüsse nicht trivial zu implementieren, was die Machine Learning Experten von ihren eigentlichen Aufgaben abhielt.

Lösung

Arvato Systems implementierte eine automatische Extract-Transform-Load (ETL) Pipeline mit S3-Ereignissen, Lambda und DynamoDB. Das Hochladen eines Daten-Chunks aus der ursprünglichen Oracle-Datenbank löst den Transformationsprozess aus und ermöglicht eine massive Parallelisierung. In mehreren Schritten wird das Rohformat mit Hilfe von Transformationsvorlagen in die verschiedenen Zielformate konvertiert. Die Ergebnisse werden dann in Redshift für Datawarehousing und eine DynamoDB für Machine Learning Zwecke importiert. Das gesamte Setup wird als Infrastruktur-as-Code über CloudFormation geskriptet und in eine CI/CD-Pipeline integriert, einschließlich Unit-Test, Deployment in eine Test- und schließlich eine Produktionsumgebung. Mit AWS Sagemaker und API Gateway konnten die Machine Learning Experten die S3- und DynamoDB-Daten einfach integrieren, um ein Modell zu erstellen und zu trainieren sowie einen Endpunkt für dessen Nutzung zu hosten. Ein API-Gateway mit einem Lambda-Backend bietet API-Zugriff auf den Endpunkt.

Ergebnis

Die neuen Prozesse, insbesondere ETL, sind deutlich schneller, effizienter, stabiler und wartungsfreundlicher. Die Verarbeitungskosten sind wesentlich geringer als bei einer manuell gepflegten Ausführungsumgebung. S3 und DynamoDB sind auch in Bezug auf die Datengröße sehr kosten-günstig und ersparen die Skalierung des Datenraums bei gleichzeitiger hoher Verfügbarkeit und Langlebigkeit. Sagemaker übernimmt den Integrationsbedarf von Daten und Maschinen für das Training und Hosting der Machine Learning Prozesse und ermöglicht einen einfachen Einstieg für neue Mitglieder des ML-Teams von VNR. 

Kundenvorteile

Zeitersparnis 
Effizienzgewinn
Stabilität
Zuverlässigkeit
Kostenreduktion

Ihr Ansprechpartner für Projekte rund um AWS

MA_Tina_Marx_AWS
Tina Marx
Expertin für Amazon Web Services