IPS IT Schulung & Consulting

Schulung: Apache Spark und Azure Databricks

Moderne Big Data Verarbeitung und Analytik in der Cloud

  • Einführung in Apache Spark und Azure Databricks
  • Fokus auf Big Data Verarbeitung, Analyse und Cloud-Integration
  • Entwicklung von Spark-Anwendungen sowie Bereitstellung in Azure Databricks

Beschreibung

Dieses Seminar bietet eine umfassende Einführung in Apache Spark und Azure Databricks, mit einem Fokus auf Big Data Verarbeitung, Analyse und Cloud-Integration. Die Teilnehmer lernen, wie man Spark-Anwendungen entwickelt, optimiert und in Azure Databricks bereitstellt, sowie Best Practices für die Integration und das Monitoring von Big Data-Anwendungen.

Agenda

Modul 1: Einführung in Apache Spark und Azure Databricks

  • Überblick über Apache Spark: Architektur, Kernkomponenten und Anwendungsfälle
  • Einführung in Azure Databricks: Integration mit Azure, Vorteile und Funktionen
  • Einrichtung eines Azure Databricks Clusters und erster Kontakt mit der Plattform

Modul 2: Apache Spark Grundkonzepte und Architektur

  • Spark-Architektur: Driver, Executors, Tasks und RDDs (Resilient Distributed Datasets)
  • Spark-Session und Spark-Kontext: Aufbau und Verwaltung von Spark-Anwendungen
  • DataFrames und Datasets: Strukturierte Datenverarbeitung und -Manipulation

Modul 3: Entwicklung von Spark-Anwendungen in Java

  • Einführung in Spark mit Java: Setup, Abhängigkeiten und Tools
  • Implementierung von ETL-Prozessen (Extract, Transform, Load) mit Spark
  • Nutzung von Spark SQL für komplexe Abfragen und Datenanalysen
  • Verarbeitung von unstrukturierten Daten: Text, JSON, Parquet und Avro

Modul 4: Fortgeschrittene Spark-Themen

  • Spark Streaming: Echtzeit-Datenverarbeitung und -Analyse
  • Spark MLlib: Maschinenlernen und Data Mining mit Spark
  • GraphX: Verarbeitung und Analyse von Graphdaten
  • Optimierung von Spark-Anwendungen: Caching, Partitionierung und Tuning

Modul 5: Azure Databricks in der Praxis

  • Azure Databricks Notebooks: Erstellen und Verwenden von interaktiven Notebooks
  • Integration mit Azure Data Lake Storage und Azure SQL Data Warehouse
  • Verwaltung von Clustern und Jobs in Azure Databricks
  • Sicherheits- und Governance-Funktionen in Azure Databricks

Modul 6: Datenintegration und -Management

  • Verbindung zu Datenquellen: Azure Blob Storage, SQL-Datenbanken und externe Datenquellen
  • Nutzung von Azure Databricks Delta Lake für Transaktionssicherheit und Echtzeit-Analysen
  • Schema Management und Datenqualität in der Delta Lake

Modul 7: Monitoring und Performance-Tuning

  • Überwachung von Spark-Anwendungen und Azure Databricks Clustern
  • Nutzung von Azure Monitor und Spark UI für Performance-Analyse
  • Best Practices für Fehlerbehebung und Optimierung von Spark-Jobs

Modul 8: Integration von Spark und Databricks in eine Cloud-Native Architektur

  • Cloud-Native Datenarchitekturen und deren Implementierung mit Spark und Databricks
  • Nutzung von Azure Data Factory für Orchestrierung und Datenpipeline-Management
  • Implementierung von CI/CD-Pipelines für Spark-Anwendungen mit Azure DevOps

Modul 9: Sicherheit und Compliance

  • Sicherheitskonzepte in Azure Databricks: Netzwerksicherheit, Identitäts- und Zugriffsmanagement
  • Datenverschlüsselung und Compliance-Vorgaben in Azure
  • Implementierung von Zugriffskontrollen und Audit-Protokollen

Modul 10: Alternativen und Erweiterungen

  • Vergleich von Apache Spark mit anderen Big Data-Technologien: Hadoop, Flink
  • Alternativen zu Azure Databricks: Amazon EMR, Google Dataproc
  • Erweiterungen und Tools für Spark: Zeppelin, Apache Livy

Modul 11: Praxisbeispiele und Best Practices

  • Fallstudien und Best Practices aus der Industrie: Erfolgreiche Implementierungen und Anwendungsfälle
  • Hands-on-Labs: Aufbau und Optimierung von Spark-Anwendungen, Nutzung von Azure Databricks Notebooks und Delta Lake

Modul 12: Zukunftsausblick und neue Entwicklungen

  • Neueste Entwicklungen in der Spark- und Databricks-Welt
  • Ausblick auf zukünftige Trends und Technologien in Big Data und Cloud Analytics

Teilnehmerkreis und Voraussetzungen

Es richtet sich an Entwickler, Datenwissenschaftler und Dateningenieure, die ein tiefes Verständnis der Spark-Architektur, der Nutzung von Azure Databricks und der Implementierung von Datenverarbeitungslösungen in Java erlangen möchten.

Mindestanzahl Teilnehmende: 3 Personen

 

FIRMENSCHULUNG zu dem Thema?

Dieses Kursthema bieten wir Ihnen auch als maßgeschneiderte Firmenschulung an.

Das sagen Kursteilnehmer