Formation Python and Spark for Big Data (PySpark)

Nos clients

Code formation

sparkpython

Durée

21 heures (généralement 3 jours pauses comprises)

Pré requis

  • General programming skills

Audience

  • Developers
  • IT Professionals
  • Data Scientists

Aperçu

Python est un langage de programmation de haut niveau réputé pour sa syntaxe claire et sa lisibilité du code. Spark est un moteur de traitement de données utilisé pour interroger, analyser et transformer le Big Data. PySpark permet aux utilisateurs d’interfacer Spark avec Python .

Au cours de cette formation en direct animée par un instructeur, les participants apprendront à utiliser Python et Spark ensemble pour analyser des données volumineuses au cours d’exercices pratiques.

À la fin de cette formation, les participants seront en mesure de:

  • Apprenez à utiliser Spark avec Python pour analyser des Big Data .
  • Travaillez sur des exercices qui imitent les circonstances réelles.
  • Utilisez différents outils et techniques d'analyse de données PySpark aide de PySpark .

Format du cours

  • Partie de conférence, partie de discussion, exercices et exercices intensifs

Machine Translated

Plan du cours

Introduction

Understanding Big Data

Overview of Spark

Overview of Python

Overview of PySpark

  • Distributing Data Using Resilient Distributed Datasets Framework
  • Distributing Computation Using Spark API Operators

Setting Up Python with Spark

Setting Up PySpark

Using Amazon Web Services (AWS) EC2 Instances for Spark

Setting Up Databricks

Setting Up the AWS EMR Cluster

Learning the Basics of Python Programming

  • Getting Started with Python
  • Using the Jupyter Notebook
  • Using Variables and Simple Data Types
  • Working with Lists
  • Using if Statements
  • Using User Inputs
  • Working with while Loops
  • Implementing Functions
  • Working with Classes
  • Working with Files and Exceptions
  • Working with Projects, Data, and APIs

Learning the Basics of Spark DataFrame

  • Getting Started with Spark DataFrames
  • Implementing Basic Operations with Spark
  • Using Groupby and Aggregate Operations
  • Working with Timestamps and Dates

Working on a Spark DataFrame Project Exercise

Understanding Machine Learning with MLlib

Working with MLlib, Spark, and Python for Machine Learning

Understanding Regressions

  • Learning Linear Regression Theory
  • Implementing a Regression Evaluation Code
  • Working on a Sample Linear Regression Exercise
  • Learning Logistic Regression Theory
  • Implementing a Logistic Regression Code
  • Working on a Sample Logistic Regression Exercise

Understanding Random Forests and Decision Trees

  • Learning Tree Methods Theory
  • Implementing Decision Trees and Random Forest Codes
  • Working on a Sample Random Forest Classification Exercise

Working with K-means Clustering

  • Understanding K-means Clustering Theory
  • Implementing a K-means Clustering Code
  • Working on a Sample Clustering Exercise

Working with Recommender Systems

Implementing Natural Language Processing

  • Understanding Natural Language Processing (NLP)
  • Overview of NLP Tools
  • Working on a Sample NLP Exercise

Streaming with Spark on Python

  • Overview Streaming with Spark
  • Sample Spark Streaming Exercise

Closing Remarks

Nos Clients témoignent

★★★★★
★★★★★

Catégories Similaires

Réduction spéciale

Newsletter offres spéciales

Nous respectons le caractère privé de votre adresse mail. Nous ne divulguerons ni ne vendrons votre adresse email à quiconque
Vous pouvez toujours modifier vos préférences ou vous désinscrire complètement.