Corso Big Data Analytics con Python e Spark 2.4: il Corso Completo

Abstract

Corso erogato in Lingua Italiana
Moduli: 21
Livello: Advanced
Accesso: Paid Online Course (price may vary)

Impara ad analizzare e processare i Big Data con Python e Spark ( PySpark )

Cosa imparerai

  • Utilizzare Python e Spark per Analizzare i Big Data
  • Utilizzare MLlib per Creare Modelli di Machine Learning con i Big Data
  • Installare e Configurare PySpark su una Macchina Virtuale
  • Installare e Configurare PySpark con Amazon EC2
  • Creare un Cluster di Macchine per PySpark con Amazon EMR
  • Utilizzare gli Amazon Web Service (AWS) per l'Analisi di Big Data
  • Imparare ad Utilizzare DataBricks per l'Analisi di Big Data
  • Utilizzare l'RDD per Elaborare Dati in Parallelo
  • Utilizzare il DataFrame per Processare Dati in Maniera Efficiente
  • Utilizzare Spark Streaming per elaborare flussi di dati in Tempo Reale
  • Creare un Modello di Sentiment Analysis con il Dataset di Yelp (5 GB !)
  • Processare Tweets pubblicati su Twitter in Tempo Reale

Contenuti
21 sections • 142 lectures • 12h 8m total length

  • 12 hours on-demand video
  • 7 articles
  • Full lifetime access
  • Access on mobile and TV
  • Certificate of completion

Requisiti
Nessun prerequisito particolare è richiesto, solo passione e voglia di imparare a lavorare con i Big Data

Obiettivi didattici

Descrizione

Impara a utilizzare le Ultime Tecnologie per l'Analisi dei Big Data con il linguaggio di Programmazione più popolare al mondo - Spark e Python !

Siamo entrati nell'era dei Big Data, oggi i dati sono il nuovo petrolio e sapere come elaborarli e analizzarli vuol dire avere un posto di lavoro garantito in un futuro molto prossimo e un vantaggio competitivo enorme rispetto ai rivali in affari.

In questo corso impareremo a lavorare con i Big Data utilizzando Spark, il framework per il calcolo distribuito più popolare al mondo, usato in produzione da giganti come Amazon, Microsoft, Oracle, Verizon e Cisco.

Cosa faremo durante il corso ?

Nella prima sezione del corso introdurre l'argomento Big Data, vedendo cosa sono, da dover arrivano e come possono essere sfruttati. Vedremo quali sono le principali tecnologie utilizzate per i Big Data: Apache Hadoop, Hadoop MapReduce e Spark, chiarendone le differenze, i punti deboli e i punti di forza.

Nella seconda sezione vedremo come installare e configurare Spark su una macchina locale, prima usando VirtualBox per creare una macchina simulata sulla quale installare Ubuntu, poi creando una macchina remota sfruttando gli Amazon Web Service, nello specifico AWS EC2.

Nella terza sezione impareremo a creare un cluster di macchine con Spark e lo faremo in due modi differenti:

  • Usando AWS EMR (Elastic MapReduce)
  • Usando DataBricks, piattaforma per l'analisi dei Big Data co-fondata dallo stesso creatore di Spark.

Nella quarta sezione studieremo la principale struttura dati di Spark: il Resilient Distributed Dataset (RDD), introducendo la teoria del suo funzionamento per poi eseguire qualche esercizio pratico per studiarne le API.

Nella quinta sezione ci sporcheremo le mani con il primo laboratorio in cui analizzeremo un dataset contenente 22.5 milioni di recensioni di prodotti su Amazon.

Nella sesta sezione introdurremo una struttura dati a più alto livello che Spark mette a disposizione dalle sue versioni più recenti: il DataFrame, parleremo brevemente della suo funzionamento per poi vedere come può essere utilizzato nella pratica. Vedremo anche come creare una tabella SQL partendo da un DataFrame per poi interrogarla con query di selezione.

Nella settima sezione svolgeremo un secondo laboratorio, usando un DataFrame per analizzare ben 28 milioni di recensioni di film.

Nell'ottava sezione parleremo di serie storiche (time series) e analizzeremo le azioni di Apple dal 1980 ad oggi.

Nella nona sezione parleremo di Machine Learning, scoprendo come funziona e a cosa serve e studiando i due modelli di base rispettivamente per modelli di Regressione e Classificazione:

  • La Regressione Lineare
  • La Regressione Logistica

Al termine di questa sezione introdurremo il modulo MLlib (Machine Learning Library) di Spark, il quale ci permette di costruire modelli di Machine Learning distribuiti.

Nelle sezioni dieci e undici vedremo come utilizzare il modulo MLlib con le sue API per il Dataframe, per risolvere semplici problemi di regressione e classificazione, come:

  • Stimare il valore di abitazioni partendo dalle loro caratteristiche
  • Riconoscere un tumore al seno maligno da un'agobiopsia

Nella sezione dodici utilizzeremo le conoscenze acquisite sul Machine Learning e MLlib per costruire un modello di Sentiment Analysis utilizzando il dataset di Yelp, il quale contiene oltre 5 GB di recensioni di locali e attività commerciali.

Per addestrare il modello di Machine Learning sull'intero dataset così grande utilizzeremo un cluster AWS EMR, imparando a configurare un cluster e a importare grandi quantità di dati nel Hadoop File System (HDFS) da un bucket S3 utilizzando l'utility s3-dist-cp.

Nella nona sezione introdurremo uno delle estensioni più hot di Spark: Spark Streaming, che ci permette di analizzare ed elaborare flussi di dati in tempo reale !

Nella decima sezione svolgeremo un progetto usando Spark Streaming e le API di Twitter: monitoreremo tutti i tweets pubblicati in tempo reale, relativi ad un determinato argomento selezionato da noi, e creeremo un grafico interattivo con gli hashtags più popolari !

Struttura del corso

Perché seguire questo corso ?

I Big Data sono il futuro, sapere come sfruttarli sarà un vantaggio enorme, sia per un professionista che per un imprenditore, non perdere questa occasione !

Adatto a:

  • Chiunque voglia imparare a elaborare grandi quantità di dati in maniera distribuita
  • Chiunque voglia imparare a sfruttare il vantaggio competitivo dei Big Data

Questo corso è gestito dal partner esterno Udemy. Per seguire questo corso dovrai registrarti sulla loro piattaforma Academy dove potrai usufruire di questo e di molti altri corsi offerti. Questo corso però non è un corso gratuito ma è considerato un ottimo bene prezioso per farti migliorare te stesso.

Questo corso viene aggiunto al nostro catalogo per aiutarti a comprendere le opportunità offerte dai Big Data.. L'apprendimento di questo argomento apre opportunità per essere in grado di sviluppare un ruolo di Big Data Specialist.

Siamo certi che questo materiale didattico ti consentirà di migliorare notevolmente la tua comprensione e ti consentirà di accedere a molti altri fantastici corsi tecnici nel nostro catalogo. Questa classe è la base di un curriculum di informatica e fondamentale per chiunque si avvicini alla amministrazione di Sistemi e cerchi di diventare un professionista della tecnologia digitale. Ecco perché Guilds42 ha introdotto questo Corso, anche se non è un corso gratuito.

Una volta ottenuta la tua certificazione, salvala nel tuo dispositivo in formato Jpg o Pdf e torna sulla pagina del corso, in Guilds42, per caricarla nell’apposito box e validare le tue competenze.

Coding
Corso aperto dal 30/09/2021
Durata 12

Questo corso include: