LEARNING BIG DATA
Un ciclo di corsi sul Big Data per sostenere e incentivare l'innovazione.
In Arakne crediamo che la diffusione della cultura Big Data sia essenziale per l’avanzamento tecnologico del nostro paese, per la formazione di giovani e per le prospettive dell’azienda. Quest’anno inauguriamo un ciclo di corsi Big Data rivolti alle proprie risorse e aperti a soggetti esterni interessati, in particolare laureati e laureandi in ingegneria e materie scientifiche.
I corsi sono gratuiti e a numero chiuso. La partecipazione è vincolata alla valutazione del curriculum vitae del candidato da parte di una Commissione interna all’azienda.
Al termine dei corsi, lo studente avrà acquisito una conoscenza teorica e pratica degli argomenti proposti, sarà in grado di operare con i relativi strumenti informatici e avrà acquisito una esperienza di elaborazioni Big data su dati reali grazie alle sessioni di laboratorio.
Tra tutti gli studenti partecipanti ne verranno selezionati due ai quali verrà finanziato un progetto di ricerca di 6 mesi.
Tutti i corsi si svolgeranno presso la sede di Arakne S.r.l. in Via Edoardo D’Onofrio 304 (zona Colli Aniene) dalle 09.30 alle 17.30.
Per partecipare è necessario proporre la propria candidatura inviando una lettera di presentazione e il proprio cv a: formazione@arakne.it
Una commissione interna ad Arakne valuterà l'idoneità dei candidati e comunicherà l'esito via mail/telefono.
HADOOP FUNDAMENTALS
Docente: Giancarlo Cordier
Hadoop è un framework Open Source di Apache, concepito per offrire supporto ad applicazioni distribuite e semplificare le operazioni di storage e gestione di dataset di grandi dimensioni (Big Data).
Il corso introduce gli elementi base dell’architettura come HDFS, il modello Map/Reduce ed il componente YARN.
Posti disponibili: 4
DATA INGESTION
Docente: Fabrizio Sebastiani
L’acquisizione dei dati può essere eseguita tramite differenti modalità, generalmente in funzione del formato e della fonte dei dati stessi. Ad esempio, per i dati presenti su RDBMS il trasferimento potrà avvenire con l’ausilio di tool come Sqoop (parte della piattaforma Hadoop), o in alternativa con strumenti quali gli ETL tradizionali dotati di connettori per le tecnologie dei Big Data (Hadoop HDFS, HBase e altri database NoSQL). Per quanto riguarda invece i dati a velocità elevata e prodotti "in continuo", si dovrà optare per strumenti di data streaming che sappiano tenere conto di queste specifiche tecniche: nuovamente, Hadoop fornisce la risposta con i suoi componenti Kafka, Storm e Flume.
Il corso introduce i principali tool e le principali tecniche per la data ingestion in contesto Big Data.
Posti disponibili: 4
SPARK FUNDAMENTALS
Docente: Gian Marco Todesco
Spark è un framework open-source per l’analisi di grandi quantità di dati su cluster, nato per essere veloce e flessibile. Caratterizzato dalla capacità di memorizzare risultati (solitamente parziali) in memoria centrale, si offre come valida alternativa a mapReduce, il quale memorizza obbligatoriamente i risultati delle computazioni su disco.
Posti disponibili: 4
SPARK ML/Mllib
Docente: Gabriele Di Segni
In questo corso vengono presentate le principali componenti per il machine learning in Apache Spark, con un particolare focus sulle API DataFrame-based. I principali algoritmi disponibili in spark.ml verranno richiamati facendo riferimento a quanto già visto durante le giornate dei moduli di Machine Learning Fundamentals e Basics e verranno accompagnati da una serie di esercitazioni IN laboratorio su dataset distribuiti.
Posti disponibili: 4
ADVANCED STORAGE
Docente: Giancarlo Cordier
Il corso introduce i principali tool per la memorizzazione dei dati nel contesto Big Data quali: Apache Kudu, Apache Parquet e Cloudera Impala.
Posti disponibili: 4
GOVERNANCE&QUALITY
Docenti: Arnaldo Maccarone e Alberto Botti
L’esistenza di una organizzazione può essere minacciata dalla cattiva qualità dei suoi dati. L’informazione è il cuore di tutte le organizzazioni ma molto spesso non viene gestita con i necessari rigore e disciplina. Le implicazioni di una cattiva gestione dell’informazione possono essere catastrofiche, dalle sanzioni europee fino al collasso del business.
Posti disponibili: 4
STREAMING APACHE SPARK
Docente: Gian Marco Todesco
Spark è un framework open-source per l’analisi di grandi quantità di dati su cluster, nato per essere veloce e flessibile. Una delle principali caratteristiche di Apache Spark é LA gestione dei dati in streaming.
In questo corso viene presentata l’architettura di Apache Spark Streaming e mostrate le potenzialità.
Posti disponibili: 4