Torna alla pagina principale Sigillo di Ateneo

Big Data Analysis

Programma dell’Insegnamento

  1. What is Data Science? – Introduzione al corso
    Gli argomenti di questa lezione sono relativi a:

    • l’enorme quantitativo di dati a nostra disposizione
    • la necessità e il vantaggio competitivo che si ottiene attraverso l’analisi di questi dati
    • la necessità di sviluppare e implementare tecniche per l’analisi dei dati
    • le competenze necessarie e le figure professionali utili per analizzare dati
  2. Architetture e piattaforme per la gestione di Big Data
    Lo scopo di questa unità è quello di fornire le principali nozioni relative al paradigma Map-Reduce. Su questo paradigma si fondano numerosi strumenti attualmente utilizzati per l’analisi dei dati. In particolare, si tratteranno i temi legati al

    • Paradigma Map-Reduce: overview di quanto già introdotto nei corsi precedenti
    • Algoritmi basati su MR
    • Modello di costo e complessità
    • MR vs DBMS paralleli
  3. Analisi di dati mediante l’applicazione di Modelli statistici e di Data Mining
    In questa unità sono fornite nozioni pratiche per l’applicazione di strumenti di Data Mining e Machine Learning a grandi quantitativi di dati. Quello che si vuole ottenere è la capacità di utilizzare gli algoritmi di Machine Learning invece di una completa conoscenza delle tecniche implementate all’interno degli algoritmi, oggetto di altri insegnamenti.

    • Introduzione a Python
    • uso della libreria Pandas
    • uso della libreria NumPy
    • uso della libreria Scikit Learn
  4. Ricerca di item simili e frequent itemsets
    In questa unità sono fornite tecniche base per la ricerca di elementi simili in grandi collezioni di dati. Un problema collegato a questo è quello della ricerca di frequent itemset, pattern che si ripetono nei dati.

    • Market – Basket Analysis
    • Minhash
    • Locality-sensitive hashing
  5. Analisi del testo e sentiment analysis
    In questa unità vengono introdotti i principali aspetti di ricerca connessi con l’elaborazione e la ricerca di keyword all’interno di testo (anche utilizzando tecniche semantiche). Si introducono poi generalità sul “sentiment analysis”. Viene introdotto un modello di riferimento per la definizione del problema e indicate le principali soluzioni proposte in letteratura.
  6. Link Analysis
    Scopo di questa unità è introdurre algortmi per ordinare le pagine web. Verrà presentato PageRank, l’algoritmo alla base del motore di ricerca Google, HITS, l’algoritmo utilizzato da Ask. Verranno inoltre presentate delle tecniche per alterare l’ordinamento derivante dall’algoritmo (utilizzate per scopi malevoli) e come “proteggere” il search engine da queste tipologie di “attacchi”
  7. Recommendation Systems
    Si introduce una panoramica sulle principali tecniche implementate nei sistemi di raccomandazione. In particolare, saranno analizzate le tecniche fondamentali alla base dell’approccio collaborative filtering e e dei sistemi di raccomandazione di tipo content-based.