Torna alla pagina principale Sigillo di Ateneo

Big Data Analysis 16-17

Programma dell’Insegnamento

  1. What is Data Science? – Introduzione al corso
    Gli argomenti di questa lezione sono relativi a:

    • l’enorme quantitativo di dati a nostra disposizione
    • la necessità e il vantaggio competitivo che si ottiene attraverso l’analisi di questi dati
    • la necessità di sviluppare e implementare tecniche per l’analisi dei dati
    • le competenze necessarie e le figure professionali utili per analizzare dati
  2. Architetture e piattaforme per la gestione di Big Data
    Lo scopo di questa unità è quello di fornire le principali nozioni relative al paradigma Map-Reduce. Su questo paradigma si fondano numerosi strumenti attualmente utilizzati per l’analisi dei dati. In particolare, si tratteranno i temi legati al

    • Paradigma Map-Reduce: overview di quanto già introdotto nei corsi precedenti
    • La libreria mincemeat per la simulazione del paradigma MR
    • Algoritmi basati su MR
    • Modello di costo e complessità
    • MR vs DBMS paralleli
  3. Analisi di dati mediante l’applicazione di Modelli statistici e di Data Mining
    In questa unità sono fornite nozioni pratiche per l’applicazione di strumenti di Data Mining e Machine Learning a grandi quantitativi di dati. Quello che si vuole ottenere è la capacità di utilizzare gli algoritmi di Machine Learning invece di una completa conoscenza delle tecniche implementate all’interno degli algoritmi, oggetto di altri insegnamenti.

    • Introduzione a Python
    • uso della libreria Pandas
    • uso della libreria NumPy
    • uso della libreria Scikit Learn
  4. Analisi del testo
    Studio di tecniche basilari di Information Retrieval. Studio di tecniche per l’analisi e la comprensione automatica del testo. Introduzione alla Semantic Analisys
  5. Finding frequent Itemsets and similar items
    In questa sezione si introducono tecniche per trovare gli elementi più frequenti e gli elementi simili in grandi quantitativi di dati. I concetti chiave introdotti sono:

    • Market – Basket Analysis
    • Minhash
    • Locality-sensitive hashing
  6. Link Analysis
    Scopo della lezione è introdurre algortmi per ordinare le pagine web. Verrà presentato PageRank, l’algoritmo alla base del motore di ricerca Google, HITS, l’algoritmo utilizzato da Ask. Verranno inoltre presentate delle tecniche per alterare l’ordinamento derivante dall’algoritmo (utilizzate per scopi malevoli) e come “proteggere” il search engine da queste tipologie di “attacchi”
  7. Mining Social-Network Graphs
    In questa lezione vengono introdotti elementi per analizzare grafi, con particolare attenzione ai grafi che modellano social network. Sono introdotti algoritmi per individuare comunità all’interno dei grafi.
  8. Recommendation Systems
    La lezione introduce una panoramica sulle principali tecniche implementate nei sistemi di raccomandazione. In particolare, saranno analizzate le tecniche fondamentali alla base dell’approccio collaborative filtering e e dei sistemi di raccomandazione di tipo content-based.
  9. The Visual Display of Quantitative Information
    Questa lezione introduce alcuni principi per rappresentare grafici relativi all’analisi di dati

Testi Consigliati

  • A. Rajaraman, J. Leskovec, J. D. Ullman: Mining of Massive Datasets, Cambridge University Press 2012
  • Ian H. Witten, Eibe Frank, Mark A. Halle: Data Mining – Practical Machine Learning Tools and Techniques, Third Edition, Morgan KaufMann
  • Foster Provost, Tom Fawcett. Data Science for Business, What you need to know about data mining and data-analytic thinking, O’Reilly 2013
  • Wes McKinney: Python for Data Analysis, O’Reilly Media 2012

Materiale didattico

Si veda il sito del corso