Statistica e analisi dei dati
A.A. 2024/2025
Learning objectives
L'insegnamento ha lo scopo di introdurre i concetti fondamentali della statistica descrittiva, del calcolo delle probabilità e della statistica inferenziale parametrica.
Expected learning outcomes
Gli studenti saranno in grado di effettuare analisi esplorative e inferenze di base su dataset, conosceranno le principali distribuzioni di probabilità e sapranno comprendere le analisi statistiche condotte da altri; avranno inoltre acquisito semplici metodi per la classificazione binaria e sapranno valutarne le performance. Avranno inoltre acquisito le conoscenze di base per poter affrontare lo studio di tecniche più avanzate di analisi e modellazione dei dati.
Periodo: Secondo semestre
Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi
Corso singolo
Questo insegnamento può essere seguito come corso singolo.
Course syllabus and organization
Edizione unica
Responsabile
Periodo
Secondo semestre
Programma
Introduzione al linguaggio python.
Statistica descrittiva:
- Frequenze e frequenze cumulate. Frequenze congiunte e marginali.
- Indici di centralità, dispersione, correlazione, eterogeneità e concentrazione.
- Metodi grafici: diagrammi per frequenze e frequenze cumulate, diagrammi di dispersione e diagrammi QQ.
- Classificatori e curve ROC.
Calcolo delle probabilità:
- Calcolo combinatorio. Richiami di teoria degli insiemi.
- Assiomi di probabilità.
- Probabilità condizionata e teoremi collegati.
- Variabili aleatorie discrete e continue. Indici di centralità e dispersione per variabili aleatorie e loro proprietà.
- Variabili aleatorie multivariate. Indici di covarianza e correlazione per variabili aleatorie.
- Indipendenza di eventi e di variabili aleatorie.
- Disuguaglianze di Markov e di Tchebyshev.
- Modelli di Bernoulli, binomiale, geometrico, di Poisson, uniforme discreto e ipergeometrico.
- Modelli uniforme continuo, esponenziale e gaussiano.
- Processo di Poisson.
Statistica inferenziale parametrica:
- Popolazione, campione casuale e stima puntuale.
- Media campionaria. Teorema centrale del limite.
- Varianza campionaria.
- Stimatori non deviati e stimatori consistenti in media quadratica.
- Metodi per la determinazione degli stimatori.
- Legge dei grandi numeri.
- Calcolo della taglia del campione.
Statistica descrittiva:
- Frequenze e frequenze cumulate. Frequenze congiunte e marginali.
- Indici di centralità, dispersione, correlazione, eterogeneità e concentrazione.
- Metodi grafici: diagrammi per frequenze e frequenze cumulate, diagrammi di dispersione e diagrammi QQ.
- Classificatori e curve ROC.
Calcolo delle probabilità:
- Calcolo combinatorio. Richiami di teoria degli insiemi.
- Assiomi di probabilità.
- Probabilità condizionata e teoremi collegati.
- Variabili aleatorie discrete e continue. Indici di centralità e dispersione per variabili aleatorie e loro proprietà.
- Variabili aleatorie multivariate. Indici di covarianza e correlazione per variabili aleatorie.
- Indipendenza di eventi e di variabili aleatorie.
- Disuguaglianze di Markov e di Tchebyshev.
- Modelli di Bernoulli, binomiale, geometrico, di Poisson, uniforme discreto e ipergeometrico.
- Modelli uniforme continuo, esponenziale e gaussiano.
- Processo di Poisson.
Statistica inferenziale parametrica:
- Popolazione, campione casuale e stima puntuale.
- Media campionaria. Teorema centrale del limite.
- Varianza campionaria.
- Stimatori non deviati e stimatori consistenti in media quadratica.
- Metodi per la determinazione degli stimatori.
- Legge dei grandi numeri.
- Calcolo della taglia del campione.
Prerequisiti
Oltre alla propedeuticità obbligatoria dell'insegnamento di Matematica del continuo è richiesta la conoscenza degli argomenti principali di programmazione degli elaboratori, e fortemente consigliato il superamento dell'esame di matematica del discreto.
Metodi didattici
Lezioni frontali ed esercitazioni. La frequenza è fortemente consigliata.
Materiale di riferimento
Libri di testo consigliati:
- S. Ross, Introduzione alla statistica, Apogeo education, 2014, ISBN 9788838786020
- S. Ross, Probabilità e statistica per l'ingegneria e le scienze, terza edizione, Maggioli Editore, 2021, ISBN 9788891663351
Dispense sugli argomenti del programma non trattati dai libri suggeriti e codice disponibli sui siti dell'insegnamento:
- https://labonline.ctu.unimi.it/
- https://malchiodi.di.unimi.it/teaching/SAD/
- S. Ross, Introduzione alla statistica, Apogeo education, 2014, ISBN 9788838786020
- S. Ross, Probabilità e statistica per l'ingegneria e le scienze, terza edizione, Maggioli Editore, 2021, ISBN 9788891663351
Dispense sugli argomenti del programma non trattati dai libri suggeriti e codice disponibli sui siti dell'insegnamento:
- https://labonline.ctu.unimi.it/
- https://malchiodi.di.unimi.it/teaching/SAD/
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame consiste di una prova scritta e di una prova orale, entrambe relative agli argomenti trattati nell'insegnamento.
Nella prova scritta, della durata di due ore e mezzo, viene richiesto di risolvere alcuni esercizi basati su domande a risposta aperta e di analizzare un dataset applicando in modo adeguato le tecniche statistiche viste a lezione. La valutazione, espressa in termini di approvato/respinto, è comunicata via mail e tiene conto del livello di padronanza degli argomenti e del corretto uso dei formalismi matematici.
La prova orale, a cui si accede previa superamento di quella scritta, è basata sulla discussione dello svolgimento della prova scritta e su alcune domande relative ad argomenti trattati nell'insegnamento. La sua valutazione, espressa in trentesimi, tiene conto del livello di padronanza degli argomenti, della chiarezza espositiva, della proprietà di linguaggio e del corretto uso del gergo tecnico.
Nella prova scritta, della durata di due ore e mezzo, viene richiesto di risolvere alcuni esercizi basati su domande a risposta aperta e di analizzare un dataset applicando in modo adeguato le tecniche statistiche viste a lezione. La valutazione, espressa in termini di approvato/respinto, è comunicata via mail e tiene conto del livello di padronanza degli argomenti e del corretto uso dei formalismi matematici.
La prova orale, a cui si accede previa superamento di quella scritta, è basata sulla discussione dello svolgimento della prova scritta e su alcune domande relative ad argomenti trattati nell'insegnamento. La sua valutazione, espressa in trentesimi, tiene conto del livello di padronanza degli argomenti, della chiarezza espositiva, della proprietà di linguaggio e del corretto uso del gergo tecnico.
Educational website(s)
Professor(s)