lectures: fix something here and there

2020-07-05 17:51:15 +02:00 · 2020-07-05 17:51:15 +02:00 · 4d73974190
parent 6bf30632a0
commit 4d73974190
1 changed files with 76 additions and 63 deletions
--- a/lectures/notes.md
+++ b/lectures/notes.md
@ -4,9 +4,9 @@

 È il rapporto tra la variazione percentuale del risultato e la variazione
 percentuale del dato in ingresso. È un parametro utile per controllare se
-un problema sia mal o ben condizionato.
-Nel caso di una funzione f, questo parametro si riduce ad essere
-10.1016/0168-9002(90)91334-8
+un problema è mal o ben condizionato.
+Nel caso di una funzione f, questo parametro si riduce ad essere:
+
  x f'(x) / f(x)

 e il limite per l'incremento dei dati iniziali tendente a zero è detto
@ -36,10 +36,10 @@ da cui si ottiene il `teorema di Bayes`:
 # Correlazione tra variabili

 Si può usare per determinare se una teoria sia valida oppure no dato un certo
-campione sperimentale (A è la teoria e B sono i dati). P(A ⋂ B) è la joint pdf.
+campione sperimentale (A è la teoria e B sono i dati). P(A|B) è la joint pdf.
 Le `convoluzioni di Mellin e Fourier` servono per trovare la pdf di una
 variabile che è rispettivamente il prodotto o la somma di altre due variabili
-con pdf nota (dimostrazione cartacea).
+con pdf nota.
 La `covarianza` cov(x, y) è definita come:

  cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)]
@ -69,29 +69,29 @@ sommano in quadratura su tutta la matrice di covarianza.
 Abbiamo visto diversi tipi:
  - Binomiale
                    / N \                              E[n] = N*p
-      P(n, N, p) = |     | p^n (1 + p)^(N - n)    con
-                    \ n /                              V[n] = N*p*(p-1)
+      P(n, N, p) = |     | p^n (1 - p)^(N - n)    con
+                    \ n /                              V[n] = N*p*(1-p)

    da cui si può poi ricavare la multinomiale.
  - Poissoniana

-                ν^n
-      P(n, ν) = --- e^(-ν)                        con  E[n] = V[n] = ν
-                n!
+                ν^n                                    E[n] = ν
+      P(n, ν) = --- e^(-ν)                        con  
+                n!                                     V[n] = ν

    Si ottiene dal caso precedente per N→∞ e p→0 con N*p = ν.
  - Uniforme
                      1                                E[x] = (a + b)/2
-      P(x, b, a) =  -----                         con
-                    b - a                              V[x] = (b - a)^2/12
+      P(x, a, b) =  -----                         con
+                    b - a                              V[x] = (b - a)²/12
  - Gaussiana
-                      1        /  (x - μ)^2 \          E[x] = μ
-      G(x, μ, σ) = -------- e^| - ---------  |    con 
-                   √(2 π) σ    \    2 σ^2   /          V[x] = σ^2
+                      1        /  (x - μ)² \          E[x] = μ
+      G(x, μ, σ) = -------- e^| - --------  |    con 
+                   √(2 π) σ    \    2 σ²   /          V[x] = σ²

 È il limite delle prime due distribuzioni per N→∞.

-Il `teorema centrale` del limite dice che se una variabile è la somma di N
+Il `teorema centrale del limite` dice che se una variabile è la somma di N
 variabili indipendenti tutte con la stessa pdf con valore medio μi e devstd σi,
 allora tale variabile ha distribuzione Normale con:

@ -108,7 +108,7 @@ kurtosis:
  γ = E | -------- |    k = E | -------- |  - 3
        |    σ³    |          |    σ⁴    |

-dove X è la media campionaria e 3 è la kurtosis della Gaussiana.
+dove X e σ sono la media e la varianza e k = 3 - 3 = 0 per la Gaussiana.

 # Test di ipotesi

@ -128,7 +128,7 @@ Noi abbiamo sempre controllato solo qual è la pdf della statistica di test nel
 caso in cui l'ipotesi nulla sia vera e abbiamo posto il livello di confidenza
 al 95%, ovvero α = 5%.
 La potenza è detta anche purezza perché è la probabilità di scambiare "rumore
-per segnale", mentre l'intervallo di confidenza si dice anche efficienza perché
+per rumore", mentre l'intervallo di confidenza si dice anche efficienza perché
 è la probabilità di scambiare "il segnale per segnale".

 Il `lemma di Neyemann Pearson` dice che la statistica di test che massimizza la
@ -176,29 +176,29 @@ non vuol dire che sia significativo.

@4 ----------------------------------------------------------------------------

-# Stima di parametri
+# Stima di parametri (1)

 Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei
 parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore
 ⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal
 valore vero. Uno stimatore deve soddisfare alcuni requisiti:

-  - consistenza: per N→∞, ⊇→Θ;
+  - consistenza: per N→∞, ⊇→Θ (convergenza in senso statistico);
  - unbias: E[⊇] = Θ
    Ovvero: ripetendo tante volte l'esperimento, il valore medio della
    distribuzione deve essere il valore vero;
  - deve avere una piccola varianza.

-Per esempio, la media campionaria è uno stimatore della media e la sua varianza
-è σ²/N, nel senso che se si ripetesse lo stesso esperimento tante volte e si
-guardasse la distribuzione delle medie così ottenute, otterremmo che queste
-medie seguono una pdf con questa varianza. Affinché lo stimatore della varianza
-sia unbiasato, si deve introdurre la correzione di Bessel.
+Per esempio, la media campionaria è uno stimatore consistente e unbiased della
+media e la sua varianza è σ²/N, nel senso che se si ripetesse lo stesso
+esperimento tante volte e si guardasse la distribuzione delle medie così
+ottenute, otterremmo che queste medie seguono una pdf con questa varianza.
+Affinché lo stimatore della varianza sia unbiased, si deve introdurre la
+correzione di Bessel.

 Un metodo che si può utilizzare è la maximum Likelihood. Se lo si applica al
 caso di una gaussiana, si trova che gli stimatori della media e della varianza
-sono la media e la varianza campionarie. Quest'ultima va però corretta con la
-correzione di Bessel.
+sono la media e la varianza campionarie.

 La disuguaglianza di `Cramer-Rao` (detto anche bound RCF) afferma che la matrice
 di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel
@ -207,14 +207,6 @@ minimo.
 Uno `stimatore robusto` è poco sensibile ai valori nelle code della
 distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media
 trimmata, in cui nel calcolo si escludono i punti più esterni.
-Quando si sta lavorando con una gaussiana contaminata, ovvero che è la somma
-di due gaussiane in cui la seconda è, per esempio, il rumore, ed ha una
-varianza maggiore, allora anziché usare la varianza campionaria standard,
-è meglio usare d_n:
-
-        1
-  d_n = - Σi |xi - X|
-        N

 L'`extended maximum Likelihood` si usa quando non ho deciso io il numero di
 dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti):
@ -224,7 +216,7 @@ di ottenere degli stimatori con minore varianza.

@5 ----------------------------------------------------------------------------

-# Stima di parametri
+# Stima di parametri (2)

 Il χ² è il metodo della Maximum Likelihood nel caso in cui:

@ -244,9 +236,10 @@ Di solito si guarda poi il `χ² ridotto` e il fit è buono se è prossimo a uno
 IMPORTANTE:
 Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti
 distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON
-si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la funzione
-che lega le y alle x. Se lo si vuole usare con dei dati ottenuti da una pdf,
-allora bisogna binnarli in modo tale da ottenere le y.
+se si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la
+funzione che lega le y alle x (che poi abbiamo visto equivalere alla ML). Se
+lo si vuole usare con dei dati ottenuti da una pdf, allora bisogna binnarli
+in modo tale da ottenere le y.

 Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad
 usare il `metodo dei momenti`, anche se generalmente dà risultati con maggiore
@ -263,6 +256,16 @@ trovano col χ² sono infatti quelli con la varianza minima).

 L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T).

+Il `teorema di Wilks` asserisce che la grandezza:
+
+                /   L(μ)   \
+  t = - 2 * ln | ---------- |
+                \ L(μ_true)/
+
+è distribuita come un χ². È facile dimostrarlo supponendo che i dati siano
+attribuiti attorno ai relativi valori veri come Gaussiane centrate nei valori
+veri con devstd data da quella campionaria.
+
@6 ----------------------------------------------------------------------------

 # Intervalli di confidenza
@ -277,12 +280,11 @@ Dire che:

  x = x₀ ± δx CL = 68%

-significa che ripetendo N volte l'esperimento, il 68% delle volte si otterrà
-che x₀ appartiene a quell'intervallo (non che il valore vero ha il 68% di
-probabilità di essere in quell'intervallo, che non ha alcun senso...).
-Quando si vuole stimare la media di una distribuzione, per il CLT questa segue
-una distribuzione gaussiana per N→∞ e quindi gli intervalli di confidenza sono
-noti, date le σ.
+significa che ripetendo N volte l'esperimento, il 68% delle volte il valore
+vero sarà dentro l'intervallo (non che il valore vero ha il 68% di probabilità
+di essere in quell'intervallo, che non ha alcun senso...). Quando si vuole
+stimare la media di una distribuzione, per il CLT questa segue una distribuzione
+gaussiana per N→∞ e quindi gli intervalli di confidenza sono noti, date le σ.

 La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa
 della cumulativa.
@ -291,8 +293,6 @@ un intervallo di confidenza pari a 1 - α - β. Dovrò trovare gli estremi a e b
 che corrispondono a tali valori e per farlo dovrò utilizzare la quantile
 dell'area che mi serve.

-PARTE CHE NON SI CAPISCE UN TUBO
-
@7 ----------------------------------------------------------------------------

 # Minimizzazione
@ -302,15 +302,23 @@ la sua derivata prima sia nulla.
 Non esiste un metodo che con certezza identifichi il `minimo globale` di una
 funzione.

-Data la precisione finita dei floating point, non si può cercare un minimo
-annullando la derivata prima. Al più si può porre un valore di tolleranza.
+Data la precisione finita dei floating point, non si può trovare esattamente il
+minimo: si troverà f(x) = f(x_min) + 1/2 d²f/dx² |x - x_min|. Si può porre un
+valore di tolleranza per cui:
+
+f(x) ~ f(x_min) se f(x_min) >> 1/2 d²f/dx² |x - x_min|²
+    
+           1/2 d²f/dx² |x - x_min|²                     / 2 ε f(x_min) \
+    → ε >> ------------------------  →  |x - x_min| << | -------------- |^(1/2)
+                   f(x_min)                             \    d²f/dx²   /

 Vediamo un po' di metodi.

  - `Metodo di bisezione`:
-  Si può usare quando gli estremi sono a > 0 > b e la funzione è monotona. Si
-  divide a metà e si guarda se è positivo o negativo e poi si aggiornano gli
-  estremi in modo da tenere i due vicini a segni opposti.
+  Per trovare la radice di una funzione. Si può usare quando gli estremi sono
+  f(a) > 0 > f(b) e la funzione è monotona. Si divide a metà e si guarda se è
+  positivo o negativo e poi si aggiornano gli estremi in modo da tenere i due
+  vicini a segni opposti.

  - Metodo analogo:
  Se invece la funzione è di forma pseudoparabolica con estremi a e b, allora
@ -451,9 +459,12 @@ Esistono diverse tecniche di deconvoluzione dei dati.
      μj = (νi - βi) Rij^-1 ~ (ni - βi) Rij^-1

    Massimizzando la Likelihood, si ottengono stimatori unbias e con varianza
-    minima n_i = ν_i. Se si fa così, però, non assomigliano affatto a quelli
-    corretti. Si deve accettare di minimizzare la varianza: `procedura di
-    unfolding generalizzata`.
+    minima n_i = ν_i. Se si fa così, però, siccome il problema dell'unfolding
+    è mal posto, si ottiene che se i dati veri sono lievemente diversi da
+    quelli misurati, il risultato sarà molto diverso da quello ottenuto.
+    Ciò si traduce nell'ottenere una varianza enorme sui valori μi. Si deve
+    accettare di aumentare il bias per poter minimizzare la varianza:
+    `procedura di unfolding generalizzata`.

  - `Metodo dei fattori di correzione`:
    I valori veri vengono stimati come:
@ -472,10 +483,11 @@ Esistono diverse tecniche di deconvoluzione dei dati.
    Questo metodo funziona bene se non c'è molta migrazione tra bin e bin: è
    valido per dare una prima idea.

-  - `Unfolding generalizzato`:
+  - `Unfolding regolarizzato`:
    In questo caso si cerca sempre uno stimatore bias con varianza maggiore ma
    si cerca di ottenere una soluzione più liscia: lo si fa ponendo un limite Δ
-    alla differenza tra L_max e L(μ) usato:
+    alla differenza tra le likelihood L_max e L(μ) usata (per non allontanarsi
+    troppo dalla soluzione ottimale):

      L(μ) >= Lmax - ΔL

@ -487,7 +499,7 @@ Esistono diverse tecniche di deconvoluzione dei dati.

      f(μ) = αL(μ) + S(μ)

-    Per cominciare si fissa α, considerando che:
+    Per cominciare si fissa α in base al ΔL scelto, considerando che:
    - per α = 0 si ottiene la soluzione più smooth che però ignora i dati;
    - per α → ∞ la soluzione non è smooth, perché massimizzare f(μ) equivale
      semplicemente a scegliere L(μ) = Lmax.
@ -495,7 +507,7 @@ Esistono diverse tecniche di deconvoluzione dei dati.

      Σi νi = Σij Rij μj = Ntot

-    E quindi ci ri riduce al metodo dei moltiplicatori di Laplace, ovvero si
+    E quindi ci ri riduce al metodo dei moltiplicatori di Lagrange, ovvero si
    deve massimizzare:

      f(μ) = αL(μ) + S(μ) + λ[Ntot - Σij Rij μj]
@ -508,7 +520,7 @@ Esistono diverse tecniche di deconvoluzione dei dati.
      tende a 0, più la funzione è liscia. Chiaramente, trattandosi di dati
      discreti, si fa la derivata numerica tra bin consecutivi.
      
-    - `Regolarizzazione col Max Ent`:
+    - `Regolarizzazione con il Max Ent`:
      Si usa la definizione di entropia per un set di probabilità pi:

        H = - Σi pi ln(pi)
@ -519,8 +531,9 @@ Esistono diverse tecniche di deconvoluzione dei dati.

        pi = μi/Ntot

-    Per quanto riguarda la scelta di α, in genere lo si sceglie minimizzando
-    la matrice di covarianza, cioè il χ².
+    Per quanto riguarda la scelta di α, essa rappresenta un compromesso tra
+    bias (L(μ)) e varianza (S(μ)). in genere lo si sceglie minimizzando la
+    matrice di covarianza, cioè il χ².

@10 ---------------------------------------------------------------------------

@ -541,7 +554,7 @@ rilevato.
 In un pc, i dati vengono salvati in formato binario. Mentre per i numeri la
 conversione è immediata, per il linguaggio alfanumerico sono state inventate
 delle `codifiche` come per esempio il codice ASCII o l'UTF8. La tabella unicode
-contiene tutti codepoint e descrive come eventualmente si fondono.
+contiene tutti i codepoint e descrive come eventualmente si fondono.

 Il `bus` è l'insieme delle linee elettriche che collega vari dispositivi,
 ognuno dei quali è identificato univocamente da un indirizzo. I dispositivi