Dopo aver visto gli indici di centralità in questo post, passiamo oggi agli indici di dispersione, un’altra categoria di valori fondamentali in statistica descrittiva.
Come anticipato nel precedente post, gli indici di dispersione servono a descrivere come i dati di un campione siano “dispersi”, ovvero quanto differiscano l’uno dall’altro, e come si distribuiscano attorno al valore medio.
Entriamo ora nel merito, utilizzando gli stessi dati della scorsa volta (valori di glucosio di alcuni pazienti di due ospedali), riportati di seguito:
Ospedale 1: 93, 97, 94, 102, 105, 99, 94, 100, 102, 91
Ospedale 2: 89, 88, 109, 102, 91, 120, 103, 99, 105, 111, 100, 101, 97, 110, 107
Range
Il primo indice di dispersione è il range, calcolato come la differenza tra il valore massimo e il valore minimo del campione, in simboli
Applicando questa formula ai dati degli ospedali otteniamo i seguenti range: ospedale 1 14, ospedale 2 32. Da questi dati può sembrare che i dati dell’ospedale 2 siano distribuiti in maniera più ampia.
Tuttavia, il range prende in considerazione solo i valori estremi, senza considerare tutti gli altri; è una misura poco indicativa e per questo motivo viene utilizzato molto raramente nelle analisi dei dati. Spesso viene indicato giusto per evidenziare il valore minore e quello maggiore del campione.
Varianza
Passiamo ora alla varianza, un altro indici di variabilità (se non l’indice di variabilità per eccellenza, visto il nome…). Ci permette di stabilire quanto i dati si discostino dalla media.
Per calcolare la varianza si fa il rapporto tra la sommatoria degli scarti quadratici medi e la numerosità campionaria sottratta di 11, in simboli .
In pratica, per ogni valore del campione si sottrae la media da esso, si eleva al quadrato il risultato ottenuto, si sommano tutti i risultati e si divide il tutto per la numerosità campionaria -1.
Vediamo dunque quale è la varianza dei dati per i due ospedali:
Ospedale 1:
Ospedale 2:
Anche in questo caso, il valore dell’ospedale 2 è molto più alto di quello dell’ospedale 1; si può quindi concludere che l’ospedale 1 abbia dei dati che variano di meno l’uno dall’altro rispetto all’ospedale 2.
La varianza è un indice di dispersione molto efficace in quanto:Tuttavia, ci si trova spesso a dover maneggiare valori molto elevati di varianza (vedi quello relativo all’orspedale 2); per questo motivo è stata introdotta la deviazione standard.
Deviazione standard
La deviazione standard non è altro che la radice quadrata della varianza, in simboli
.Le deviazioni standard dei valori di glucosio dei pazienti dell’ospedale 1 e dell’ospedale 2 sono 4.62 2 8.77, rispettivamente.
Questo indice, essendo più “maneggevole”, è molto più utilizzato rispetto alla varianza, seppur indichi la stessa proprietà e utilizzi gli stessi valori, con annessi gli stessi vantaggi.Spesso, infatti, per descrivere un campione si utilizzano media e deviazione standard, in questa forma: media ± SD. Per esempio, i nostri campioni li descriveremmo così:
A questo punto, viene più complicato dire che i valori di glucosio dell’ospedale 1 siano significativamente più bassi di quelli dell’ospedale 2, in quanto questi ultimi hanno una grande variabilità.
Coefficiente di variabilità
Ultimo, non per importanza, c’è il coefficiente di variabilità. Questo indice è usato per normalizzare la deviazione standard, in modo tale da poter fare confronti tra campioni la cui media è molto diversa. Non si usa spesso in biologia, però in ingegneria e chimica è spesso calcolato.
Per ottenere il dato normalizzato, si divide la deviazione standard per la media (e spesso si moltiplica per 100 in modo tale da avere un valore espresso in %), in simboli .
Ma supponiamo di avere due campioni descritti così:
Con questi dati potremmo dire che il campione 2 ha una variabilità più alta rispetto al campione 1. Vero!
Calcolando però il CV troviamo 33.83% per il primo campione e 9.48% per il secondo, in controtendenza con quanto detto poco fa. Questo perchè il coefficiente di variabilità indica in che rapporto stanno i valori di media e deviazione standard.
Questo concetto non è molto immediato, per questo in ambiti come la biologia viene poco utilizzato.
Conclusioni
Oggi abbiamo visto i principali indici di variabilità, tra cui bisogna ricordarsi varianza e deviazione standard. Abbiamo anche iniziato a capire come mai non ci sia una gran differenza tra i valori di glucosio dei pazienti nei due ospedali.
Ci serviranno ancora un paio di concetti prima di comprendere a fondo il perchè di questa affermazione. Abbiate fede, presto li approfondiremo.
-
il divisore è n-1 in quanto mi riferisco alla varianza (e dunque successivamente alla deviazione standard) campionaria. Se al posto di un campione avessimo la popolazione intera, il divisore sarebbe n.↩︎