Concetti Base di Statistica

Diciamocelo, la statistica è proprio una materia ostica e complessa, e siamo sicuri che i ricordi di questo esame siano un (bel) po’ sbiaditi per tutti voi… Lo scopo di questo focus non è rendervi degli epidemiologi provetti, ma darvi gli strumenti di base di statistica per rispondere ad eventuali domande presenti al test SSM 2022.

 

VARIABILI IN STATISTICA

Esistono due grandi categorie di variabili:

  • Qualitative
      • Nominali: si può dire solo che una è diversa dall’altra
      • Ordinali: esiste una gradualità, si possono ordinare tra loro
  • Quantitative:
      • Discrete: numeri naturali 
      • Continue: numeri razionali 

Esistono due tipi di distribuzione:

  • Distribuzione normale (curva di Gauss): è una distribuzione di probabilità continua che è spesso usata come prima approssimazione per descrivere variabili casuali a valori reali che tendono a concentrarsi attorno a un singolo valor medio. Il grafico è simmetrico e ha una forma a campana, nota come campana di Gauss
  • Distribuzione non normale: unimodale, bimodale, multimodale

La distribuzione di queste variabili può essere descritta attraverso:

  • Indici di tendenza centrale: 
      • Media: si fa influenzare molto dai valori anomali
          • Aritmetica: si sommano tutti i valori a disposizione e si divide il risultato per il numero complessivo dei dati
          • Ponderata: si sommano tutti i valori a disposizione moltiplicati per il loro peso e si divide il risultato per la somma dei pesi 
      • Mediana: valore che si trova nel mezzo della distribuzione (o la media aritmetica dei due valori centrali)
      • Moda: è il valore che si ripete più volte nelle distribuzioni; varia di meno in caso di variazioni dei dati, permette di capire la forma di una distribuzione (uni, bi o multimodale)
  • Misure di dispersione
      • Varianza: fornisce una misura della variabilità dei valori assunti dalla variabile stessa; ovvero quanto essi si discostano quadraticamente rispettivamente dalla media aritmetica o dal valore atteso
      • Deviazione standard: fornisce una misura della eterogeneità/dispersione dei dati; più è alta, più i dati sono eterogenei, più la curva di distribuzione è larga

DEMOGRAFIA STATISTICA

Esistono 3 tipi di piramide di popolazione:

    • Campana: popolazione stabile, con bassa natalità e mortalità. 
    • Pagoda: popolazione giovane, con alta natalità e mortalità (nei paesi sottosviluppati)
    • Bulbo: popolazione vecchia, natalità molto bassa (nei paesi occidentali)

Alcuni indicatori demografici:

    • Tasso di natalita’: (numero neonati vivi in 1 anno/popolazione) x 1000
    • Tasso di fecondita’: (numero neonati in 1 anno/donne in eta’ fertile) x 1000 
    • Tasso di mortalità: (numero morti in 1 anno/popolazione) x 1000 abitanti
    • Tasso di mortalita’ infantile: (numero bambini morti nel primo anno di vita/neonati vivi) x 1000 nati vivi
    • Tasso di letalita’: (morti per una data malattia/casi di malattia) x 100

MISURE EPIDEMIOLOGICHE

Le principali, da conoscere per il test SSM, sono le seguenti:

  • Incidenza: numero di nuovi casi nel tempo/popolazione, viene stimata negli studi longitudinali prospettici
  • Prevalenza: numeri di casi in un dato momento/popolazione, è utile per le malattie croniche, e viene stimata negli studi trasversali
  • Rischio relativo: indica quante volte è più grande il rischio in chi è esposto ad un fattore di rischio rispetto a chi non lo è. 
      • Si calcola come: incidenza negli esposti/incidenza nei non esposti. 
      • Si usa negli studi prospettici (coorte), offre la stima migliore.
  • Odds ratio: indica il rapporto tra l’odd di malattia negli esposti e l’odd di malattia nei non esposti
      • Si calcola come: (malati esposti x sani non esposti)/(malati non esposti x sani esposti)
      • Si usa negli studi retrospettivi (caso-controllo)
      • Sovrastima la forza associativa, ma è utile nelle malattie rare

Per rischio relativo e odds ratio:

      • Se < 1: il fattore studiato è un fattore di protezione
      • Se > 1: il fattore studiato è un fattore di rischio 
      • Se = 1: non esiste una correlazione causale tra il fattore e malattia
  • Rischio attribuibile: è calcolato come incidenza negli esposti x incidenza nei non esposti
  • Riduzione assoluta del rischio: è calcolata come incidenza nei non esposti – incidenza negli esposti
  • Numero necessario di pazienti da trattare: indica il numero di pazienti da trattare con un fattore di protezione per prevenire un evento
      • Si calcola come 100/riduzione assoluta del rischio in percentuale

TIPI DI STUDI EPIDEMIOLOGICI

  • Osservazionale: assenza di intervento da parte dello sperimentatore
      • Trasversale: senza monitoraggio dei pazienti, permette di stimare la prevalenza di una malattia
      • Longitudinale: con monitoraggio dei pazienti
          • Retrospettivo: caso controllo, permette di determinare l’incidenza o prevalenza di una malattia (odds ratio), utile per le malattie rare
          • Prospettico: coorte, permette di determinare l’incidenza di una malattia (rischio relativo), utile per le esposizioni rare
  • Sperimentale: presenza di intervento da parte dello sperimentatore

gli studi vengono divisi in base ai livelli di evidenza:

  • Livello di evidenza A: più studi sperimentali randomizzati/meta-analisi
  • Livello di evidenza B: uno studio sperimentale randomizzato, studio quasi sperimentale, studio di coorte esteso
  • Livello di evidenza C: studio osservazionale, consenso di esperti

Uno studio clinico è diviso in diverse fasi:

  • Fase 1: studio su un gruppo di volontari, con lo scopo di studiare le proprietà farmacocinetiche del trattamento.
  • Fase 2: studio su un gruppo ridotto di soggetti malati (< 100), lo scopo è valutare l’efficacia e sicurezza del trattamento nei malati
  • Fase 3: studio su un gruppo ampio di malati (>100), lo scopo è valutare l’efficacia e sicurezza del trattamento nei malati
  • Fase 4: fase post-marketing (dopo l’immissione in commercio), lo scopo è valutare la reale efficacia, cercare nuove indicazioni e cercare reazioni avverse poco frequenti (farmacovigilanza)

VERIFICA DELL’IPOTESI

Il suo scopo è determinare se le differenze osservate siano riconducibili ad un errore casuale o ad un effetto reale.

  • Ipotesi nulla: affermazione secondo cui non ci sia differenza/relazione tra due fenomeni/gruppi; viene assunta vera, finché non si trova una evidenza che la confuti.
  • Ipotesi alternativa: ipotesi contro cui si verifica l’ipotesi nulla
  • Errore di tipo I (alfa): si commette quando le differenze osservate sono riconducibili al caso, ma lo sperimentatore lo attribuisce a una differenza (di solito α = 0,05).
    In altre parole, è la probabilità di rifiutare l’ipotesi nulla, essendo vera (“falso positivo”). La probabilità di commettere l’errore alfa definisce il livello di significatività statistica.

      • p value: è la probabilità che nella realtà non esista una differenza uguale o maggiore a quella osservata nell’ambito dello studio.
          • P < 0.05: si accetta H1 e si rifiuta H0.
          • P > 0.05: non si accetta H1 e NON si rifiuta H0
  • Errore di tipo II (beta): si commette quando le differenze osservate sono reali, ma lo sperimentatore le riconduce al caso (di solito β < 0.20). In altre parole, è la probabilità di non rifiutare l’ipotesi nulla, essendo falsa (“falso negativo”).
      • Potenza statistica: probabilità di riscontrare differenze quando nella realtà esistono queste differenze, è pari a 1-β (“vero positivo”). Il modo più comune di aumentare il potere statistico è aumentare la numerosita’ del campione.
  • Hazard ratio: nell’analisi di sopravvivenza è il rapporto tra i tassi di rischio istantanei di un evento in due condizioni che si vuole paragonare 

TEST IN STATISTICA

Essi possono essere:

  • Parametrici: possono essere verificati considerando parametri che descrivono il comportamento di una distribuzione
  •  Non parametrici: non ci sono parametri che caratterizzano la distribuzione dei dati

Alcuni esempi:

  • t-test student: test parametrico con lo scopo di verificare se il valore medio di una distribuzione si discosta significativamente da un certo valore di riferimento, la varianza è sconosciuta e confronta la media di 2 gruppi per una singola variabile nominale
  • Regressione di Cox: equazione che esprime l’associazione esistente tra due variabili quantitative, usata nell’analisi della sopravvivenza
  • Correlazione: esprime la forza del grado di associazione tra variabili attraverso un coefficiente 
      • Coefficiente “p” di Spearman: test non parametrico (tasso di crescita diverso)
      • Coefficiente “r” di Pearson: test parametrico che misura il grado di correlazione lineare tra le variabili (tasso di crescita uguale)
  • ANOVA (analysis of the variance): confronta la variabilità interna di 2 o più gruppi con la variabilità tra i gruppi. Di solito si usa quando le variabili sono di tipo nominale (discreto).
  • Chi-quadro: usato per verificare che le frequenze dei valori osservati si adattino alle frequenze teoriche di una distribuzione di probabilità prefissata; permette di capire se due variabili nominali sono dipendenti o meno tra loro; utile per analizzare i risultati di un trattamento

VALIDAZIONE DI ESAMI DIAGNOSTICI

I parametri di validazione di un test diagnostico si dividono in:

  • Validità interna: capacità del test di ottenere risultati esatti nei soggetti del campione usato
      • Sensibilità: probabilità che un soggetto malato risulti positivo al test = veri positivi/malati totali
      • Specificità: probabilità che un soggetto sano risulti negativo al test = veri negativi/sani totali
      • Rapporto di verosimiglianza
          • Positivo: sensibilita’/(1 – specificita’)
          • Negativo: (1 – sensibilita’)/specificita’
  • Validità esterna: capacità del test di generalizzare i risultati ottenuti nel campione alla popolazione
      • Valore predittivo positivo: capacità del test di prevedere se un soggetto risultato positivo nel test è realmente malato = veri positivi/totale positivi 
      • Valore predittivo negativo: capacità del test di prevedere se un soggetto risultato negativo nel test è realmente sano = veri negativi/totale negativi
      • Valore globale (accuratezza): percentuale di risultati reali rispetto al totale = veri positivi + veri negativi/totale

Il grado di validità globale del test è rappresentato dall’area sotto la curva ROC.

Buon studio e in bocca al lupo!

Ultimi articoli e guide:

Carrello