Comunemente con “errore di correlazione” si intende il confondere una correlazione con una relazione causa-effetto.
Spesso e volentieri su internet ci si imbatte in statistiche che un occhio abituato è in grado di smascherare in tempi brevi, ma che invece possono risultare accattivanti per una audience meno preparata e/o preventivamente polarizzata su determinati argomenti.
I casi più eclatanti si hanno nell’ambito della discussione NoVax-ProVax, ma non mancano esempi in altri campi, come la prima pagina del quotidiano Libero ci ha mostrato solo pochi giorni fa. Il titolo metteva in correlazione la decrescita del Prodotto Interno Lordo ed un fantomatico “aumento delle persone omosessuali”. (Spero mi perdonerete se rifiuto categoricamente di regalare anche solo un click ad un tale articolo e quindi non ne allego il link. NDR)
Ma quanti errori di correlazione esistono?
Esistono varie sottocategorie di errori di correlazione ma, escludendo le coincidenze (che pure esistono), le macroaree in cui suddividerli sono sostanzialmente due
1) La correlazione spuria
2) La correlazione illusoria.
Proprio per sfatare il mito “Correlazione = Causa” esistono varie pagine (ad esempio questa) che mostrano come cercando bene si possano trovare correlazioni tra gli argomenti più disparati.
La Correlazione Spuria
Con il termine “correlazione spuria” si indica l’apparente relazione tra tutte quelle coppie di variabili che non presentano alcuna correlazione tra loro, ma che portano ciascuna una correlazione con una terza variabile.
Volendo calcolare la correlazione tra il consumo di prodotti biologici ed il numero annuale di diagnosi di disturbi dello spettro autistico, ad esempio, si trova un esempio lampante di correlazione spuria. L’indice di correlazione e’ prossimo al 100% ( r = 0.9971 ) eppure nessuno si sognerebbe mai di affermare che il cibo biologico provochi disturbi dello spettro autistico. La corretta analisi del problema va in una direzione differente: tanto il mercato dei cibi biologici è in crescita quanto anche il numero di diagnosi dei disturbi dello spettro autistico, a causa una maggiore presa di coscienza del problema. Entrambe le misure, quindi, sono direttamente correlate con la variabile tempo e presentano, di conseguenza, una correlazione tra loro assolutamente slegata da un rapporto causa-effetto.
A riprova di questo, se domani cessasse la distribuzione di prodotti biologici non vi sarebbe alcuna deviazione nel trend delle dinamiche delle diagnosi di questo genere di disturbi.
La Correlazione Illusoria
Con “correlazione illusoria”, invece, si intende una correlazione inesistente, ma che siamo portati a vedere a causa della nostra indole e dei nostri preconcetti. Le correlazioni illusorie sono alla base delle tanto famose “Bufale” e raramente vengono riportate in forma pseudo-scientifica; piuttosto vengono inserite nelle conversazioni con fare discorsivo:
“è evidente che funziona così” e “lo vedrebbe chiunque” sono due classici esempi di introduzione di una correlazione illusoria.
L’unico modo per smascherare una correlazione illusoria e’ riportare dei dati sperimentali validi. Spesso però nemmeno questa azione sortirà l’effetto desiderato: le correlazioni illusorie nascono infatti da una credenza radicata nelle persone che troppo spesso preferiscono ignorare la realtà piuttosto che cambiare idea.
Le Coincidenze
Infine, come precedentemente detto, esistono le “coincidenze”. Nella foto in calce a questo articolo, possiamo ammirare, infatti, una “evidente” stretta correlazione tra il numero di film in cui ha recitato Nicolas Cage ed il numero di persone affogate cadendo in piscina negli USA.
Ora: non ho ancora mai sentito di qualche teoria complottista che effettivamente leghi l’attore statunitense alle morti per annegamento in piscina, ma la correlazione (circa 70%, non perfetta ma indubbiamente non nulla) c’è.
Proprio questo esempio dovrebbe farci riflettere su uno dei principi base della ricerca sperimentale:
“Correlation is not Causation”.
La Correlazione non e’ sinonimo ne’ sintomo di rapporto Causa-Effetto. È piuttosto un fattore per decidere dove investire le risorse della ricerca!
Vorrei, infine, spingere alla seguente riflessione tutti i lettori che, per lavoro o semplicemente nel tentativo di informarsi, entrano in contatto con dei dati rappresentanti statistiche di più vario genere: spesso i dati cui veniamo sottoposti, sebbene presentati autorevolmente e con parvenza di veridicità, anziché palesare la verità possono nasconderla. Ricordate sempre che tanto l’analisi del dato, quanto la fonte dello stesso, devono essere autorevoli. Inoltre si deve sempre poter riprodurre un qualsiasi esperimento, e testare qualsiasi correlazione con risultati ripetibili.
Bibliografia:
Organic Trade Association, 2011 Organic Industry Survey
U.S. Department of Education, Office of Special Education Programs