Torniamo a parlare nuovamente dell’epidemia da coronavirus per cercare di comprendere i dati di Covid-19 e per evidenziare un’altra grande piaga del momento storico che stiamo vivendo: i bollettini quotidiani sui dati dei contagi

Innondati dai dati su Covid-19

Ogni giorno i media ci bombardano con i dati del Covid-19; non c’è dubbio che ogni notizia sia estrememente importante in questo momento ma il continuo martellare con numeri senza contesto non aiuta di certo a fare chiarezza e dissipare ansie e dubbi.

Ora, credo che chiunque non faccia la vita di uno stilita sappia a cosa mi sto riferendo: quel segmento del telegiornale in cui si sciorinano una serie di numeri e il giornalista di turno ci dice che i contagi sono in calo solo per poi cambiare opinione il giorno seguente sotto il peso di un incremento ulteriore.

Immagino che in molti si stiano chiedendo se davvero i dati e la statistica abbiano un qualche valore se cambiano da un giorno all’altro. Potrei raccontarvi da capo la solita vecchia storia del rapporto tra (dozzinale) giornalismo e scienza ma preferirei evitare potendo (il mio fegato ringrazia).

Stiamo vivendo una situazione particolarmente difficile mentre la nostra società è scossa alle fondamente dalla crisi umana ed economica che è la pandemia di Covid-19; i dati a nostra disposizione sono pochi e frammentari e la chiarezza nell’esposizione dei numeri relativi a Covid-19 è di vitale importanza.

Ogni dato è una storia

Ogni dato racconta una storia per chi la sa ascoltare. Saper ascoltare la storia raccontata dai dati significa saperli interpretare e tradurre quello che dicono in un linguaggio che il nostro cervello possa capire. Interpretare i dati è un po’ come il lavoro del traduttore, ovvero richiede soprattutto una buona conoscenza dei limiti e delle assunzioni (implicite ed esplicite) dei modelli per non incorrere in “lost in translation” cioè errori di traduzione che rendono poco comprensibili se non addirittura ingannevoli e confusionarie le informazioni contenute nei dati.

Interpretare i dati quindi non è facile e anzi può essere altrettanto complesso che fare esperimenti. Tanto per cominciare bisogna capire che cosa rappresentino quei dati che abbiamo sotto mano e non basta applicare meccanicamente qualche equazione scritta da altri: ogni set di dati è unico a suo modo nel senso che rappresenta un particolare fenomeno visto da una certa angolazione (ovvero catturato e misurato da un particolare set di esperimenti e particolari strumenti di misura con peculiarità e limiti differenti).

Interpretare i dati dell’epidemia di Covid-19

In questo articolo cercheremo di analizzare con uno sguardo critico i dati che ci vengono mostrati in mille salse da giornali e telegiornali e di capire meglio che cosa rappresentano e che cosa veramente possono dirci di quello che sta accadendo nel mondo attorno a noi.

Per questa missione di esplorazione prenderemo in considerazione uno specifico set di dati, quello messo a disposizione dalla protezione civile, relativo alla Regione Veneto e lo faremo principalmente per due motivi:

  1. È il posto dove vivo e lavoro (non sottostimiamo l’importanza di conoscere già che cosa si sta andando a studiare);
  2. Per motivi tecnici di qualità dei dati è piuttosto comoda per fare questa dimostrazione (le notizie di centinaia di decessi male attribuiti in regione Lombardia, ad esempio, rendono molto meno affidabile il dataset relativo a quella regione).
Covid-19 coronavirus
Coronavirus SARS-CoV2 causa di Covid-19

Perché` è un problema analizzare i dati nazionali?

Usare il consolidato dei dati provenienti da tutte le province per inferire meglio l’andamento dell’epidemia in Italia può sembrare una buona idea ma sarebbe in realtà un errore.

Intanto per cominciare le regioni italiane sono diverse per demografia e geografia e questo significa che la curva (il grafico che rappresenta l’andamento dell’epidemia) sarà leggermente diversa da regione a regione.

In secondo luogo, siccome il Sistema Sanitario Nazionale è gestito dalle singole regioni con una certa indipendenza, le modalità di acquisizione dei dati (tamponi) e la loro qualità non sono necessariamente omogenee da una regione all’altra. Anche la qualità dei trattamenti sanitari e dei protocolli di contenimento della pandemia non sono necessariamente gli stessi, per questa ragione è meglio trattare i dati su base regionale.

I bollettini dei contagi da Covid-19: servono davvero?

Il teatrino del giornalista di turno che si improvvisa data scientist ed inizia a trarre conclusioni sull’andamento dell’epidemia, che ormai se ne vede la fine, poi che i casi stanno aumentando, poi che stanno calando ancora (e così via), si protrae dalla fine dello scorso mese. Capisco che prima o poi questa ondata di SARS-CoV-2 si esaurirà, o almeno rientrerà entro livelli contenibili dal SSN, e che quindi prima o poi potrete dire che l’avevate predetto ma continuare a ripetere la notizia la rende meno, non più, credibile. E vi risparmio la storia di quello che gridava “Al lupo! Al lupo!”…

Non si può inferire nulla dai dati senza averli prima capiti e analizzati (e con analizzati non intendo aver calcolato qualche percentuale o una “moving average”) senza aver un quadro generale della materia. È l’equivalente di presentarsi all’interrogazione di storia senza aver studiato e biascicare le risposte riarrangiando a caso le parole afferrate sbirciando gli appunti del vicino di banco.

Che cosa raccontano dunque i dati del Covid-19?

Se osserviamo i dati in figura ci sembra di vedere una leggera flessione proprio nei giorni in cui i giornali iniziavano a riportare la notizia. Che sia la dimostrazione che il famoso picco si avvicina come dicono i giornali? Parrebbe sensato dirlo ma ricordiamoci che stiamo mettendo assieme fatti storici sbirciando dagli appunti del compagno di banco!

Dati Covid-19 in Veneto
I dati ufficiali dell’epidemia di Covid-19 in Veneto. Dati Protezione Civile Emergenza Coronavirus.

Se osserviamo il grafico dell’andamento dei casi vediamo che effettivamente sembra evidente una flessione del numero di casi attivi iniziata all’incirca a fine marzo ma facciamo un po’ l’avvocato del diavolo: dei casi confermati, ad esempio, sappiamo che vengono confermati usando i tamponi.

Il tampone è una tecnica diagnostica che richiede che i campioni vengano raccolti e fisicamente analizzati in laboratorio. Questo processo è lungo e, soprattutto, ha una capacità massima (saturazione) sopra la quale non possono più venire analizzati nuovi tamponi in un dato giorno. Questo perché il laboratorio ha solo un dato numero di macchine, personale e reagenti a disposizione ad ogni singolo momento; quello della saturazione è un concetto intuitivo ma che viene sorprendentemente ignorato anche troppo spesso quando si ragiona di numeri (come nel caso dei reportage sui media). Possiamo quindi provare ad aggiungere anche i tamponi al nostro dato sui casi confermati e vedere se questo ci dà qualche ulteriore informazione utile.

Casi confermati di Covid-19 e tamponi

Per aiutarci a visualizzare meglio che cosa significa possiamo riportare i casi confermati e il numero di tamponi in un grafico. Siccome i due numeri sono di grandezze diverse usiamo un “trucco” per rendere più chiaro il nostro grafico senza perdere informazione: la standardizzazione. Questa tecnica ci consente di ottenere dati con la stessa scala senza alterarne il “significato”.

Se plottiamo i dati dei nuovi casi confermati assieme a quelli dei campioni effettuati risulta evidente quanto le due distribuzioni vadano a braccetto; le linee tratteggiate rappresentano la tendenza delle variabili. Non è un caso che siano quasi perfettamente sovrapponibili.

Casi di Covid-19 e tamponi
Dati standardizzati del numero di nuovi casi confermati di Covid-19 (in rosso) e del numero tamponi effettuati (in blu) per ciascun giorno. Dati Protezione Civile Emergenza Coronavirus.

Il secondo grafico in figura ci mostra come, in pratica, quando osserviamo i casi confermati non stiamo misurando davvero i numeri del contagio quanto piuttosto la nostra capacità di somministrare e analizzare i tamponi. Ovviamente questa osservazione non toglie nulla ai tamponi come metodo diagnostico assolutamente essenziale per poter riconoscere e trattare i casi di COVID-19 al meglio; sembra però che lascino il tempo che trovano come estimatori della reale incidenza del contagio.

I dati dei tamponi sottostimano i numeri del Covid-19

Altre al problema della sottostima dei casi a causa del limite tecnico del numero di campioni che abbiamo visto poc’anzi, c’è anche da considerare il numero di coloro che, per un motivo o per l’altro non vengono identificati come soggetti passibili di tampone e non vengono quindi contati tra i casi confermati di Covid-19. Non possiamo evidentemente contare sul dato dei casi confermati per stimare la reale incidenza dell’epidemia.

Casi di Covid-19 e tamponi
Dati standardizzati del numero di totale casi confermati di Covid-19 (in rosso) e del numero totale di tamponi effettuati (in blu). Dati Protezione Civile Emergenza Coronavirus.

Trovare un estimatore valido dell’incidenza dell’epidemia di Covid-19 è possibile?

Esiste un dato che non risente (almeno teoricamente) delle limitazioni del campionamento e ci può quindi fornire un modo di stimare la reale incidenza dell’epidemia di Covid-19: il numero dei decessi. Questo dato infatti non ha il difetto di essere limitato dallo strumento di campionamento utilizzato e quindi è un estimatore migliore (anche se chiaramente non perfetto) del numero totale dei casi.

T. Russell e collaboratori del Centre for Mathematical Modelling of Infectious Diseases hanno messo a punto un sistema che permette di stimare il reale numero dei casi a partire dal numero dei decessi registrati.

N.B. il paper non è ancora peer-reviewed e dobbiamo prendere queste stime con le pinze – cosa che andrebbe sempre fatta con qualsiasi tipo di stima).

Casi di Covid-19 riportati
Grafico della percentuale di casi confermati di Covid-19 sul totale dei casi reali stimata da Russell e collaboratori. Fonte Russell et al. (2020).

Secondo il metodo di Russell et al. i casi riportati nella regione Veneto sarebbero meno del 15% dei reali casi di Covid-19 (in italia il dato sarebbe attorno al 10% come mostrato nel grafico); certamente uno scenario molto più cupo e problematico di quello che trapela dai numeri ufficiali [1].

Bisogna però ricordare che si tratta, proprio per le limitazioni del modello, di un “worst case scenario” ovvero della peggiore situazione possibile che è quasi certamente non quella in cui ci troviamo, grazie soprattutto ad una serie di efficaci contromisure prese con sorprendente prontezza dalla stragrande maggioranza delle regioni in accordo con il governo.

L’importanza delle strategie di prevenzione per combattere Covid-19

Sappiamo ancora molto, troppo, poco su Covid-19 e sul coronavirus che ne è la causa (SARS-CoV2), per er questo è importante continuare con le misure di prevenzione e di distanziamento sociale con un ultimo sforzo finché la situazione non sarà più chiara e avremo abbastanza informazioni per fare predizioni accurate.

Lo scopo in questo momento dev’essere quello di ridurre al minimo la riproduzione del virus nella popolazione in modo da evitare seconde ondate di contagi che farebbero nuovamente precipitare la situazione e richiederebbero probabilmente misure ancora più gravose per le imprese e i lavoratori e per la società tutta.

Per quanto ci possa far piacere pensarlo, l’epidemia di Covid-19 non sta ancora passando e non passerà facilmente; soprattutto è bene tenere a mente che, a meno che lo sviluppo di un vaccino non faccia progressi inaspettati, il coronavirus SARS-CoV-2 è qui per restare ed è bene farcene una ragione imparando ad essere più “smart”, come va di moda dire oggi, non solo nei modelli di vita e lavoro ma anche nel modo di presentare e leggere i dati della pandemia [2].

Articolo per “La Scienza Risponde” a cura di Matteo Bonas

Bibliografia:

[1] Russell TW, Hellewell J, Jarvis CI et al. Estimating the infection and case fatality ratio for covid-19 using age-adjusted data from the outbreak on the diamond princess cruise ship. medRxiv 2020.

[2] Kissler, S., Tedijanto, C., Goldstein, E., Grad, Y., & Lipsitch, M. (2020). Projecting the transmission dynamics of SARS-CoV-2 through the post-pandemic period.