Lavoce.info

Morti da coronavirus: calcoli sul campione inadatto

La costruzione stessa del campione fa sì che i dati Istat di inizio aprile non possano essere usati per stimare il numero totale di decessi causati da Covid-19. Né oggi si può sostenere che i numeri indicati dal ministero della Salute siano sottostimati.

Cosa dicono davvero i dati Istat

Qualche giorno fa l’Istat ha pubblicato i dati relativi ai decessi negli anni dal 2015 al 2020 nelle settimane dal 1° gennaio al 21 marzo. Nella nota esplicativa, l’Istat spiega che si riferiscono a 1.084 dei 5.866 comuni italiani inclusi nell’Anagrafe nazionale della popolazione residente (Anpr). Sono i “comuni con un numero di decessi che, nel periodo 1° gennaio 21 marzo 2020, è risultato superiore o uguale a 10 unità e che nel mese di marzo del 2020 hanno presentato, rispetto alla corrispondente media del quinquennio 2015-2019, un incremento della mortalità pari ad almeno il 20 per cento”.
Nei giorni successivi, vari commentatori hanno utilizzato questi dati per stimare il numero dei decessi causati da Covid-19, giungendo alla conclusione che l’epidemia ha provocato molti più decessi di quelli ufficialmente riconosciuti dal ministero della Salute, approssimativamente il doppio. Non sorprende che la notizia abbia avuto grande rilevanza anche sui media internazionali.

Nell’articolo pubblicato qualche giorno fa abbiamo mostrato che le cose non stanno così. Applicando la regola di selezione usata dall’Istat ai dati relativi alle settimane del 2020 dal 1° al 22 febbraio – sono quelle che precedono l’inizio dell’epidemia – si ottiene un gruppo di comuni (circa 250) che anche in quelle settimane registrano una variazione rilevante dei decessi del 2020 rispetto alla media dei cinque anni precedenti. È una variazione nell’ordine del 40 per cento. Si tratta di una differenza del tutto assente nell’insieme originario del 1.084 comuni. Dunque – questa è la nostra tesi – è dovuta solo al modo in cui sono stati selezionati quei 250 comuni dai 1.084 del campione Istat.
Abbiamo concluso che è plausibile che la stessa selezione dei 1.084 comuni operata dall’Istat sui 5.866 dell’Anpr soffra dello stesso problema di (grave) sovrastima della variazione dei decessi nel 2020 rispetto alla media dei cinque anni precedenti.

La selezione del campione

L’articolo ha dato luogo a varie obiezioni, nella sostanza riassumibili in due affermazioni: 1) la nostra analisi si riferisce solo ai 1.084 comuni già selezionati dall’Istat, non a tutti i 5.866 dell’Anpr; 2) l’analisi si riferisce alle settimane immediatamente precedenti l’inizio dell’epidemia e potrebbe quindi essere falsata dalla prossimità temporale a questa.
Secondo noi ci sono buone ragioni per ritenere che entrambe le critiche non siano rilevanti. Ma, in questi casi, la strategia migliore per convincere gli scettici è mostrare che i risultati sono gli stessi cambiando l’insieme di comuni di riferimento e il periodo.
Abbiamo considerato tutti i comuni italiani per gli anni dal 2015 al 2019. La riga 1 della tabella mostra il numero totale di decessi nelle settimane dal 22 febbraio al 21 marzo, separatamente per i cinque anni. Non ci sono, ovviamente, particolari anomalie da segnalare: in quelle quattro settimane del 2019 non è successo nulla di significativo rispetto alle corrispondenti settimane dei quattro anni precedenti.

Tabella 1

Leggi anche:  I rischi della salute brevettata

Il passo successivo consiste nel selezionare tra i 7.904 comuni solo quelli “con un numero di decessi che, nel periodo 1° gennaio – 21 marzo 2019, è risultato superiore o uguale a 10 unità e che nel mese di marzo del 2019 hanno presentato, rispetto alla corrispondente media del quadriennio 2015-2018, un incremento della mortalità pari ad almeno il 20 per cento”. In altre parole, abbiamo applicato la stessa regola di selezione usata dall’Istat, adattata al quinquennio 2015-2019.
Su questo sottoinsieme, costituito da 1.265 comuni (che corrispondono al 16 per cento dei comuni italiani), abbiamo contato il numero di decessi nelle solite settimane, separatamente per i cinque anni. In riga 2 della tabella si osserva che il numero di decessi del 2019 risulta essere del 52 per cento superiore rispetto alla media relativa allo stesso periodo nei quattro anni precedenti.

Sorprendente? Per niente. Se si considerano solo i comuni nei quali la variazione dei decessi è stata pari ad almeno il 20 per cento, in quei comuni si osserverà una variazione almeno pari al 20 per cento. Di fatto, ne vediamo una molto superiore al 20 per cento perché, per effetto della variabilità accidentale del numero dei decessi tra i comuni selezionati,ce ne sono alcuni con variazioni considerevolmente più elevate.
Banalizzando, se si vuole misurare l’altezza media di una popolazione, non è una buona idea prendere l’altezza delle persone presenti nello spogliatoio di una partita di basket.

La nostra conclusione è semplice. I dati pubblicati dall’Istat a inizio aprile non possono essere usati per stimare – nemmeno in via approssimativa – il numero totale di decessi causati da Covid-19. In questo senso, non ci sorprende minimamente che l’Istituto di statistica consapevole delle caratteristiche del campione di comuni selezionato – nella sua nota a commento dei dati abbia accuratamente evitato di farlo.
Purtroppo, molti altri l’hanno fatto, accreditando l’idea che il numero totale di decessi da Covid-19 fornito dal ministero sia fortemente sottostimato. Per il momento, non c’è alcuna ragione seria per sostenerlo.  

Lavoce è di tutti: sostienila!

Lavoce.info non ospita pubblicità e, a differenza di molti altri siti di informazione, l’accesso ai nostri articoli è completamente gratuito. L’impegno dei redattori è volontario, ma le donazioni sono fondamentali per sostenere i costi del nostro sito. Il tuo contributo rafforzerebbe la nostra indipendenza e ci aiuterebbe a migliorare la nostra offerta di informazione libera, professionale e gratuita. Grazie del tuo aiuto!

Leggi anche:  Quanti sono i soldi per la sanità?

Precedente

Decessi da Covid, come leggere i numeri*

Successivo

Dov’è la responsabilità della Cina

24 commenti

  1. Alessandro D'Angelo

    “Secondo noi ci sono buone ragioni per ritenere che entrambe le critiche non siano rilevanti. Ma, in questi casi, la strategia migliore per convincere gli scettici è mostrare che i risultati sono gli stessi cambiando l’insieme di comuni di riferimento e il periodo.”
    In un triste periodo in cui la fa da padrone chi la butta in cagnara senza argomentazioni serie, è un piacere leggere questa frase.
    Complimenti.

    • Emanuele

      Sarebbe un piacere maggiore se la strategia fosse giusta ma invece è uno di quei casi in cui ci si compiace di andare contro lo sciocco “buon senso popolare” quasi per principio. Un atteggiamento più costruttivo, più moderno, mancante in Italia è indagare con onestà intellettuale sulle percezioni popolari e vedere se c’è dentro qualcosa, quanto, come, e se è il caso di cambiare rotta o no. Qui non certamente ma molto probabilmente c’è una sottostima dei morti, per la spiegazione logica può rileggere il primo commento molto chiaro.

      • Enrico Rettore

        Quindi, se capisco, lei propone di sostituire alle indagine statistiche ufficiali che rilevano come stanno le cose, indagini statistiche ufficiali su come il ‘buon senso popolare’ ritiene che stiano le cose. Interessante.

        P.S.: la ‘spiegazione logica del primo commento’ è sbagliata, veda la mia risposta.

  2. Giuseppe GB Cattaneo

    L’unica statistica attendibile sull’incidenza del coronavirus sulla mortalità sarà possibile fra qualche anno quando si potranno comparare i decessi del 2019 con quelli del 2020. Il resto lascia il tempo che trova. Nel 1956 l’influenza asiatica ha prodotto una differenza di 50.000 decessi in più rispetto al 1955. Penso che questo sia un termine di paragone utile anche oggi.

    • toninoc

      Resto convinto anch’io che sia presto per fare stime attendibili sui decessi totali perchè non sappiamo ancora l’evoluzione che avrà la pandemia nelle regioni del centro e del sud, dove molte strutture sanitarie (pubbliche e private) notoriamente non hanno la qualità di quelle del nord Italia. Quando la bufera sarà passata potremo parlare su dati certi.

    • Amegighi

      Sono pienamente daccordo. Iniziano ad uscire solo ora i primi dati epidemiologici cinesi su riviste peer reviewed internazionali (e quindi attendibili) e sono comunque acnora preliminari. Credo che non prima della fine dell’anno si potranno avere delle valutazioni preliminari dei nostri dati fino all’estate, e non prima dei primi tre mesi del prossimo anno la pubblicazione di questi dati, con la loro valutazione scientifica. D’altronde è meglio così. Conviene avere una chiara idea di quello che è successo, di dove sono stati i punti critici, in modo da poterli migliorare per il futuro. Ricordiamoci che questa non è stata la prima pandemia e ne verranno altre…..

  3. Roberto

    Nella media generale italiana l’articolo può essere corretto, però questo virus ha inciso specialmente su una regione, la Lombardia, e questo porta a risultati completamente diversi in specifici comuni. Il 55% dei deceduti italiani da covid sono in Lombardia (i lombardi sono 1/6 della popolazione italiana) ed in alcuni comuni, in particolare nel bergamasco, ci sono stati 10 volte i morti rispetto alla media degli ultimi 5 anni. E’ evidente che in questi comuni i dati del ministero della salute siano fortemente sottostimati, infatti alcuni sindaci hanno detto che i deceduti da covid sono almeno il doppio di quelli confermati (molta gente è morta a casa senza che abbiano fatto il tampone).

  4. Matteo Paradisi

    Mi sembra che si confonda un problema di validità esterna con uno di validità interna dell’esercizio. Il campione è selezionato, quindi difficilmente si può estrapolare sui restanti comuni. Ma il 2020 è identico agli anni precedenti nel campione selezionato, quindi non vedo come la stima puntuale sul campione sia distorta. Il controfattuale utilizzato nell’esercizio sulla serie temporale sembra più che credibile. Qui non siamo interessati ad un “effetto medio” sui comuni, ma ad una stima sul totale dei decessi, quindi l’esercizio è corretto.

  5. Marco La Colla

    Tutto molto interessante: ma in questi giorni abbiamo saputo che da un indagine approfondita del “Eco di Bergamo” i decessi in quella provincia sono stati circa 10 volte di più di quelli ufficiali. E ciò perché non sono stati considerati causa del Covid quelli morti in casa, senza tampone e quindi ufficialmente non contagiati. E’ assolutamente vero che i calcoli si fanno alla fine, ma è anche molto probabile che ciò che è successo a Bergamo, stia succedendo anche altrove !

  6. Marco Chiodini

    Non possiamo dire che “il numero totale di decessi da Covid-19 fornito dal ministero sia fortemente sottostimato”? La conclusione mi sembra un po’ forte. I dati Istat mostrano un aumento del 100% contro il vostro 50% relativo alla simulazione 2019. In numero assoluto parliamo di 8000 morti in più, su 4000 circa dichiarate dal ministero. Mettiamo pure che 4000 di questi 8000 siano dovute al campionamento (il che corrisponderebbe al +50% della vostra simulazione), resta comunque un aumento di 4000 morti in un campione di 1000 comuni su 8000, con copertura di circa il 20% della popolazione. Purtroppo dobbiamo concludere che i numeri del ministero sono una forte sottostima della realtà, l’affermazione non può essere corroborata da dati solidi (per colpa delle scelte dell’Istat) ma è assolutamente verosimile. Oltretutto i morti da Covid del ministero sono quelli a cui è stato possibile fare un tampone con risultato positivo. Serve aggiungere altro? Ovvio che si tratti di una sottostima.

    • Enrico Rettore

      Utilizzando i dati Istat si trovano ca. 10.000 decessi in più rispetto alla norma. Se – come i nostri calcoli suggeriscono – il 50% fosse dovuto *solo* al criterio di selezione del campione, i morti in eccesso sarebbero 5.000. Il Ministero alla stessa data ne dave 4.800. Cioè una differenza trascurabile. Il fatto che il campione Istat copra solo 1084 comuni non dovrebbe spostare più di tanto i risultati: nei comuni mancanti i decessi hanno fatto registrare una variazione piccola rispetto agli anni precedenti. Un’ultima avvertenza: noi *non* stiamo proponendo un modo alternativo di usare i dati Istat per stimare i decessi causati da COVID19. Stiamo dicendo che chi li ha usati per questo scopo non si è reso conto che *non* si può fare. Non con questi dati.

      • Marco Chiodini

        Esiste anche la statistica bayesiana. Sulla base dei dati ISTAT la verosimiglianza dell’ipotesi che i dati del ministero non siano una forte sottostima direi che si riduce molto. Le ricordo inoltre che Istat ha preso in considerazione solo i comuni che fanno parte del nuovo sistema di censimento. Di conseguenza il sovra-campionamento della coda destra della distribuzione riguarda un sotto-insieme di comuni, non sarei quindi così sicuro che l’eccesso di morti in valore assoluto sia destinato a ridursi drammaticamente includendo l’intera popolazione. Visto che avete i dati sottomano, perché non provate a simulare la distribuzione della coda sinistra sulla base della distribuzione osservata in anni precedenti?

        • Enrico Rettore

          Usando una distribuzione a priori appropriata, si riesce a mostrare anche che Gesù è morto di freddo.

  7. marcello

    Esiste una discrepanza non insignificante tra i dati usati dal ministero, che sono fornite dalle prefetture, e i dati delle anagrafi comunali che registrano i decessi. Inoltre molti decessi avvenuti fuori degli ospedali, non solo a casa ma anche nelle residenze non sono stati testati per il virus CoVid-19, anche in presenza di sintomi più che compatibili. Come si fa a non ritenere sottostimato il numero di decessi fornito dal ministero?

    • Enrico Rettore

      Rispondo a lei anche per analoghe obiezioni precedenti alla sua. Che ci siano singoli comuni per i quali la discrepanza esiste – in alcuni casi drammatica – è certo. Peraltro, lo si vede molto bene anche nel file di dati rilasciato dall’Istat. Ma *non* è di questo che stiamo discutendo. Stiamo parlando della stima *aggregata* degli effetti di COVID19. Per passare dai singoli casi all’intero paese, non è sufficiente dire ‘se è successo lì, probabilmente è successo anche altrove’. Serve mostrare che è così. Con i dati rilasciati dall’Istat non si può farlo. L’Istat l’ha dichiarato esplicitamente. I nostri calcoli mostrano quanto può essere grave l’errore nel quale si incorre se si usano incautamente quei dati.

      • Marcello

        la domanda aggregata annulla forse gli errori casuali non quelli sistemici e qui si è in presenza di un errore sistemico, credo.

  8. Walther

    Sono uno di quelli che vedendo i dati istat ha collegato la differenza di morti covid ufficiali e morti campione istat pensando alla saturazione del servizio ospedaliero. Mi spiego, lo stress del sistema sanitario in questo mese potrebbe aver portato alla morte un numero di persone maggiore rispetto agli scorsi anni. Il numero di pazienti covid ha portato in diverse e silenti occasioni il sistema sanitario a dover scegliere chi salvare e chi no, sia tra i covid sia tra le terapie intensive non covid. Questa fu la mia speculazione, apprezzerei un commento.
    Cordialità, appena scoperti. Ottimi articoli.

    • Enrico Rettore

      La sua è una congettura plausibile, come altre che l’hanno preceduta. Solo che per passare da una valutazione qualitativa ad una quantitativa servono dati appropriati. Scopriremo a quanto ammonta la sottostima dei decessi COVID19 nei dati ufficiali del Ministero quando avremo a disposizione le informazioni dell’Istat su tutti i comuni (o quantomeno su un campione rappresentativo). Al momento, l’unica cosa che possiamo dire è che il ‘campione’ reso disponibile a inizio mese sovrastima in modo importante i decessi COVID19.

  9. Federico Leva

    A proposito di campioni (in)adatti, la Finlandia ha lanciato un “sondaggio” volontario per fare l’esame degli anticorpi alla popolazione generale, con un campione di 750 persone scelte casualmente ogni settimana fra tutti i residenti di Uusimaa (circa lo 0,4 % della popolazione della regione). Non so se funzionerà ma mi pare apprezzabile il tentativo di raccogliere dati affidabili con costi sociali limitati.

  10. giuseppe costa

    Congratulazioni a Istat per la pubblicizzazione dei dati ANPR, limitati necessariamente a una selezione di comuni con anagrafi più aggiornate. Si raccomanda agli utilizzatori di farne uso solo per valutazioni tra osservati e attesi all’interno del comune ed evitare di sommare i comuni selezionati dando stime di differenza tra osservato e atteso a livello di aggregato che sono chiaramente distorte da un bias di selezione. Detto questo, i dati dei 18 comuni della sorveglianza della mortalità giornaliera nelle emergenze stagionali SiSMG, fonte indipendente da ANPR e non selezionata per di mortalità, ha mostrato gli stessi risultati osservati nei singoli comuni del campione Istat: e cioè che nei comuni colpiti nelle prime settimane della pandemia si osservano eccessi di mortalità totale rispetto alle serie temporali di confronto che eccedono a loro volta di circa il doppio il conteggio delle morti COVID-19 correlate. Dunque c’è il fondato sospetto che ci sia una sovramortalità rispetto a quella notificata, che è collineare con la pandemia e che, al netto di una quota di sottonotificazione della mortalità COVID-19 correlata, potrebbe essere un indizio preoccupante di un effetto indiretto della pandemia dovuto a meccanismi indipendenti dall’infezione, ad esempio eventi avversi legati alla rinuncia o al ritardo in cure diverse da quelle COVID-19. Una ragione importante per investire sullo studio del fenomeno adesso e non a fine pandemia.

  11. Pirola Massimiliano

    Buongiorno,dopo tre settimane di chisura
    mi sarei aspettato un’analisi dei positivi
    gionalieri disaggregati prima di decidere
    un prolungamento di altre tre settimane.
    Mi sarebbe piaciuto esaminare i casi per :
    località,classi di età,comandati al lavoro,
    segregati soli,segregati conviventi con comandati.Questo per valutarel l’effettivivo
    effetto della segregazione al fine,ove possibile,di una piu rapida ripresa dell’
    attività produttva con eventuali accorgimenti di volontarietà.

  12. Fabio

    Forse una possibile obiezione alla vostra critica, peraltro assolutamente ragionevole: rispetto ai dati rilasciati un paio di settimane prima, il campione dei comuni con un eccesso di mortalità del 20% è aumentato significativamente (+50% di popolazione coperta se non sbaglio). Se non ci fosse un’epidemia, intanto mi aspetterei che alcuni comuni scomparissero dalla lista (picchi temporanei di mortalità dovuti a gravi incidenti o altro, che vengono riassorbiti dalla statistica nelle settimane successive) – ma anche con i numeri ufficiali, l’incremento dei comuni nella lista è (statisticamente parlando) compatibile con la curva rilevata? O magari l’incremento stesso può dimostrare la presenza di decessi non conteggiati? Mi chiedo: si può dimostrare matematicamente se questo significativo incremento del campione sia tanto o poco probabile, in senso bayesiano, rispetto al prior che i numeri ufficiali *non* siano sottostimati?

  13. Alessandro

    Grazie per l’interessante analisi. Se posso, un solo appunto relativo al fatto che i 1265 comuni individuati rappresentino il 16% dei comuni totali, dove sarebbe sato utile indicare (penso) anche la % di popolazione di quei comuni sul totale.
    Ho replicato l’analisi e anche il dato di popolazione di quei 1265 comuni, sul totale italia, è di circa il 17%. Con un incremento medio della mortalità 2019 vs 2015-18 del 43% circa.
    I dati più recenti pubblicati da Istat ieri (su 1689 e non più 1084 comuni) includono invece il 21% dei comuni per un totale del 32% della popolazione, con un incremento di mortalità (2020 vs 2015-19) di oltre il 100%.
    E’ evidente che non se ne possano trarre conclusioni generali, sia per quanto esposto da voi sia perchè i comuni sono per la maggior parte concentrati al nord, sia perchè specificato esplicitamente da Istat nelle note ai dati.
    Ma il campione si sta affinando e per zone come la Lombardia può dare delle indicazioni utili, oltre a far pensare comunque che il dato, almeno in Lombardia (41% dei comuni, 72% della popolazione) e a Bergamo (50% dei comuni e 74% della popolazione), sia sottostimato.
    Non so se fortemente o meno perchè i dati diffusi dal ministero sono anch’essi soggetti a molte variabili che fanno dubitare della loro “esattezza” e non ho quindi dedicato troppo tempo ad approfondirli.

  14. Grazie davvero per l’intervento, molto prezioso. Una domanda: davvero non possiamo dire che c’è una sottostima? Mi spiego, io ho visto che il “differenziale” di mortalità sul periodo 1 gennaio – 4 aprile per quei comuni (pur affetti da un esplicito selection bias) è di 18000 decessi, che diventano 20000 se si guarda solo al periodo 1 marzo-4 aprile. In questo stesso periodo il Ministero della Sanità ne riporta 14500. Non è già evidente e certo che ci sia una sottostima? Chiaro che non sappiamo le cause di morte Istat, ma quale altro motivo potrebbe esserci per un aumento significativo della mortalità in questo periodo? Al contrario, molte altre cause di morte (incidenti stradali) si sono ridotte, per cui ascrivere questa differenza di 18mila/20mila al Covid19 mi sembra verosimile.

Lascia un commento

Non vengono pubblicati i commenti che contengono volgarità, termini offensivi, espressioni diffamatorie, espressioni razziste, sessiste, omofobiche o violente. Non vengono pubblicati gli indirizzi web inseriti a scopo promozionale. Invitiamo inoltre i lettori a firmare i propri commenti con nome e cognome.

Powered by WordPress & Theme by Anders Norén