Il reddito? Dichiarato via Twitter

La valutazione delle politiche si ferma davanti alla scarsa disponibilità di dati amministrativi. Ma ha ancora senso invocare la privacy al tempo dei social network? Per esempio, dai contenuti su Twitter si può predire il reddito di chi li pubblica.

Pnrr, valutazione e dati che mancano

Se vogliamo far sì che i 200 miliardi del Piano nazionale di ripresa e resilienza siano spesa “buona”, ovvero di qualità tale da far vincere la scommessa del maggior indebitamento in cambio di maggior crescita (soprattutto potenziale), non possiamo non valutare l’efficacia delle politiche finanziate rispetto all’obiettivo che si prefiggono. Per esempio, se il Pnrr vuole migliorare il reclutamento degli insegnanti, dei docenti si deve poi poter valutare la performance. Sembra un punto ovvio, ma non lo è affatto, come osservato a più riprese anche su lavoce.info (incluso qui e qui). Come mai?

Un grosso ostacolo è la penuria di dati. La valutazione delle politiche, condotta secondo i più recenti metodi condivisi dalla comunità scientifica internazionale, necessita infatti dei cosiddetti microdati, ovvero dei dati riferiti ai singoli agenti economici. La pubblica amministrazione italiana ne conserva un serbatoio inestimabile (i cosiddetti dati amministrativi): dichiarazioni dei redditi, carriere scolastiche, consumi energetici familiari, percettori del reddito di cittadinanza o di pensioni con quota 100 e così via. Ma è un giacimento in larghissima parte inesplorato.

Se i dati sono il petrolio del ventunesimo secolo, come hanno capito molto bene i giganti del web, le riserve nazionali sono gelosamente custodite in attesa di non si sa quale epifania, nonostante almeno due decenni di appelli da parte dei ricercatori. È davvero arrivato il momento di avviare lo sfruttamento su larga scala delle fonti di energia (rinnovabile, peraltro) conoscitiva.

Farlo rimanda alla normativa sulla privacy e alla conseguente chiusura culturale di molte amministrazioni nei confronti della condivisione dei dati amministrativi: un tabù, seppellito sotto il totem della riservatezza.

Quale privacy al tempo dei social network?

Oggi in Italia ci sono più di 36 milioni di utenti Facebook, 29 Instagram, 21 Linkedin, 11 Twitter, 9 Tik Tok (fonte: Agcom): ha senso limitare l’accesso ai dati amministrativi nell’epoca dei social network, del rito del “broadcast yourself”? Vogliamo qui contribuire al dibattito con una primissima evidenza empirica che mostra quanto il contenuto informativo condiviso spontaneamente sulle piattaforme contribuisca a predire con sorprendente accuratezza il reddito individuale, una delle variabili sulle quali il pudore è massimo.

Abbiamo utilizzato dati presi da uno studio del 2015, relativi a 5.191 utenti Twitter di cui conosciamo il reddito (ma non la ricchezza), alcune caratteristiche demografiche facilmente osservabili nella vita di tutti i giorni (genere, etnia, età) e diverse variabili che hanno a che fare con l’utilizzo di Twitter: si tratta di circa 250 variabili che includono sia caratteristiche del profilo (numero di follower, numero medio di tweet al giorno, numero totale di tweet, e altro), sia informazioni sui contenuti relativi all’attività sulla piattaforma (per esempio: quota di tweet con contenuto politico, sportivo; quota di tweet che veicolano sentimenti di gioia, di rabbia) Definiamo “ad alto reddito” gli individui il cui reddito è nel top 10 per cento della distribuzione.

Dimmi cosa condividi e ti dirò quanto guadagni

Abbiamo quindi applicato diversi algoritmi di machine learning per predire lo status di persona “ad alto reddito” sulla base (i) delle sole informazioni demografiche e (ii) delle stesse informazioni demografiche e delle 250 variabili relative ai dati Twitter.

Alcune osservazioni preliminari sono utili. Primo, al di là del nome un po’ esoterico, un algoritmo di machine learning non fa altro che estrarre informazione dai contenuti presenti sui social network, un po’ come farebbe intuitivamente anche un essere umano. Per esempio, prese di posizione contro una maggiore progressività dell’Irpef potrebbero indicare uno status reddituale elevato. Secondo, la qualità della predizione basata sui contenuti Twitter è verosimilmente un limite inferiore a quella che si potrebbe ottenere con i dati di altri social network dove si tende a condividere più spesso fotografie o altro materiale che, probabilmente, ha un maggior potere predittivo. Terzo, l’universo degli utenti Twitter non è necessariamente rappresentativo di tutta la popolazione. Quarto, Twitter ha sì lo svantaggio di essere meno diffuso rispetto ad altre piattaforme ma, in compenso, i contenuti sono, in generale, visibili non solo a tutti gli altri utenti, ma anche a chi non possiede un account Twitter.

Ciò detto, se consideriamo le sole variabili demografiche, il modello con la performance migliore (sviluppato utilizzando un algoritmo chiamato “bagging”) ha una sensibilità (cioè la capacità di indovinare lo status di persona “ad alto reddito”) del 57 per cento: una performance solo leggermente migliore di quella ottenibile in assenza di informazioni, per esempio decidendo attraverso il lancio di una moneta. Se, invece, lo stesso modello può sfruttare anche l’informazione disseminata su Twitter, allora si ha un fortissimo miglioramento della performance predittiva: il parametro di sensibilità sale all’80 per cento. In altri termini, in 8 casi su 10, un utente “ad alto reddito” può facilmente essere individuato come tale solo sulla base dei contenuti che condivide. È un numero molto elevato: per esempio, 80 per cento è proprio la soglia minima di sensibilità che il Ministero della Salute richiede per autorizzare test antigenici per la diagnosi del Covid-19.

Oltre il trade-off tra privacy e ricerca

Il nostro esercizio suggerisce, con le dovute cautele legate alla semplicità di una prima analisi, che, al di là dell’evidenza aneddotica, è proprio vero che le informazioni che disseminiamo sui social network accrescono significativamente la capacità, per un osservatore esterno, di predire persino una variabile sensibile quale il reddito. La normativa, dunque, protegge gli individui da rischi che loro stessi, a volte, sono ben lieti di correre. Certo, la ratio della norma è quella di offrire una protezione a tutti e nei confronti di tutti, protezione di cui il singolo può, semmai, disporre. Vero, ma ci sembra che la questione vada comunque discussa più laicamente: in un’epoca in cui i social network sono così diffusi, i loro contenuti così eloquenti e l’interesse pubblico alla valutazione delle politiche massimo, è opportuno ripensare all’equilibrio tra privacy e trasparenza permettendo la fruizione dei dati amministrativi da parte del mondo della ricerca. È possibile farlo con le dovute tecniche di anonimizzazione dei dati, seguendo l’esempio di alcune esperienze straniere virtuose e, soprattutto, superando le resistenze, a volte puramente culturali, delle amministrazioni, tra l’altro in piena coerenza con l’obiettivo del Pnrr di riformare la pubblica amministrazione.

Lavoce è di tutti: sostienila!

Lavoce.info non ospita pubblicità e, a differenza di molti altri siti di informazione, l’accesso ai nostri articoli è completamente gratuito. L’impegno dei redattori è volontario, ma le donazioni sono fondamentali per sostenere i costi del nostro sito. Il tuo contributo rafforzerebbe la nostra indipendenza e ci aiuterebbe a migliorare la nostra offerta di informazione libera, professionale e gratuita. Grazie del tuo aiuto!

SOSTIENI lavoce

Correlati

Sorvoliamo sui problemi di privacy. Mi pare che gli autori considerino l’uso dei social indipendente dall’uso che il fisco o altri potrebbero farne (“esogeno” direbbe un econometrico). Invece è ragionevole che il solo sospetto di un uso fiscale dei nostri post ne cambierebbe radicalmente il contenuto e la frequenza. A questo proposito vorrei ricordare l’esplosione del leasing e di società schermo per auto e barche di lusso da quando queste entrano tra gli indicatori di rischio fiscale. L’obbligo di dichiarare il codice fiscale dei partecipanti ha fatto crollare il settore delle aste. Nel 700 il governo olandese iniziò a tassare le abitazioni in base alla larghezza delle facciate…e il risultato architettonico (case strette e lunghe) si può ammirare ancora oggi. Ancora prima sua maestà britannica cominciò a tassare la capacità dei distillatori…e nacque il whiskey, che è un mix di alcol quasi puro (tassato) e acqua di sorgente (esentasse). Così preziosi indicatori di reddito e ricchezza hanno perso ogni valore. Lo stesso potrebbe avvenire con molti big data. Anche in economia, come nella fisica quantistica, l’osservatore fiscale spesso “disturba” la misura.

3 commenti

Aggiungi commento →

Matteo

Varie cose non mi sono chiare nell’articolo. Dove sono disponibili questi risultati? Su che utenti è stato fatto l’esperimento? Da dove si è ottenuta l’informazione di quali fossero “ad alto reddito”?

27/01/2022

Risposta
Giacomo

Sull’uso dei dati social, anonimizzati, per la ricerca, sono totalmente d’accordo. Mi sembra invece poco adeguato a uno stato di diritto l’uso dei dati dei social network per fini fiscali. L’algoritmo non è mai perfetto al 100% e non permette di escludere che alcuni presunti ricchi in realtà non lo siano. A quel punto che si fa? Si inverte l’onere della prova? Mi sembra poco democratico.

28/01/2022

Risposta
Enrico

Sorvoliamo sui problemi di privacy. Mi pare che gli autori considerino l’uso dei social indipendente dall’uso che il fisco o altri potrebbero farne (“esogeno” direbbe un econometrico). Invece è ragionevole che il solo sospetto di un uso fiscale dei nostri post ne cambierebbe radicalmente il contenuto e la frequenza. A questo proposito vorrei ricordare l’esplosione del leasing e di società schermo per auto e barche di lusso da quando queste entrano tra gli indicatori di rischio fiscale. L’obbligo di dichiarare il codice fiscale dei partecipanti ha fatto crollare il settore delle aste. Nel 700 il governo olandese iniziò a tassare le abitazioni in base alla larghezza delle facciate…e il risultato architettonico (case strette e lunghe) si può ammirare ancora oggi. Ancora prima sua maestà britannica cominciò a tassare la capacità dei distillatori…e nacque il whiskey, che è un mix di alcol quasi puro (tassato) e acqua di sorgente (esentasse). Così preziosi indicatori di reddito e ricchezza hanno perso ogni valore. Lo stesso potrebbe avvenire con molti big data. Anche in economia, come nella fisica quantistica, l’osservatore fiscale spesso “disturba” la misura.

29/01/2022

Risposta

Il reddito? Dichiarato via Twitter

Lavoce è di tutti: sostienila!

Correlati

Correlati

Guglielmo Barone

Marco Letta

Se il cartellino giallo è una questione di pelle

Non ho l’età. Per il Quirinale

3 commenti

Matteo

Giacomo

Enrico

Lascia un commento Annulla risposta