I risultati sulla valutazione della qualità della ricerca nelle università italiane sono stati letti come una prova di un avvicinamento tra le diverse sedi. Ma la presunta convergenza potrebbe riflettere i limiti metodologici dell’esercizio valutativo.
È vera convergenza?
Sono passati pochi giorni dalla pubblicazione del Rapporto finale Anvur sulla Valutazione della qualità della ricerca (VqrR) degli atenei nazionali per il 2020-2024: pochi giorni, ma sufficienti per formulare alcune prime riflessioni da parte di chi, come il sottoscritto, si occupa da oltre vent’anni di valutazione della ricerca e misurazione della performance scientifica.
Mi soffermerò sul capitolo 8 del Rapporto, che confronta i risultati dei quattro esercizi nazionali di valutazione condotti in questi quindici anni. La figura 1, ripresa appunto dal Rapporto, rappresenta la distribuzione della performance degli atenei rispetto a un valore medio posto uguale a zero: quanto più ampia è la curva, tanto maggiori risultano le differenze tra le istituzioni; quanto più è concentrata intorno allo zero, tanto più i risultati appaiono omogenei.
Figura 1 – Distribuzione della performance degli atenei in Vqr1, Vqr2, Vqr3 e Vqr4: funzione di densità di probabilità in termini di voto medio dei prodotti conferiti, normalizzata per area

Secondo Anvur, la progressiva concentrazione delle curve intorno allo zero (particolarmente marcata nella Vqr 2020-2024) indicherebbe una riduzione della dispersione tra atenei e, dunque, una maggiore coesione interna del sistema accademico e una progressiva attenuazione dei divari qualitativi.
Ma la concentrazione intorno allo zero non dimostra, di per sé, una convergenza sostanziale della qualità della ricerca. Potrebbe derivare anche dal “rumore” presente nel processo valutativo e dalla conseguente
minore capacità dell’esercizio di distinguere tra performance diverse, nonché dall’adattamento strategico degli atenei alle sue regole.
Ma andiamo con ordine.
Valutato un campione ristretto di lavori
Una prima criticità riguarda l’oggetto della valutazione: nella Vqr si valuta non l’intera produzione scientifica delle università, ma un sottoinsieme molto limitato di prodotti selezionati (da due a quattro per ricercatore, a seconda delle edizioni). In molte aree disciplinari, la qualità della ricerca di un’istituzione non può essere rappresentata in modo efficace da una campionatura così ristretta della sua produzione complessiva. D’altra parte, la scelta di limitare drasticamente il numero di prodotti valutati deriva dalla struttura stessa dell’esercizio, fondato sulla peer review: la revisione qualitativa è costosa, lenta e organizzativamente complessa, da cui la necessità di operare su una selezione ridotta di prodotti. Tuttavia, proprio questa selezione apre un problema decisivo: la letteratura sulla valutazione della ricerca ha mostrato che i risultati aggregati possono variare sensibilmente al variare della frazione di output valutata, soprattutto quando la selezione dei prodotti è affidata alle istituzioni valutate.
I limiti di affidarsi alla peer review
Un secondo nodo riguarda il metodo di valutazione. Nelle prime edizioni della Vqr, almeno nelle scienze dure, gli indicatori bibliometrici avevano un peso rilevante nella classificazione dei prodotti. Quel peso è stato poi progressivamente ridotto, fino all’affermazione della cosiddetta peer review informata, nella quale gli indicatori svolgono una funzione di supporto, senza sostituire il giudizio degli esperti. L’evoluzione va letta in una prospettiva più ampia. La Vqr italiana è stata concepita guardando al modello britannico del Research Assessment Exercise e sembra averne seguito anche le successive trasformazioni, inclusa la transizione al Research Excellence Framework, che ha riportato la peer review al centro della valutazione. Nella stessa direzione va l’adesione di Anvur a CoARA, secondo cui la valutazione della ricerca deve essere basata «primarily on qualitative evaluation for which peer review is central, supported by responsible use of quantitative indicators» (“principalmente sulla valutazione qualitativa, per la quale la peer review è fondamentale, supportata da un uso responsabile degli indicatori quantitativi”, ndr). In effetti, il Rapporto richiama frequentemente il dibattito internazionale, ma sembra recepirne soprattutto la componente favorevole alla valutazione “qualitativa”, lasciando sullo sfondo le critiche relative ai costi, alla sostenibilità e all’effettiva affidabilità della peer review su larga scala. Ne deriva una rappresentazione fin troppo semplificata, nella quale quest’ultima appare come il rimedio alle distorsioni attribuite agli indicatori bibliometrici, a cominciare dalla sindrome del “publish or perish”. Va invece ricordato che gli indicatori bibliometrici non sono misure puramente meccaniche ed estranee al giudizio scientifico: sintetizzano, sia pure imperfettamente, gli esiti della selezione editoriale e del successivo riconoscimento citazionale da parte della comunità scientifica. Al contempo, la peer review non è esente da pregiudizi e la sua affidabilità dipende dalle condizioni concrete nelle quali viene svolta. Nelle ultime Vqr, i membri dei Gruppi di esperti della valutazione hanno dovuto esaminare centinaia di prodotti in pochi mesi. Un carico di 400-500 lavori in otto-dieci mesi è difficilmente compatibile con una lettura integrale, attenta e specialistica. Nessun valutatore, inoltre, può possedere adeguate competenze sull’intero spettro di temi e metodi di una disciplina. In queste condizioni, conflitti di interesse, effetti reputazionali, disallineamenti di competenza e orientamenti valutativi prudenti accrescono inevitabilmente l’incertezza dei giudizi. La minore varianza tra atenei potrebbe dunque riflettere non una reale convergenza qualitativa, ma la crescente soggettivizzazione della valutazione in condizioni operative difficilmente sostenibili. Quanto più il giudizio si allontana da riferimenti trasparenti e replicabili, tanto maggiore è il rischio che i punteggi si comprimano intorno ai valori medi. La curva più stretta della Vqr4 potrebbe essere quindi il sintomo di una minore capacità di distinguere performance realmente diverse, non la prova che tali differenze siano scomparse.
Gli atenei hanno capito le regole del gioco
Un terzo elemento riguarda l’apprendimento strategico delle università. Dopo quattro edizioni, gli atenei hanno acquisito una crescente capacità di adattarsi alle regole della Vqr: selezionare i prodotti più convenienti, organizzare procedure interne di screening, distribuire i “conferimenti” in modo da massimizzare il risultato aggregato. L’apprendimento non coincide necessariamente con un miglioramento della qualità della ricerca. Segnala invece la capacità delle istituzioni di “giocare” efficacemente un gioco valutativo altamente complesso. La riduzione della dispersione osservata in figura 1 potrebbe in parte dipendere quindi dalla progressiva convergenza delle capacità messe in campo dai soggetti valutati nel “giocare” secondo le regole della Vqr.
Il punto non è meramente tecnico: i risultati della Vqr producono effetti reputazionali e contribuiscono alla distribuzione della quota premiale del fondo di finanziamento ordinario. Se l’esercizio non misura validamente la performance scientifica, anche l’allocazione delle risorse che ne deriva ne risulta distorta, con possibili effetti sistemici perversi. La minore dispersione limita paradossalmente l’entità delle penalizzazioni e dei premi, ma non risolve il problema di fondo.
Occorre dunque ripensare l’intero sistema alla luce dello stato dell’arte. Tre le questioni fondamentali: i) estendere la valutazione a livello micro (individuale), oltre che meso (settori, dipartimenti, aree, intere istituzioni); ii) adottare approcci differenziati tra discipline e, in particolare; iii) applicare indicatori e metriche robuste sull’intera produzione scientifica (nelle aree bibliometriche) e la peer review su campioni di output (in tutte le altre).
Un indicatore che non misura quello che dovrebbe misurare
Nella sua configurazione attuale, la Vqr non misura quello che dovrebbe misurare. L’Anvur giunge invece alla conclusione opposta: interpreta la convergenza come prova di «crescente solidità» del sistema. «La progressiva convergenza della qualità media tra le istituzioni (…) indica che uno dei principali obiettivi originari della Vqr, la riduzione dei divari, è in larga parte raggiunto. Ne consegue che i meccanismi di riparto della quota premiale rischiano oggi di riflettere prevalentemente la dimensione quantitativa degli atenei, attenuando la capacità di premiare effettivamente la qualità. Il sistema appare quindi pronto per un riequilibrio (…)» e propone di attribuire maggiore peso all’eccellenza dei prodotti, limitando la valutazione a un solo prodotto per ricercatore. C’è da augurarsi che questo evocato “riequilibrio” tra quantità e qualità non si realizzi: se un indicatore non misura ciò che pretende di misurare, aumentarne il peso non corregge il problema, lo amplifica.
La responsabilità passa ora ai nuovi membri del consiglio direttivo dell’Anvur, chiamati a raccogliere la sfida e a ripensare la Vqr su basi metodologiche più solide, trasparenti e, soprattutto, adeguate agli obiettivi strategici che intende perseguire.
Lavoce è di tutti: sostienila!
Lavoce.info non ospita pubblicità e, a differenza di molti altri siti di informazione, l’accesso ai nostri articoli è completamente gratuito. L’impegno dei redattori è volontario, ma le donazioni sono fondamentali per sostenere i costi del nostro sito. Il tuo contributo rafforzerebbe la nostra indipendenza e ci aiuterebbe a migliorare la nostra offerta di informazione libera, professionale e gratuita. Grazie del tuo aiuto!
Professore associato presso il Dipartimento di Ingegneria dell’Impresa dell’Università di Roma “Tor Vergata”, nel settore Ingegneria Economico-Gestionale. Ha co-fondato il Laboratorio di Studi sulla Ricerca e il Trasferimento Tecnologico dove svolge attività di ricerca sui temi della valutazione della ricerca. È autore di oltre settanta pubblicazioni su autorevoli riviste scientifiche internazionali peer reviewed; membro della International Society for Scientometrics and Infometrics (ISSI) e dell’editorial board di Scientomestrics.
Lascia un commento