Gli esperti che valutano gli articoli presentati nell’ambito dell’esercizio di valutazione della qualità della ricerca utilizzano anche un algoritmo. Che è stato criticato perché porterebbe a errori di giudizio. Ma la critica non è fondata e la proposta alternativa prevede scelte arbitrarie.

Come si valuta un articolo

L’esercizio di valutazione della qualità della ricerca 2011-2014 è in pieno svolgimento. La valutazione delle pubblicazioni conferite dalle strutture è stata affidata dall’Anvur (Agenzia nazionale di valutazione del sistema universitario e della ricerca) a sedici gruppi di esperti della valutazione (Gev), i cui componenti sono stati nominati con criteri di selezione che hanno privilegiato il merito scientifico e l’esperienza nella valutazione della ricerca. Per la valutazione degli articoli pubblicati su riviste che sono indicizzate in almeno una delle basi di dati Scopus e Isi Web of Science (WoS), i Gev delle aree bibliometriche utilizzano, quale informazione importante ai fini della classificazione finale, un algoritmo basato su due indicatori: il numero di citazioni ricevute dall’articolo a una data specifica (29/2/16) e uno tra quattro possibili indicatori di impatto della rivista. Il problema fondamentale del processo valutativo è quello di attribuire una classe di merito (da “eccellente” a “limitato”) a ciascun articolo, data la distribuzione delle riviste in termini di impatto e la distribuzione delle citazioni, prendendo a riferimento la distribuzione mondiale delle stesse per ciascuna area di ricerca. Se un articolo è pubblicato in una delle riviste più significative per un settore di ricerca e ha ottenuto un numero di citazioni che lo collocano tra quelli più citati, è plausibile che, dopo la valutazione da parte dei membri Gev, possa ricevere una classificazione di “eccellente”. Simmetricamente, un articolo che sia pubblicato in una rivista con basso impatto e che abbia ricevuto poche citazioni potrà essere classificato come “limitato”. I problemi sorgono quando luogo di pubblicazione e citazioni non siano allineati. È una delle ragioni per cui l’attribuzione alle classi di merito degli articoli indicizzati non consiste nell’applicazione automatica di un algoritmo. Come è facilmente verificabile in tutti i documenti ufficiali che riportano i criteri di valutazione della Vqr 2011-2014, e coerentemente con quanto accade in altri esercizi di valutazione all’estero, la classificazione finale spetta ai Gev, i quali adottano il metodo della cosiddetta informed peer review e decidono sulla base di un insieme di elementi indipendenti che, oltre agli indicatori bibliometrici, includono le competenze dei singoli componenti, le informazioni contenute nella scheda descrittiva del lavoro scientifico e (quando necessario) i pareri esperti di revisori esterni

Le critiche all’algoritmo

Tutti gli algoritmi e gli indicatori utilizzati nella valutazione bibliometrica hanno limiti intrinseci, poiché rappresentano il tentativo di identificare misure indirette ragionevoli della qualità e dell’impatto di una pubblicazione sulla comunità scientifica. La scelta dell’indicatore da impiegare, oltre che essere teoricamente coerente, deve anche basarsi su un’attenta analisi delle conseguenze delle sue applicazioni. L’algoritmo di classificazione bibliometrica (Acb) utilizzato nella Vqr 2011-2014 risponde a questi criteri ed è illustrato tecnicamente in un recente articolo pubblicato su Scientometrics (Anfossi, Ciolfi, Costa, Parisi, Benedetto, “Large-scale assessment of research outputs through a weighted combination of bibliometric indicators”, February 2016). Tuttavia, come è normale succeda nella comunità scientifica, è stato oggetto di critica: secondo Giuseppe De Nicolao, sarebbe affetto da un “fatal error” in grado di compromettere l’intera Vqr e dovrebbe quindi essere modificato. Data la pesantezza delle critiche riteniamo importante discuterne la fondatezza, oltre che la scarsa funzionalità della proposta alternativa, suggerita nello stesso intervento da De Nicolao. Come mostrato più dettagliatamente in questo documento, i risultati relativi all’applicazione del metodo proposto quale soluzione alternativa rivelano criticità tali da rendere non proponibile la sua adozione. Intuitivamente l’algoritmo Acb si basa su una combinazione del posizionamento (in termini di percentili) di un articolo nella distribuzione dell’impatto delle riviste e nella distribuzione delle citazioni. La critica avanzata all’algoritmo evidenzia come possa accadere che articoli che hanno ricevuto un numero molto alto di citazioni possano non essere classificati dall’Acb come “eccellenti” perché pubblicati su riviste di impatto medio-alto, mentre tale classe finale è possibile per articoli in riviste di alto impatto e con un numero di citazioni relativamente basso. Il punto vero della diatriba è che gli effetti della criticità evidenziata sull’Acb sono del tutto trascurabili: riguardano un totale di circa 4500 articoli sugli oltre 8 milioni indicizzati da Scopus per il periodo di interesse e per le tipologie di prodotti per cui è applicabile l’Acb. E si riducono a circa 230, su un totale di oltre 284mila, se si considerano quelli che potrebbero essere presentati da istituzioni italiane (si vedano i dati riportati in questo documento). In altre parole, ciò che De Nicolao chiama “errore di classificazione” o “fatal error” interessa solo lo 0,05 per cento del totale degli articoli presenti in riviste Scopus e solo lo 0,08 per cento degli articoli pubblicati su riviste che possono essere inviati alla Vqr da istituzioni italiane. Pertanto, qualsiasi esperto Gev che esaminasse uno dei circa 230 articoli che presentano un potenziale errore di classificazione sarebbe facilmente in grado di correggere l’eventuale problema, pervenendo a una corretta valutazione finale. Sempre intuitivamente, il sistema di classificazione alternativo proposto consiste nell’introduzione di correttivi ai bordi delle distribuzioni. Tuttavia, tale metodo, oltre a prevedere scelte arbitrarie, dà luogo a conseguenze che l’autore non discute o non coglie. Senza entrare negli aspetti tecnici, le conseguenze sono: (i) classificazione “eccellente” di una quota non irrilevante e non prevedibile di articoli sulla base del solo valore dell’indicatore di impatto della rivista, il che è incompatibile con l’uso corretto della bibliometria (qui un esempio); (ii) numero rilevante di riviste con uguale soglia citazionale per l’accesso alle classi di merito, ma molto diverso indicatore di impatto e riconosciuta reputazione, un fatto non desiderabile perché potrebbe incentivare la pubblicazione su riviste di non riconosciuto prestigio nella comunità scientifica. Infine, secondo De Nicolao la ragione teorica che sta alla base del fatal error consiste nel fatto che non sia corretto combinare i percentili ottenuti calcolando le funzioni di distribuzione cumulativa (Cdf) del numero di citazioni e dell’indicatore di impatto della rivista. A questo proposito va notato che tali funzioni sono utilizzate come trasformazioni non lineari che modificano le grandezze di interesse in modo che risultino definite non più su intervalli diversi ma su intervalli normalizzati (0,1) all’interno dei quali è più agevole determinare una suddivisione in classi. Tra le funzioni, lineari e non, utilizzabili per la normalizzazione, la Cdf non è meno corretta di quella proposta come alternativa. In conclusione, poiché la normalizzazione introdotta da De Nicolao porta a un notevole numero di effetti indesiderati (e non quantificati né quantificabili, se non procedendo a scelte arbitrarie) mentre la compressione di scala introdotta dall’uso della Cdf produce possibili errori di classificazione dell’ordine dello 0,08 per cento sul totale dei prodotti presentabili per la Vqr, riteniamo che adottare un algoritmo teoricamente coerente, accettato dalla comunità scientifica e con un basso rischio di errata classificazione sia preferibile rispetto a utilizzare algoritmi che richiedono decisioni non motivate e hanno esiti non auspicabili.

* Insieme a Sergio Benedetto, hanno collaborato a questo articolo Marco Abate, Aronne Armanini, Roberto Cubelli, Gaetano Guerra, Eugenio Scanziani, Gianluca Setti, Anna Tramontano, Massimo Volpe, Riccardo Zecchina.

Lavoce è di tutti: sostienila!

Lavoce.info non ospita pubblicità e, a differenza di molti altri siti di informazione, l’accesso ai nostri articoli è completamente gratuito. L’impegno dei redattori è volontario, ma le donazioni sono fondamentali per sostenere i costi del nostro sito. Il tuo contributo rafforzerebbe la nostra indipendenza e ci aiuterebbe a migliorare la nostra offerta di informazione libera, professionale e gratuita. Grazie del tuo aiuto!

SOSTIENI lavoce

Correlati

Sergio Benedetto

benedetto E' Professore al Politecnico di Torino e direttore del CERCOM. E' membro del comitato direttivo Anvur e coordinatore nazionale della valutazione della ricerca

Vqr

7 commenti

Aggiungi commento →

Paolo Bertoletti

1) il link al “recente articolo” pubblicato su Scientometrics non funzione
2) non mi sembra che l’articolo di Denicolao proponesse una metodologia alternativa

10/06/2016

Risposta
Umbe

Tutti gli algoritmi funzionano.
Sono gli obiettivi che si vogliono raggiungere a definire la qualità di un algoritmo

10/06/2016

Risposta
Maurizio Tomasi

Se ho capito bene, la risposta del prof. Benedetto può essere riassunta così: anche se possono esserci storture nel metodo Acb, l’alternativa proposta da De Nicolao nel suo articolo è peggiore. Ma lo scopo dell’articolo di De Nicolao era di proporre un’alternativa? A me non sembra proprio. Piuttosto, l’articolo mi sembra avere l’obbiettivo di evidenziare i bizantinismi e gli errori logici del metodo Acb, che si è per giunta dimostrato estremamente complicato da applicare: la mia personale esperienza è che esso richieda di incrociare molti dati, da database diversi, e di fare una serie di conti e trasformazioni che richiedono coefficienti che all’epoca della compilazione della VQR non erano per giunta ancora disponibili. Questo articolo del prof. Benedetto non sembra dare una risposta chiara ad alcuno di questi problemi. Per un esercizio così importante come la valutazione degli enti di ricerca, occorrerebbero algoritmi chiari e di semplice attuazione: a me è parso assurdo, o meglio “Kafkiano”, aver dovuto spendere UNA SETTIMANA INTERA (durante la quale non ho fatto ricerca!) per leggere i regolamenti, consultare i database e decidere quali articoli caricare nella VQR, quando a qualunque ricercatore sarebbero bastati 30 secondi per elencare gli articoli più importanti nel proprio curriculum!

13/06/2016

Risposta
Alberto Baccini

Mi sembra che si insegni fin dal primo anno dei corsi di economia che le funzioni di utilità ordinali non si possono sommare. Lo aveva scritto un ingegnere ai primi del ‘900. Dovremo riscrivere i manuali?

14/06/2016

Risposta
Giuseppe De Nicolao

Confermo quanto scritto da Bertoletti: non era mia intenzione proporre una metodologia alternativa. Avendo sottoscritto la San Francisco Decl. on Res. Assessment, non ho motivo di escogitare algoritmi bibliometrici basati su indicatori screditati come l’IF o simili. Tra l’altro, l’algoritmo che mi è stato indebitamente attribuito travisa quanto scritto nel mio articolo. Il valore di 20 cit. non era una soglia di eccellenza, ma serviva solo come fattore di scala.
Inutile ricorrere a simulazioni e confronti più o meno complicati, dato che il fatal error è concettuale. All’obiezione che, dopo tutto, sommare i percentile rank significa sottoporre i dati ad una trasformazione come tante altre (lineari o non lineari), ha già dato risposta B. Thompson:
«It might be suggested that percentile ranks are “rubberized”, but that maybe they’re not “rubberized” a whole lot. The problem with this argument is that the distortions introduced by adding percentile ranks are entirely gratuitous. There simply is no reason to introduce these distortions. It would be one thing to accept the cost of a distortion if some greater good offset this penalty. But there is no such benefit establishing any balance against the distortions that percentile ranks unavoidably create. The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable».
Per ulteriori dettagli, rimando all’articolo appena pubblicato su Roars.

14/06/2016

Risposta
Giuseppe De Nicolao

A commettere lo stesso “fatal error” dell’ANVUR è stato anche l’esercito USA, le cui metodologie di valutazione in Afghanistan sono state oggetto di severe critiche che, senza mezzi termini, parlano di “pseudoscienza” e “junk arithmetic”.
«for many people the differences between pseudoscience and real science are hard to spot. […] This difficulty is the root cause of many of the flaws I have observed in operations assessment as practiced in Afghanistan. […]
Using arithmetic on numeric metrics is optional, but the rules of arithmetic are not optional. [Note: The rules of arithmetic—including the fact that adding or averaging rank orders is nonsense—were established over two millenniums ago by, among others, Pythagoras and are taught in every elementary school worldwide] The following examples of junk arithmetic I encountered suffice to demonstrate the broader problem. […] Averaging ordinal numbers, such as rank orders, within an assessment process is just as nonsensical, and this kind of obvious error subjects the credibility of the assessment, and the command promoting it, to justifiable suspicion. […]
The continued use of junk arithmetic and flawed logic robs decision makers of the most essential requirements that assessment is supposed to supply—sound, verifiable, and accurate information upon which to make life-and-death decisions.

S. Downes-Martin, “Operations assessment in Afghanistan is broken: What is to be done“, Naval War College Review 2011 Autumn, pp. 103 – 125.

20/06/2016

Risposta
sergio benedetto

Invito coloro che hanno inserito commenti sull’articolo breve a leggere con attenzione l’articolo dettagliato accessibile “cliccando” sul rinvio del documento breve. Che poi nell’articolo di Roars, pur nella sua forma fumettistica, non fosse proposto un algoritmo alternativo, è semplicemente falso. Basta leggerlo, ammesso che si riesca ad arrivare alla fine senza cadere addormentati…

27/06/2016

Risposta

Valutazione della ricerca, quell’algoritmo è affidabile*

Lavoce è di tutti: sostienila!

Correlati

Correlati

Sergio Benedetto

7 commenti

Paolo Bertoletti

Umbe

Maurizio Tomasi

Alberto Baccini

Giuseppe De Nicolao

Giuseppe De Nicolao

sergio benedetto

Lascia un commento Annulla risposta

Valutazione della ricerca, quell’algoritmo è affidabile*

Lavoce è di tutti: sostienila!

Correlati

Correlati

Sergio Benedetto

Ma piccolo può essere ancora bello

Finanziamenti alle università: pochi e con regole incerte

7 commenti

Paolo Bertoletti

Umbe

Maurizio Tomasi

Alberto Baccini

Giuseppe De Nicolao

Giuseppe De Nicolao

sergio benedetto

Lascia un commento Annulla risposta