Bibliometria o “peer review” per valutare la ricerca?

In attesa che il ministero precisi come gli esiti della valutazione della qualità della ricerca determineranno i nuovi criteri di assegnazione della quota premiale del fondo di finanziamento ordinario alle università, illustriamo i risultati di un confronto tra metodi di valutazione alternativi.

DUE METODI PER VALUTARE LA RICERCA
La valutazione dei prodotti di ricerca su larga scala, di cui la Valutazione della qualità della ricerca (Vqr) 2004-2010 è un esempio, pone problemi di costi e di disegno. Pone, in particolare, il problema di come combinare i due metodi tipicamente utilizzati per la valutazione dei dipartimenti: indicatori bibliometrici e revisione tra pari (“peer review”).
Ciascuno dei due metodi ha pregi e difetti. La revisione tra pari consente un’analisi approfondita di ciascun testo, ma presuppone la disponibilità di un gran numero di esperti indipendenti e l’assenza di conflitti di interesse. L’analisi bibliometrica ha tempi brevi e costi contenuti, però misura la qualità di un lavoro scientifico esclusivamente attraverso le citazioni ricevute dal lavoro stesso o dalla rivista in cui è pubblicato. È dunque rilevante chiedersi se valutazione bibliometrica e “peer review” producano risultati simili con riferimento alla valutazione di aggregati di ricercatori quali i dipartimenti. La questione è particolarmente importante in un contesto, come quello della Vqr, in cui i revisori conoscono la sede di pubblicazione dei lavori e possono facilmente accedere agli indicatori bibliometrici delle riviste (“informed peer review”). Nel caso di risultati concordanti, la valutazione bibliometrica potrebbe almeno in parte sostituire l’“informed peer review”, o permettere un monitoraggio più continuativo dei risultati della ricerca nel periodo intercorrente tra gli esercizi di valutazione.
Questo articolo si basa sulla recente esperienza del Gruppo di esperti della valutazione (Gev) dell’Area 13 (Scienze economiche e statistiche) in cui sono stati valutati quasi 12mila lavori pubblicati nel periodo 2004-2010. L’Area 13 si colloca in una posizione intermedia tra le “scienze dure” (come la chimica, la fisica o la biologia), per le quali sono disponibili banche dati bibliometriche omogenee e complete, e le discipline umanistiche, per cui tali banche dati mancano quasi del tutto. Sebbene molte riviste dell’Area 13 siano censite nelle più diffuse banche dati bibliometriche (ad esempio il Web of Knowledge di Thompson Reuters), molte altre riviste su cui pubblicano ricercatori italiani e stranieri non sono indicizzate o compaiono in banche dati non omogenee.
Per tale motivo il Gev 13, ai fini dell’analisi bibliometrica dei soli articoli su rivista, ha preliminarmente costruito una banca dati comprensiva della gran parte della produzione scientifica dell’area, imputando gli indicatori bibliometrici non disponibili sulla base dell’indice h delle riviste tratto da Google Scholar. La valutazione bibliometrica degli articoli su rivista è stata poi basata non solo sulla classificazione delle riviste, ma anche sul numero di citazioni degli articoli.
Per permettere un confronto con la valutazione bibliometrica, dalla popolazione dei 5.681 articoli su rivista inviati al Gev 13 per la valutazione è stato estratto un campione casuale di 590 articoli corrispondente al 10 per cento degli articoli di Economia, Economia aziendale e Statistica e al 25 per cento degli articoli di Storia economica. Ciascun articolo del campione è stato valutato da due revisori, scelti indipendentemente da due membri del Gev, che hanno valutato il lavoro secondo la sua rilevanza, originalità e internazionalizzazione. Il Gev ha poi sintetizzato i pareri dei due revisori mediante gruppi di consenso. Per ogni articolo incluso nel campione sono quindi disponibili quattro indicatori: la valutazione bibliometrica (F) derivante dalla posizione della rivista in cui è stato pubblicato nella classifica riviste e dal numero di citazioni dell’articolo, le valutazioni dei due revisori e la valutazione finale del gruppo di consenso (P). Ognuna di queste variabili è espressa in una delle quattro classi di merito previste dalla Vqr, corrispondenti rispettivamente al 20 per cento superiore della distribuzione della qualità degli articoli (classe A), il successivo 20 per cento (classe B), il successivo 10 per cento (classe C) e il 50 per cento inferiore (classe D).
IL CONFRONTO
Per confrontare i due metodi di valutazione, sono stati utilizzati due criteri: il grado di concordanza tra le due distribuzioni – bibliometrica (F) e “peer” (P) – e la verifica della presenza di differenze sistematiche tra le medie dei punteggi assegnati da F e P. I due criteri esplorano aspetti diversi della differenza tra le due distribuzioni. Si consideri ad esempio il caso di bassa concordanza tra le due distribuzioni F e P e di assenza di differenze sistematiche tra le medie (i due metodi in media forniscono un punteggio complessivo simile): in tal caso adottare una delle due valutazioni (ad esempio quella bibliometrica) comporta spesso errori di classificazione in base all’altro criterio. Alternativamente si consideri il caso di alto (ma non perfetto) accordo tra le due valutazioni, ad esempio con una delle due che fornisce sistematicamente una classe più alta dell’altra: in tal caso le medie differiscono sistematicamente e adottare una delle due valutazioni fornirebbe una sovra-valutazione (o sotto-valutazione) in base all’altro criterio.
Da un punto di vista statistico, il grado di concordanza tra F e P può essere misurato utilizzando la statistica kappa di Cohen, mentre le differenze sistematiche tra le medie campionarie di F e P possono essere rilevate utilizzando il test t di Student per campioni appaiati. La statistica kappa è uguale a zero quando il livello di accordo è casuale ed è uguale a uno quando vi è una perfetta concordanza. I risultati indicano un buon grado di accordo per il campione totale (0,54) e per le sotto-aree di Economia, Economia aziendale e Statistica, mentre si registra un accordo più basso per Storia economica (tavola 1). (1)

Tavola 1 – Concordanza dei punteggi bibliometrici e peer

Nota: la tabella riporta la statistica kappa e, tra parentesi, il valore z associato per il totale del campione e per ogni sotto-area di ricerca. * indica significatività al livello del 5 per cento, ** indica significatività al livello dell’1 per cento.
Per l’intero campione, la differenza tra i punteggi medi delle due valutazioni è positiva (0,019), ma non statisticamente diversa da zero ai livelli convenzionali (il “p-value” è 0,157) (tavola 2). Inoltre, le differenze tra i punteggi medi per le quattro sotto-aree di ricerca sono generalmente piccole e non sempre dello stesso segno: sono positive e statisticamente significative al livello del 5 per cento per Economia ed Economia aziendale, negative ma non statisticamente diverse da zero per Statistica e Storia economica.
Riassumendo, i risultati dell’analisi svolta sul campione casuale rivelano che “informed peer review” e analisi bibliometrica producono valutazioni simili sullo stesso insieme di lavori: vi è un notevole accordo tra le due valutazioni e non vi sono differenze sistematiche tra i punteggi medi forniti per l’intero campione. Ciò può essere causato sia da una convergenza reale tra i due metodi di valutazione, sia dalla fiducia riposta dai revisori nelle informazioni bibliometriche. Un ulteriore controllo dell’analisi di correlazione tra punteggi assegnati dai revisori ai tre criteri di valutazione (rilevanza, originalità e internazionalizzazione) indica una correlazione elevata tra le risposte. In particolare, il punteggio assegnato all’internazionalizzazione, presumibilmente più influenzato dalla collocazione editoriale di un lavoro, è altamente correlato con i punteggi assegnati sulla base dei primi due criteri, che dovrebbero invece dipendere più strettamente dalla qualità intrinseca del lavoro. Ciò suggerisce che, se anche i revisori sono stati influenzati dalla conoscenza della sede di pubblicazione degli articoli, le loro percezioni erano comunque in linea con il giudizio di valore assegnato al lavoro e non tali da trainare la valutazione complessiva.

Tavola 2 – Differenza tra i punteggi medi

Nota: la tabella riporta il punteggio della valutazione finale da parte del gruppo di consenso (punteggio peer review, P) e il punteggio della valutazione bibliometrica (punteggio bibliometrico, F). I punteggi sono ottenuti convertendo le quattro classi di merito in punteggi numerici utilizzando i valori stabiliti dal bando Vqr: A = 1, B = 0,8, C = 0,5, D = 0. Il t-test è calcolato per campioni appaiati.
UN PREMIO ALLA QUALITÀ
Il sostanziale allineamento emerso tra il giudizio della comunità scientifica e gli indicatori bibliometrici suggerisce che esercizi di valutazione su larga scala possono fare affidamento sulla valutazione bibliometrica, almeno nelle aree di ricerca prese in considerazione, in quanto i due approcci – “informed peer review” e valutazione bibliometrica – sono buoni sostituti. Il punto è tanto più rilevante quanto più estesa la valutazione, e quanto più frequente nel tempo. Non si estende invece meccanicamente alla valutazione dei curriculum di singoli ricercatori, che non è stata oggetto dell’esercizio di valutazione.
Naturalmente, lo sforzo effettuato dai gruppi di valutazione è utile solo nel caso in cui essa produce risultati concreti in termini non solo di conoscenza dell’attività di ricerca del paese, ma anche di incentivo alla qualità della ricerca. Sotto questo profilo, il decreto di ripartizione del Fondo di finanziamento ordinario per il 2013 avrebbe dovuto assegnare ai risultati della Vqr un ruolo decisivo nella distribuzione della quota premiale. Siamo però ancora in attesa delle precisazioni del Miur su come saranno determinati i criteri di ripartizione del fondo, anche perché a oggi resta confermato il taglio della quota premiale Ffo 2013 rispetto al 2012. È infatti fallito un recente tentativo di mitigare, almeno in parte, il taglio con un finanziamento aggiuntivo di 41 milioni. Solo con la destinazione di fondi più consistenti alla quota premiale sarà possibile rendere davvero incisivi i risultati della valutazione.
(1) I risultati sono descritti in dettaglio in “Bibliometric Evaluation vs. Informed Peer Review: Evidence from Italy”, di Graziella Bertocchi, Alfonso Gambardella, Tullio Jappelli, Carmela A. Nappi e Franco Peracchi, 2013, CSEF Working Papers n. 344, http://ideas.repec.org/p/sef/csefwp/344.html.

Lavoce è di tutti: sostienila!

Lavoce.info non ospita pubblicità e, a differenza di molti altri siti di informazione, l’accesso ai nostri articoli è completamente gratuito. L’impegno dei redattori è volontario, ma le donazioni sono fondamentali per sostenere i costi del nostro sito. Il tuo contributo rafforzerebbe la nostra indipendenza e ci aiuterebbe a migliorare la nostra offerta di informazione libera, professionale e gratuita. Grazie del tuo aiuto!

SOSTIENI lavoce

Correlati

2 commenti

Aggiungi commento →

Anvur

Non ci sono basi scientifiche per affermare che un valore di K intorno a 0.54 denoti “buona” concordanza. Ad esempio, Fleiss & Everitt (1969). “Large sample standard errors of kappa and weighted kappa”. Psychological Bulletin 72: 323–327 ritengono che per 0.4<k<0.6 la concordanza sia moderata. (Altri sono più ottimisti, ma non esiste un consenso.)

08/11/2013

Risposta
AM

Un valore di Cohen kappa inferiore a 0.8 indica un basso grado di concordanza, secondo la letteratura in materia. Quindi a mio avviso i risultati sono da interpretare diversamente.

20/11/2013

Risposta

Lavoce è di tutti: sostienila!

Correlati

Correlati

2 commenti

Anvur

AM

Lascia un commento Annulla risposta