Novaspes

 OPEN SCIENCE: ALTMETRICS, IMPATTO E CONTROLLO DELLA QUALITA' (Estratto da Paradoxa 1/2017)


 Paola Galimberti

Misurare la ricerca

Mai come in questi ultimi anni l’enfasi posta sulla misurazione è stata più forte. C’è una richiesta di accountability alle università e agli enti di ricerca da parte del ministero e della società che si traduce nel dover dimostrare il proprio valore (quello del proprio gruppo di ricerca, della propria istituzione, della propria disciplina), nel rendicontare che gli investimenti fatti hanno dato dei buoni esiti, e questo viene fatto preferibilmente attraverso un numero (o diversi numeri). La fiducia nel numero è totale, perché il numero è freddo, oggettivo, comparabile, e più alto è e meglio è. In questa totale fiducia nella oggettività del numero spesso ci si dimentica di capire cosa quel numero esprima effettivamente, o gli si attribuiscono significati impropri. Il fine è la ricerca dell’eccellenza, quella della qualità, quella del ritorno sulla società degli investimenti fatti, ma gli effetti di queste pratiche di misurazione, sia sui comportamenti dei ricercatori che sulle scelte della governante, sono molto seri, talvolta hanno un carattere distorsivo e in alcuni casi hanno conseguenze (negative) irreversibili.

I ricercatori sono posti sotto la pressione di dimostrare il loro valore attraverso la produzione di lavori scientifici, il maggior numero possibile, nelle sedi editoriali più prestigiose, anch’esse qualificate attraverso un numero (che per quanto riguarda le riviste è rappresentato dal fattore di impatto). Questo fenomeno prende il nome di publish or perish: per sopravvivere nel sistema della ricerca è necessario raggiungere una asticella rappresentata da valori minimi che si alzano sempre di più. Ciò è indipendente dai tempi di produzione della ricerca, dai canali di pubblicazione, dalle modalità di circolazione, dalle comunità di riferimento. Ciò che conta sono gli indici, valori di cui spesso i ricercatori non comprendono il significato (esattamente come non lo comprende chi questi indici li richiede e poi li verifica e poi li utilizza per prendere decisioni), e in cui un valore alto (o più alto) sembra dare la garanzia di essere arrivati a un buon punto, tranquillizza gli animi sulla bontà delle scelte effettuate. Misurare risulta apparentemente molto più semplice (e certamente più veloce e meno costoso e meno soggettivo) della lettura e della valutazione diretta delle ricerche: anche chi non appartiene alla comunità scientifica sotto esame è in grado di capire un numero e di confrontarlo con altri numeri.

È per questo che la bibliometria, intesa come applicazione di metodi matematici e statistici ad un oggetto per sua natura poco definibile come l’informazione scientifica, è diventata una scienza ‘popolare’, nel doppio senso della parola: è popolare perché assai diffusa ed è popolare perché tutti pensano di poterla praticare e comprendere, di poter ottenere, dato un set di dati, dai numeri, non importa come, le indicazioni sul valore, il prestigio, la importanza, l’impatto, l’eccellenza di una ricerca.

Nel corso degli ultimi 20 anni abbiamo visto ascesa e declino di indicatori diversi, e poiché ciascuno di essi è stato ritenuto insoddisfacente, ne abbiamo visto varie modifiche (si pensi all’indice h, che dovrebbe misurare qualità e quantità della produzione scientifica di un ricercatore e di cui sono state prodotte innumerevoli versioni e correzioni delle correzioni). Ciascuna versione volta a correggere i punti deboli della precedente, ciascuna da sola insufficiente in quanto in grado di esprimere solo una proxy della qualità di una ricerca o di un ricercatore.

Nella foga valutativa che ha investito le istituzioni e fortemente propagandata e incentivata nel nostro paese dalla Agenzia Nazionale per la Valutazione della Università e della Ricerca (ANVUR) la confusione metodologica è massima. Indicatori destinati a descrivere la qualità delle strutture vengono applicati alla descrizione delle persone o viceversa, dimenticando cosa un determinato indicatore ci diceva in origine. Ma i numeri non sono affatto neutri. Nelle mani di chi non li sa interpretare, o peggio, di chi a priori ha già deciso quale deve essere l’esito, essi sono strumenti micidiali.

Base per la costruzione degli indicatori tradizionali sono il numero di pubblicazioni e il numero di citazioni così come risultano nei due database commerciali maggiormente in uso: Scopus di Elsevier e Web of science di Clarivate Analytics. Queste due banche dati selezionano le riviste da includere nel dataset e attraverso complicati sistemi di indicizzazione forniscono strumenti che permettono di contare quanti autori, quante affiliazioni, quante citazioni, da quali riviste, in quanto tempo, ecc. È così che istituzioni, sistemi nazionali, agenzie di valutazione da tempo affidano nelle mani di operatori commerciali la valutazione della ricerca pubblica e le decisioni sulle sue sorti. Poiché le citazioni sono state considerate espressione dell’impatto di una ricerca, di un autore, di una rivista, di una istituzione, ben presto, per il principio secondo il quale una misura che diventa il fine smette di essere una buona misura, il conteggio delle citazioni ha dato origine a comportamenti opportunistici atti a gonfiare in maniera artificiosa il loro numero. Non è infrequente trovare riviste che chiedono ai propri autori di citare articoli apparsi sulla stessa rivista (indicando anche quanti e di quale periodo), o gruppi di autori che si citano a vicenda creando quelli che vengono definiti citation network e citation clubs, o autori singoli che citano i propri lavori un numero eccessivo di volte (anche se le autocitazioni possono essere isolate nei database non sempre questa operazione viene fatta da chi effettua un esercizio di valutazione).

Se si va poi a considerare la qualità dei dati presenti nelle basi di dati commerciali si nota la presenza di errori anche significativi, legati ad esempio ad attribuzione di lavori di ricerca alla persona sbagliata, ad errori nella compilazione del nome (soprattutto laddove ci sono nomi e cognomi doppi), alla confusione fra profili diversi, alla attribuzione di affiliazioni sbagliate, alla mancata indicizzazione di singoli articoli. L’utilizzo dei dati delle banche dati bibliometriche deve perciò essere preceduto dalla validazione dei dataset da parte dei soggetti valutati che devono riconoscere come proprie tutte le pubblicazioni elencate e verificare che non manchino pubblicazioni dall’elenco. Questa attività è tanto più importante e necessaria quanto più piccola è la dimensione sotto osservazione: gruppi di ricerca o singoli ricercatori.

Spesso non c’è il tempo o la possibilità di effettuare operazioni di pulizia dei dati, e quindi si deve essere coscienti del fatto che i calcoli che ne derivano possono dare qualche indicazione sulla popolarità di una ricerca, di un ricercatore o di un gruppo, ma essi non devono assolutamente essere l’unico elemento preso in considerazione.

Non va trascurato inoltre il fatto che i database commerciali classificano la scienza secondo categorie (subject categories) che sono più spesso dettate da motivazioni di convenienza o di marketing che da riflessioni sulla suddivisione della scienza, per cui una disciplina di nicchia che viene associata ad un mainstream nelle classificazioni dei database bibliometrici, per quanto possa essere eccellente tende a scomparire, cancellata dai grandi numeri delle discipline di moda al momento.

Accanto alle due basi di dati per la bibliometria tradizionalmente in uso, e il cui costo per le istituzioni è elevatissimo, da qualche anno si è affacciato sulla scena Google Scholar, che, se da un lato è accessibile a tutti senza alcun abbonamento e può essere consultato attraverso strumenti ad hoc (ad esempio il software liberamente scaricabile Publish or Perish), risulta però di ancor più difficile utilizzo perché non dichiara le proprie fonti dei dati (indicate genericamente come ‘academic’, ma anche un verbale di una seduta di consiglio di Dipartimento è academic), non indica la copertura temporale e indicizza solo ciò che è presente nel web, che per alcune discipline ancora oggi è pochissimo, inoltre non sono in atto meccanismi di disambiguazione efficaci, per cui resta forte il problema delle omonimie. Allo stato attuale, anche se sono in atto sforzi per migliorare la qualità dei dati e se alcuni centri di ricerca (ad esempio il gruppo EC3 della università di Granada) hanno avviato una serie di studi sulla affidabilità dei dati di Scholar, avrebbe poco senso utilizzare questo strumento per fare analisi bibliometriche per prendere decisioni informate. Certamente, rispetto ai database commerciali, Google Scholar copre discipline normalmente poco rappresentate (come le scienze umane e sociali), ma poiché non siamo in grado, ad oggi, di definire il grado di copertura Scholar resta uno strumento che permette di fare analisi o monitoraggio, ma essendo la sua affidabilità ancora oggetto di ricerche e studi, non utilizzabile come strumento per prendere decisioni.

Il nostro paese si è avvicinato piuttosto tardi alla bibliometria e alle discipline affini, non ci sono ‘scuole’ in cui queste discipline si insegnino, non c’è neppure un settore disciplinare che possa inquadrare scientificamente coloro che si occupano di queste tematiche, per cui gli esercizi bibliometrici costruiti a livello nazionale o locale risultano spesso improvvisati, non hanno eguali nel resto del mondo, sono difficilmente supportati da documenti metodologici consistenti e credibili, presentano ingenuità ed errori, non tengono sufficientemente in considerazione quelli che si definiscono come effetti indesiderati e si sono rivelati in prospettiva più dannosi che utili.

Nonostante tutte le bias fin qui elencate e certamente note gli indicatori basati sul conteggio delle citazioni rappresentano un modo economico (a differenza della peer review) e veloce per analizzare l’impatto di grandi strutture o di sistemi nazionali della ricerca. Comunque li si consideri gli indicatori bibliometrici non sono però in grado di dar conto della complessità della ricerca scientifica, per cui da nessuna parte al mondo (tranne che in parte nella VQR italiana) vengono utilizzati da soli per la valutazione della ricerca. Essi si devono sempre accompagnare alla peer review a cui dovrebbero fungere da supporto (informed peer review). Gli esperti di bibliometria sono però da tempo concordi nell’affermare che misurare l’impatto della ricerca non vuol dire semplicemente contare le citazioni e che altri aspetti e dimensioni di questo impatto devono essere considerati.

Scienze dure e scienze umane

Un’ulteriore criticità nell’uso degli indicatori bibliometrici è rappresentata dal fatto che i database commerciali di riferimento sono uno strumento utile solo per le cosiddette ‘scienze dure’, cioè le scienze, le scienze della vita e le scienze mediche, mentre per le discipline umanistiche la loro copertura risulta del tutto insufficiente.

Ciò dipende da molti fattori. I database bibliometrici censiscono solo gli articoli su periodico (siano essi articoli, review, linee guida, o atti di convegno), perché essi hanno caratteristiche e una struttura standardizzate che ne rendono possibile l’indicizzazione. Possono essere infatti scomposti in unità informative elementari (autori, affiliazioni, rivista, anno di pubblicazione, parole chiave, abstract, riferimenti bibliografici) che hanno una loro posizione nel testo e che possono facilmente essere individuate e classificate.

Se le scienze dure comunicano la loro ricerca essenzialmente attraverso articoli per lo più pubblicati in sedi internazionali e in inglese con una modalità citazionale che è uniforme e soprattutto pubblicano online, le scienze umane si esprimono attraverso una molteplicità di canali, monografie, articoli, saggi, edizioni critiche, spesso ancora in formato analogico, nelle diverse lingue nazionali, con formati citazionali diversi da disciplina a disciplina sia per lo stile che per il posizionamento delle citazioni. La circolazione di questi lavori, in molti casi ancora in formato analogico, è inoltre molto più lenta, per cui le citazioni cominciano ad arrivare parecchio tempo dopo che un lavoro è stato pubblicato.

Eppure proprio per queste caratteristiche di formato che si sottraggono a qualsiasi standard, le scienze umane e sociali, che solo da poco hanno cominciato a sfruttare il mezzo digitale, sembrano prestarsi meglio allo sviluppo di strumenti di rilevazione dell’impatto e di indicatori diversi da quelli tradizionalmente in uso nelle scienze dure.

Scienza aperta

Un altro fenomeno in crescita nell’epoca di internet è quello della apertura dei contenuti e della condivisione dei risultati delle ricerche attraverso i canali canonici open (riviste in cui si pubblica ad accesso aperto, per lo più per rispondere alle richieste degli enti finanziatori della ricerca) ma anche attraverso canali diversi come archivi di pre o post print, blog, portali ecc. dove i risultati delle ricerche effettuate anche se non giunti ad una completa maturazione cominciano ad essere proposti alle comunità scientifiche di riferimento. Lo scopo di questa esposizione precoce è quello di raccogliere, ancora prima che una ricerca raggiunga la sua forma finale, i suggerimenti, le critiche, i commenti dei colleghi in qualsiasi parte del mondo essi si trovino. Certamente la spinta alla condivisione, alla apertura e in ultima analisi alla trasparenza dei meccanismi di produzione e validazione delle ricerche, supportata in primo luogo dagli enti finanziatori della ricerca, ha favorito lo sviluppo di canali alternativi rispetto ai circuiti commerciali, e la enorme disponibilità di contenuti in rete ha enormemente ampliato il coinvolgimento di coloro che sono potenzialmente interessati ad una ricerca. È possibile ad esempio che una ricerca che è poco citata dai colleghi della propria comunità scientifica, sia di interesse per una comunità scientifica diversa o abbia un impatto molto forte sulla comunità professionale di riferimento (medici, insegnanti avvocati, allevatori ecc.), che pur leggendo una ricerca e pur utilizzandone i contenuti, non la citerà mai. Sono questi tipi di utilizzo che hanno attirato l’interesse degli studiosi di bibliometria negli ultimi anni.

Un elemento chiave in questa nuova modalità di disseminazione della scienza è rappresentato dai social network, che aggregano studiosi e ricercatori sulla base di interessi scientifici comuni, fungendo da filtro rispetto alle ricerche rilevanti per il gruppo ma anche da cassa di risonanza per le ricerche effettuate da ciascun membro del network. La modalità di condivisione dei propri risultati vale sia per i risultati positivi che per quelli negativi, la cui diffusione è diventata fondamentale per evitare la reiterazione di errori già commessi.

La apertura della scienza riguarda anche e soprattutto i dati della ricerca disponibili attraverso una vaietà di piattaforme (Datacite, Figshare o Dryad, ecc.) identificabili attraverso un proprio DOI e anche citabili.

Altmetrics

Le attività connesse alla fruizione dei contenuti scientifici sul web, sono state oggetto di studi e di costruzione di nuove metriche che hanno preso il nome di alternative metrics (altmetrics).

Le metriche alternative tracciano l’impatto di una ricerca attraverso l’analisi delle attività nel web e delle tracce lasciate nell’utilizzo dei contenuti. Le citazioni attraverso Twitter, i commenti in Facebook, in Mendeley, in Wikipedia o le citazioni da Google, le viste delle versioni html o dei PDF, i downloads sono tutte tracce dell’impatto di una ricerca lasciate nel web attualmente allo studio da parte degli esperti.

Quando parliamo di altmetrics sono di difficile definizione sia la disciplina che l’oggetto di studio, e tuttavia la generale insoddisfazione rispetto a metriche e indicatori tradizionali ha spinto gli studiosi a cercare altre modalità e altre fonti di misurazione dell’impatto.

Il primo a interessarsi in maniera esplicita delle altmetrics e a darne conto al suo pubblico è stato un editore open access, la Public library of Science. Le metriche alternative si applicano ai singoli articoli e sono dunque espressione dell’impatto che una singola ricerca ha esercitato sui portatori di interesse a vari livelli, e quindi per ogni articolo PLoS traccia le viste, i downloads dei diversi formati, le citazioni in Google, le inclusioni nelle bibliografie di Mendeley, le discussioni in Twitter. Questo tipo di metriche, per la loro natura, sono libere dalle tradizioni della disciplina e dai vincoli definiti dagli editori.

Lo studio di queste nuove metriche è stato affrontato con entusiasmo e curiosità da molti gruppi di ricerca, e anche centri di ricerca in cui veniva studiata e applicata la bibliometria tradizionale (ad es. il Centre for Science and Technology studies di Leida) hanno cominciato ad interessarsene e a dedicarvi alcune linee di studio.

Anche nel caso delle altmetrics  ci troviamo di fronte a numeri che dipendono oltre che dal valore della ricerca anche da quanto attrattivo è il suo titolo, da quanto ‘social’ è l’autore, dalla sua rete di contatti, dai metadati che identificano il lavoro. Anche questi numeri dunque sono tutt’alto che neutri e, al momento, manca un termine di riferimento che ci permetta di dire cosa voglia dire un determinato numero.

L’impatto definito dalle altmetrics (che è un impatto di uso di una ricerca) è stato variamente confrontato con quello scientifico misurato dalle citazioni, ma le correlazioni trovate sono deboli, il che rende i due punti di vista complementari e difficilmente sovrapponibili. Certamente le metriche sull’uso hanno il vantaggio della immediatezza. Una ricerca viene pubblicata e poi twittata o commentata molto più velocemente di quanto non sia citata in un altro articolo scientifico. Questa stessa immediatezza però rappresenta uno svantaggio forte per le ricerche più vecchie, poiché la discussione negli strumenti social tende a concentrarsi sulle nuove ricerche trascurando completamente quelle passate ancorché importanti.

Apertura della scienza, delle modalità di produzione, validazione e disseminazione delle ricerche e sviluppo delle metriche sull’uso nel web vanno dunque di pari passo, anche se allo stato attuale possiamo solo attestare la funzione di filtro e di feedback delle nuove metriche di cui sono riconosciute tutta una serie di debolezze.

Problemi rappresentati dalla raccolta e dalla interpretazione delle altmetrics

Il primo problema è quello dei dati sull’uso e della loro interpretazione. Questi dati sono volatili per via della natura dinamica del web. Non c’è nessuna garanzia che i dati sull’uso siano (e restino) archiviati, che possano essere storicizzati e quindi che ricerche ed esercizi di valutazione fatti utilizzando le altmetrics possano essere replicati. Connesso a questo problema è quello delle diverse versioni in cui una stessa ricerca appare, magari con identificativi diversi, rendendo così difficile la raccolta dei dati sull’uso. Poniamo un articolo di economia che viene in prima istanza depositato in Repec come preprint. Poi viene pubblicato sul sito della rivista, poi viene archiviato negli archivi istituzionali dei diversi coautori, qualcuno di loro lo deposita anche in Researchgate. Ogni versione viene condivisa nei social media e dà origine ad altmetrics. Risulta molto difficile (e laborioso) ricondurre tutte queste discussioni nel web alla nostra ricerca originaria.

Allo stato attuale dunque le metriche sull’uso mancano totalmente di standard per la raccolta, la aggregazione e la presentazione dei dati. In assenza di linee guida condivise, dunque,  risulta impossibile e altamente sconsigliato comparare i dati forniti da aggregatori diversi.

Anche il significato delle altmetrics e di cosa ci dicono riguardo a uno ricerca non è stato chiarito e quindi non sappiamo cosa esse rappresentino e soprattutto cosa esse  effettivamente misurino, così come risulta difficoltosa la normalizzazione rispetto alle diverse discipline.

Come le metriche tradizionali, anche le metriche alternative possono inoltre essere soggette a manipolazione e se per ora ciò non è avvenuto in maniera massiva è perché ancora non sono state impiegate per prendere decisioni, assegnare finanziamenti e per il reclutamento (when a measure becomes a target…).

Ci sono voluti decenni per sviluppare gli (insoddisfacenti) indicatori bibliometrici attualmente in uso per la valutazione di sistemi nazionali, strutture, gruppi e persone. Nel corso di questi anni si sono moltiplicati i warning rispetto all’utilizzo di indicatori quantitativi applicati a piccole dimensioni e in maniera esclusiva (uso di un unico indicatore), rispetto alla impossibilità di confrontare aree disciplinari diverse e quindi alla necessità di normalizzare, ma soprattutto rispetto alle conseguenze della applicazione dei criteri quantitativi negli esercizi di valutazione sul comportamento dei ricercatori e sullo sviluppo di indesiderati fenomeni adattativi.

La apertura e la condivisione delle ricerche, dei risultati, dei dati su cui essi si fondano ha rappresentato un grosso passo avanti rispetto a quella trasparenza dei processi di produzione e di validazione necessari per una immagine affidabile della scienza. Siamo in un periodo di transizione, in cui le forme attraverso cui la ricerca si produce e si dissemina sono in costante divenire. Anche i sistemi di misurazione si evolvono, e accanto a indicatori tradizionalmente riconosciuti cominciamo a trovare altri tipi di indicatori la cui efficacia deve ancora essere dimostrata. Dal punto di vista metodologico è importante tenere presente che analisi robuste possono essere condotte solo su grandi database di cui si è in grado di certificare esaustività, completezza e coerenza. Un punto di arrivo ancora molto lontano per le metriche alternative, su cui però molti studiosi sono all’opera.

« back

Sezione Paradoxa