Biblioteche e bibliotecari nel Wikiproject Covid-19:
authority control, contenuti di qualità e linked open data

di Alessandra Boccone e Tania Maio

Dans cette crise, il nous faut agir dans le savoir explicite de notre non-savoir.
(Jürgen Habermas)

Utenti, bibliotecari e Wikipedia durante la pandemia

Durante la pandemia da Covid-19 e il relativo lockdown il bibliotecario ha visto confermato il suo ruolo di facilitatore dell’utente nell’accesso all’informazione. Lo ha fatto in vari modi: nel raccogliere e valutare risorse ad accesso aperto online da proporre alla propria comunità di utenti; scandagliando il web per tenere traccia delle proposte di solidarietà digitale degli editori che hanno temporaneamente permesso l’accesso a collezioni altrimenti con limitazioni; orientando l’utente nell’interrogazione di banche dati in abbonamento e biblioteche digitali. Lo ha fatto in un momento in cui l’utente si è trovato particolarmente disorientato, trovandosi di fatto per la prima volta in una biblioteca senza pareti nella quale ha potuto contare su un supporto e un’assistenza mediato dallo schermo di un computer.
In questo panorama i limiti del nostro sistema informativo sono risultati eclatanti: mai come ora abbiamo preso coscienza che siamo immersi in una grande mole di informazioni provenienti dalle fonti più disparate, ma che molto spesso il pubblico che recepisce tali informazioni non ha gli strumenti per poterle valutare e vagliare.
Il ricorso forzato e univoco al digitale ha rivelato che non tutte le richieste informative trovano la loro risposta in banche dati e biblioteche online. Inoltre il digital divide visto «nel paradosso dell’attuale situazione in cui tutti potrebbero avere tutta l’informazione liberamente disponibile, mentre invece ancora l’accesso all’informazione è un bene competitivo, cioè fa la differenza per quei pochi che riescono davvero ad avere l’informazione»1, si è confermato un fattore fortemente discriminante.
La figura del bibliotecario esce dunque da questo periodo ancora più rafforzata, in quanto la sua capacità di intermediazione si è rivelata un fattore fondamentale per il successo delle strategie di ricerca dell’utente.
Inoltre, il disorientamento che ha colto l’utente accademico nel reperimento delle risorse online, necessarie per esigenze di studio e di ricerca, è lo stesso che ha riguardato l’utente comune nei giorni della pandemia, quando trovare notizie attendibili e verificabili riguardo il virus, la modalità di contagio, le complicazioni, l’estensione dell’epidemia si è rivelato difficile e demoralizzante.
Proprio per questo motivo milioni di utenti si sono rivolti alle pagine di Wikipedia per trovare le notizie di cui avevano bisogno, a dimostrazione del fatto che «quello che accade nel mondo accade in Wikipedia»2, l’enciclopedia libera che ognuno può contribuire a creare e che si è confermata in questo frangente come la fonte d’informazione prediletta dai lettori.
Questa preferenza non coglie impreparati i bibliotecari, che già da anni lavorano sulle piattaforme della galassia Wikimedia per rispondere alle esigenze informative degli utenti appartenenti a una comunità remota, che vive al di fuori dalle biblioteche, ma che necessita delle professionalità proprie di chi in biblioteca ci lavora. Anzi possiamo dire che l’interesse del mondo bibliotecario verso l’universo wiki inizia proprio nel momento in cui ci si è resi conto che ogni ricerca degli utenti, che appartengano o meno alla propria comunità di riferimento, inizia nella barra di un motore di ricerca che propone come primo risultato una pagina Wikipedia3.
Da quel momento in poi la collaborazione tra biblioteche e Wikimedia è stata continua e ha toccato i vari ambiti della nostra professione.
Dai primi bibliotecari pionieri nelle terre wiki che hanno formato decine di colleghi al lavoro sull’enciclopedia libera4, si è arrivati a risultati storici come il collegamento biunivoco dei lemmi del Nuovo soggettario alle relative voci in Wikipedia5.
Anche la valorizzazione delle collezioni, e soprattutto dei fondi speciali, ha giovato di questa inedita alleanza, generando una ricaduta positiva in molteplici ambiti: dalla produzione di nuovi contenuti culturali referenziati e open access all’incremento della fruizione del patrimonio bibliotecario comune, dalla creazione di reti collaborative con altri enti culturali alla formazione continua del personale coinvolto nei progetti6.
Ma, per voler rimanere ancora un po’ nei confini nazionali, le abilità e la lungimiranza dei bibliotecari italiani si è spinta fino ad arrivare a lavorare per esplicitare e convertire l’ontologia del MARC in strutture linked data/RDF mediante l’uso del Wikibase data model7.
In ambito internazionale ricordiamo l’ambizioso progetto della National Library of Wales, che ha predisposto un piano per condividere i metadati di ogni libro pubblicato in Galles o di interesse gallese. Il progetto Sum of all Welsh literature, dunque, ha lo scopo di raccogliere, preservare e fornire l’accesso a tutte le forme di conoscenza registrata relative al Galles e alla cultura delle popolazioni celtiche, a beneficio di un pubblico molto più ampio di quello delle singole biblioteche gallesi8.
Nei mesi appena trascorsi, proprio come era accaduto durante l’epidemia di Ebola in Africa, i lettori di tutto il mondo, con un importante incremento rispetto al passato, hanno fatto moltiplicare il numero di visualizzazioni delle pagine di Wikipedia che trattano di argomenti medici e scientifici. Anche in questo caso non si tratta di una novità, tale predilezione era già stata ampiamente analizzata e trattata nei mesi precedenti in numerosi studi9.
Tali ricerche hanno svelato il volto degli utenti che scelgono Wikipedia come fonte di informazione scientifica: si tratta di medici, professionisti delle professioni sanitarie, studenti di medicina, ma anche ovviamente persone comuni che scelgono l’enciclopedia online principalmente per la tempestività con cui le informazioni vengono aggiornate e per il linguaggio chiaro e accessibile10.
La versione linguistica inglese di Wikipedia si è infatti attestata come la risorsa che più frequentemente viene interrogata per ottenere informazioni mediche, ricevendo più page view di ogni altra fonte online11.
Gli utenti, privati delle loro biblioteche e del contatto con i bibliotecari, hanno usato Wikipedia per condividere e trovare notizie attendibili sul Covid-19 con una frequenza mai vista prima.
Per riflettere sui dati si pensi che per rispondere alla ricerca di informazioni sul Covid-19 i volontari wikipediani hanno creato circa 5.200 articoli relativi alla pandemia in 175 lingue, consultati più di 382 milioni di volte12, con un picco il giorno seguente alla dichiarazione di pandemia da parte dell’OMS, quando l’articolo principale13 sul virus in Wikipedia in lingua inglese, Covid-19 pandemic, è stato letto un milione e mezzo di volte14. Questo sforzo collettivo è stato svolto grazie al lavoro di 58.317 contributori che hanno aggiornato le voci con una media di 173 edit ogni ora15.
Questa rete di volontari ha collaborato in gruppi organizzati come il Wikiproject Medicine16 e nella sua neonata appendice, il progetto nato durante la pandemia denominato Wikiproject Covid-1917.
Il Wikiproject for Covid-19 nasce il 15 marzo 2020 per tenere traccia degli articoli relativi al coronavirus, verificare le fonti esterne da cui trarre i dati e curare una lista di articoli sulla pandemia posti ‘sotto sorveglianza’, cioè articoli che possono essere aggiornati solo da contributori esperti e dei quali viene vagliata ogni modifica.
Attualmente il progetto riunisce 180 utenti di varie nazionalità e professioni che condividono l’impegno nel rendere Wikipedia una fonte di informazione accurata e verificabile sulla pandemia18.
«Verifiability, not truth» è uno dei capisaldi del lavoro wikipediano, ancora più rispettato per gli articoli su temi medici e scientifici. I contenuti dell’enciclopedia libera sul Covid-19 si basano su fonti autorevoli e letteratura scientifica peer-reviewed, così come esplicitamente richiesto dalle linee guida che si è dato il Wikiproject Medicine e che sono state adottate dal Wikiproject Covid-1919.
Uno studio condotto sulle note bibliografiche a corredo degli articoli di tale ambito in Wikipedia ha evidenziato come i contributori del progetto hanno prediletto articoli scientifici con alto indice citazionale, largamente condivisi sui social media e, ovviamente, sottoposti a revisione paritaria. In questo modo sono riusciti ad aggiornare le voci relative al Covid-19 integrando dati e informazioni tratte dai prodotti della ricerca con una tempestività del tutto eccezionale, riuscendo a restituire agli utenti un quadro veritiero degli esiti delle ricerche in campo sul Covid-1920.
Tra i volontari un ruolo importante è quello svolto dai bibliotecari wikipediani, che curano una selezioni di fonti autorevoli a cui rivolgersi per ampliare e aggiornare le voci del progetto. Tra di esse i maggiori editori scientifici in ambito medico, tra cui sono stati selezionati coloro che hanno reso liberamente fruibili le proprie collezioni relative al Covid-19 durante la pandemia. Inoltre è presente una sezione dedicata in cui i bibliotecari hanno raccolto e pubblicato delle elaborate strategie di ricerca pronte per essere usate in banche dati scientifiche come PubMed o indici generalisti come Google scholar21.
Il maggiore elemento di novità nel modus operandi del contributore wikipediano in questi mesi è stato di sicuro la velocità con cui ha dovuto aggiornare le informazioni pubblicate per rispondere alle richieste degli utenti di avere notizie affidabili e tempestive sull’evoluzione della pandemia. La rapidità con cui l’epidemia si è diffusa nel mondo ha reso di fatto impossibile creare un articolo stabile in Wikipedia e ha rappresentato la maggiore sfida per i contributori del progetto22.
La comunità wikimediana ha provveduto inoltre a pubblicare con licenza libera una grande quantità di file multimediali relativi alla pandemia in Wikimedia Commons, come immagini in alta qualità del virus SARS-Cov-2 rese disponibili da fonti autorevoli come il National Institute of Health. L’utilità di questi caricamenti è dimostrata da un banale esempio: l’infografica23 che mostra segni e sintomi del Covid-19 è stata tradotta in più di venti lingue24. È stata inoltre lanciata una campagna volta ad arricchire la descrizione dei file caricati relativi al Covid-19 con dati strutturati rilevati da Wikidata. L’iniziativa ha avuto un buon successo, con oltre mille partecipanti e più di 23.000 immagini descritte25.
Intanto molte organizzazioni rilevano proprio da Wikipedia i dati sull’epidemia: ad esempio Google li diffonde nella sezione delle news dedicata al Covid-19, aggiornata ogni sei ore26.
La Wikimedia Foundation ha elaborato i dati relativi alle 15 versioni linguistiche di Wikipedia con il maggior numero di page view, considerando il numero di contributori al progetto, il numero di voci pubblicate e le visualizzazioni ricevute, per capire quanto il bisogno informativo degli utenti nei diversi paesi sia stato soddisfatto dalla quantità e qualità di articoli pubblicati. Si è così scoperto che gli esigui quattro articoli in Wikipedia in Afrikaans hanno ottenuto più di 2 milioni di visualizzazioni, dato che permette di capire il grande interesse nutrito dagli utenti africani rispetto alla quantità minima di informazioni presenti nella loro lingua. Proprio durante le settimane del lockdown numerose iniziative hanno visto coinvolti i bibliotecari africani, tra queste la “African librarians week” (#AfLIbWk), una campagna di sensibilizzazione in collaborazione con AfLIA27 e Wikimedia per incitare la comunità bibliotecaria locale a colmare le lacune nei contenuti riguardante il proprio continente in Wikipedia, aggiungendo informazioni e riferimenti mancanti negli articoli relativi. Alla campagna, unita alla più ampia iniziativa internazionale “#1lib1ref”, hanno partecipato più di 800 bibliotecari, molti dei quali hanno scelto di creare o migliorare le pagine relative all’epidemia Covid-19 nel proprio paese28.
Anche in Cina, paese in cui Wikipedia è attualmente oscurata, i dati mostrano un alto numero di tutte le variabili: editori che desiderano condividere la loro conoscenza sul Covid-19, quantità di articoli e interesse da parte dei lettori, a dimostrazione che, nonostante il tentativo di bloccarne l’accesso, gli utenti e i contributori di lingua cinese continuano a rivolgersi all’enciclopedia libera per soddisfare la loro necessità di informazioni neutrali e attendibili sulla pandemia. La Wikipedia in italiano conta 68 articoli, scritti da 2.700 contributori, visualizzati 9 milioni di volte29.
Un progetto fratello è nato in Wikidata, il database di dati strutturati e liberi di Wikimedia. Grazie al lavoro dei partecipanti, tra cui molti bibliotecari, è oggi possibile avere accesso a un’enorme mole di dati sul Covid-19, con una possibilità infinita di interrogazioni.

Wikidata Wikiproject Covid-19

Il progetto, inaugurato il 16 marzo 202030 come «a place to collect Wikidata resources related to Covid-19, SARS-COV-2»31 si è sviluppato in maniera esponenziale in un lasso di tempo brevissimo. Esso si pone vari obiettivi: in primo luogo la creazione di data model specifici per la standardizzazione dei vari tipi di item relativi all’epidemia (ad esempio le misure di emergenza, i ceppi virali, le app create ad hoc, gli effetti e l’impatto della pandemia ecc.)32. In secondo luogo, il piano prevede la creazione e l’ampliamento di elementi33, dichiarazioni34, categorie e template che descrivano al meglio tutto ciò che risulti rilevante per la rappresentazione dell’epidemia e del virus stesso; fondamentale appare anche la strutturazione di query SPARQL che permettano statistiche precise sul coronavirus e sull’andamento della pandemia35, a cui segue il monitoraggio e l’aggiornamento in tempo reale delle pagine relative ai focolai a livello internazionale e/o divisi per nazione. I contributori che partecipano al progetto sono chiamati anche a creare delle focus list in cui vengano raggruppati tutti gli item relativi al Covid-19 (persone colpite dalla malattia, ospedali, istituti di ricerca, scienziati, politici, organi decisionali ecc.), anche per aiutare a determinare le voci di Wikipedia che necessitano di traduzione in altre versioni linguistiche36; compito del Wikiproject è anche assicurare la qualità delle informazioni di Wikidata sulla letteratura scientifica riguardante il coronavirus ed elaborare strategie per migliorare l’accesso a tali informazioni.
Con l’uso crescente dell’intelligenza artificiale in campo sanitario, c’è infatti un bisogno sempre più pressante di sviluppare un grande, multilingue, humane/machine-readable, modificabile, strutturato e aperto database, compatibile con tutte le distinte ontologie biomediche, che sia in grado di rappresentare e processare i dati attraverso un metodo computazionale37. Infatti, una smisurata mole di informazioni è dispersa in molteplici database che non presentano alcune possibilità di integrazione, perché spesso tali basi utilizzano differenti modalità di accesso, sono sviluppate con sistemi eterogenei, hanno diverse licenze d’uso: tutto ciò crea delle vere e proprie barriere tecniche che lasciano le varie risorse isolate fra loro. Mai come in occasione della corrente pandemia mondiale sono stati messi in evidenza tutti i limiti di una siffatta organizzazione dei contenuti, laddove invece risulta necessaria una tempestiva integrazione di conoscenze scientifiche e di identificatori in ambito biomedico38. In questo quadro d’insieme, Wikidata si presenta come una possibile soluzione: ha tutte le caratteristiche utili a tale scopo, in particolar modo la sincronizzazione istantanea con tutte le risorse RDF e la disponibilità al riuso e all’analisi dei dati attraverso il suo SPARQL endpoint39.
Durante lo sviluppo del Wikidata Wikiproject Covid-19 molte volte è stato messo in evidenza come sia importante creare un modello di inserimento e controllo dei contenuti che permetta un workflow quanto più lineare e rigoroso possibile. Un caso di studio interessante è rappresentato dal lavoro di un gruppo di ricercatori provenienti da vari istituzioni40, il quale, in sole due settimane di studio e sperimentazione, ha messo a punto un processo di allineamento delle risorse relative alla genomica del virus SARS-CoV-2 attraverso schemi semantici e un set di applicazioni che permettono di arricchire i dati e collegarli alla letteratura scientifica contenuta in database del calibro di NCBI Taxonomy, NCBI Gene, UniProt, PubMed, Wikipatways attraverso l’infrastruttura di Wikidata, favorendone la correzione e la riconciliazione dei dati pressoché immediata41.
Nonostante la raffinatezza e la potenza di tali strumenti ci si è resi conto, però, che ancora una volta la professionalità dei bibliotecari e, in generale dei professionisti dell’ambito LIS, è risultata necessaria.
In particolar modo nella validazione e riconciliazione degli identificatori esterni degli item, che rappresentano uno dei pilastri fondamentali su cui poggia la forza di Wikidata, nella soggettazione delle risorse e nell’inserimento di riferimenti bibliografici, l’apporto dei bibliotecari è stato notevole e determinante.

Wikiproject Covid-19: biblioteche e bibliotecari

Rispondendo, fra l’altro, alle raccomandazioni, con cui il gruppo di lavoro W3C Library Linked Data (LLDXG)42

invita le comunità di bibliotecari e archivisti a preservare i dataset e i vocabolari controllati in set di elementi LD e ad applicare i loro know-how, riferiti alla gestione dati e alla conservazione a lungo termine, ai dataset pubblicati in LD così che le terne di LD diventino immutabili, gli identificatori univoci URIs rimangano permanenti e nomi, titoli, intestazioni per soggetto permangano stabili nel tempo. Con il progredire delle tecnologie del Web semantico, le biblioteche e le istituzioni archivistiche avranno una buona opportunità per arricchire i loro attuali ruoli di gestori dell’universo bibliografico con la qualifica di autorità garanti della conservazione a lungo termine dei dataset in LD relativi al patrimonio culturale43

e all’evidenza che la condivisione dei dati è ora considerata una componente chiave per affrontare le emergenze di salute pubblica presenti e future, sia a livello nazionale sia internazionale, molte biblioteche hanno partecipato al movimento di liberazione di contenuti e dati relativi al Covid-19, mettendo in condivisione informazioni, documenti, dati e strategie di ricerca.

Le biblioteche nel Wikidata Wikiproject Covid-19

La sezione Covid-19 della National digital library of India44 sta sperimentando varie modalità e livelli di integrazione con i progetti Wikimedia, i bibliotecari dell’Universiy of Toronto hanno curato una lista di risorse per la ricerca sul Covid-1945, mentre l’University of Sydney Library raccoglie i metadati e le versioni full text ad accesso aperto della letteratura accademica e li condivide pubblicamente attraverso eScholarship, oltre a incoraggiare i propri ricercatori a utilizzare tale repository per rendere liberamente riutilizzabili le loro ricerche sul coronavirus46.
Il Sistema bibliotecario di ateneo dell’Università degli studi di Padova, così come il Centro servizi bibliotecari dell’Università degli studi di Perugia, «allo scopo di condividere il maggior numero di informazioni utili per analizzare, contenere, combattere e ridurre gli effetti dell’epidemia da Covid-19, ha raccolto i link a enti, centri di ricerca, aziende e gruppi, che con le loro azioni stanno concretizzando gli obiettivi dell’Open Science condividendo il più velocemente possibile dati, documenti, software, strumenti e protocolli; le ricerche sono aperte e partecipative, a favore della trasparenza e della riproducibilità»47: in entrambi i casi il Wikidata Wikiproject Covid-19 è stato inserito fra le risorse ufficiali dedicate48.

Ma ci sono alcune biblioteche e gruppi di bibliotecari che hanno deciso di andare oltre e di partecipare fattivamente a questo progetto.
Linked data for production è un progetto di collaborazione tra quattro istituzioni (Cornell University, Harvard University, Stanford University e la School of Library and Information Science della University of Iowa) con la Library of Congress e il Program for Cooperative Cataloging (PCC), che ha il fine di organizzare e testare i flussi di lavoro relativi alla produzione di servizi tecnici per la transizione dai formati di dati MARC a quelli basati sull’utilizzo dei linked open data49. Questo gruppo di lavoro internazionale lavora abitualmente su Wikidata: «the aim of Linked Data for Production’s Wikidata project work is an in-depth exploration of how Wikidata could serve as a platform for publishing, linking and enriching library linked data»50. I componenti del gruppo hanno aderito attivamente al Wikidata Wikiproject Covid-19, organizzando delle working hour, in cui hanno aggiunto fonti (anche durante la campagna “#1lib1ref”) alle dichiarazioni sugli autori che hanno pubblicato articoli scientifici sul SARS-CoV-251, di cui hanno ampliato, corretto e migliorato gli item, oltre ad ampliare le principali informazioni sugli item degli ospedali locali52.
Anche il Centro bibliotecario di ateneo dell’Università degli studi di Salerno ha preso parte al Wikidata Wikiproject Covid-19, seguendo cinque linee d’azione ed esaminando vari tool e gadget che potessero essere utilizzati per creare un flusso di lavoro semplificato e lineare.

Wikidata tool

A questo scopo Mix’n’match si è rivelato uno dei più significativi: si tratta di un software libero che importa dataset su Wikidata, creato nel 2013 da Magnus Manske e premiato con il WikidataCon Award 2019. Esso contiene più di tremila cataloghi e dataset provenienti da fonti esterne, di cui 41 di ambito medico, come lo UK’s National Health Service encyclopedia o la Biblioteca digital de la Real Academia Nacional de Medicina, i cui singoli record possono essere abbinati con gli elementi di Wikidata, in modo da arricchirli di identificativi esterni e fonti in maniera veloce e precisa53. Il fine dello strumento è, dunque, abbinare quante più schede di catalogo a ogni singolo elemento di Wikidata attraverso gli identificatori esterni, oppure segnalarle come incompatibili o inutili. Per farlo, è necessario essere registrati su un progetto Wikimedia e autorizzare l’azione, identificandosi su WiDaR54. Dopo l’autorizzazione, si possono scegliere due diverse modalità di lavoro: semi-automatica o manuale55.
Esiste anche la possibilità di inserire il gadget di Mix’n’match direttamente sul proprio profilo utente dei progetti Wikimedia: tale operazione permetterà l’apertura di una finestra di dialogo con il tool direttamente nell’item che si vuole arricchire, velocizzando ancor più l’operazione.
Un altro tool molto utile allo scopo è Author disambiguator, uno strumento che fornisce supporto automatizzato alla disambiguazione degli autori, all’ampliamento delle relative informazioni e al collegamento dell’autore con le sue pubblicazioni. In particolare, facilita la conversione dalla proprietà ‘stringa del nome dell’autore’ (P2093, che è testuale e si utilizza quando l’autore della pubblicazione non ha un elemento Wikidata) alla proprietà ‘autore’(P50, che lega invece l’item dell’articolo all’elemento dell’autore), accrescendo così il cloud LOD56.
Quickstatements, oggi alla sua seconda versione, è uno strumento che può modificare gli elementi di Wikidata, basandosi su un semplice set di comandi di testo. Il tool può aggiungere, unire e rimuovere dichiarazioni, etichette, descrizioni e alias, nonché ampliare gli statement con qualificatori e fonti. La sequenza di comandi può essere digitata nella finestra di importazione creata in un foglio di calcolo, oppure attraverso un editor testuale e successivamente incollata nella finestra, o realizzata direttamente da un codice esterno.
Useful Wikidata e Quick preset permettono di ampliare agevolmente gli item caratterizzati dall’ ‘istanza di umano’, aggiungendo informazioni che riguardano, ad esempio, l’occupazione, il sesso, il paese di cittadinanza o le lingue parlate o scritte.
Grazie al VIAF gadget, un item che presenta il suo VIAF ID può essere arricchito in maniera semiautomatica con tutti gli identificatori presenti nel suo VIAF cluster, semplicemente apponendo un flag a quelli prescelti.
Altlabels permette l’inserimento delle etichette in varie lingue in un unico clic.
SourceMD, chiamato anche Source metadata tool, è un prototipo che, partendo dall’identificatore permanente di una risorsa documentale o di un autore, lo elabora importando metadati bibliografici provenienti da fonti esterne in elementi Wikidata. Nell’agosto 2018, è stato unito a ORCIDator in un unico strumento che consente l’elaborazione in batch completamente automatizzati basata sui seguenti identificatori: ISBN-13 (P212), identificativo DOI (P356), identificativo ORCID (P496), identificativo PubMed (P698), identificativo PMC (P932).

Workflow

Una volta individuati i tool e installati i gadget sul proprio profilo, le bibliotecarie hanno interrogato i dati attraverso query progettate ad hoc dal Wikidata Wikiproject Covid-19 oppure hanno analizzato la visualizzazione degli item relativi al SARS-CoV-2 con l’uso di Scholia57. Attraverso questi strumenti hanno individuato gli item degli autori più prolifici che avevano la necessità di essere ampliati con identificativi, oppure qualificati attraverso le fonti o, ancora, legati con la proprietà ‘autore’ ai propri articoli scientifici. Con l’uso combinato dei vari strumenti descritti in precedenza, sono state aggiunte le etichette in svariate lingue attraverso Altlabels, completati i profili con informazioni personali attraverso Useful Wikidata e Quick preset, aggiunti numerosi identificativi esterni attraverso i Mix’n’match e VIAF gadget, importate ulteriori informazioni presenti nei profili ORCID degli autori attraverso Source MD. Grazie ad Author disambiguator, infine, gli autori sono stati legati attraverso la relativa proprietà ai propri elaborati scientifici: tali dichiarazioni sono state supportate dai riferimenti bibliografici importati in maniera automatica dai database esterni di qualità. Questo flusso di lavoro ha permesso di produrre in media un numero di 1.000 edit per ogni ora di lavoro.
Analizzando l’item del SARS-CoV-2 in Scholia, le bibliotecarie hanno individuato anche i periodici scientifici in cui sono comparsi più articoli sull’argomento e, grazie al Mix’n’match gadget, hanno aggiunto identificatori esterni a circa quaranta riviste, arricchite anche di etichette nelle diverse lingue.
Lanciando la query58 sugli autori che avevano pubblicato articoli sul Covid-19, è stato possibile aggiungere identificativi esterni e fonti e includerli nella relativa focus list. Oltre agli autori, si è proceduto a inserire (e/o creare dove necessario) i principali protagonisti nel campo della politica e della ricerca scientifica, i maggiori ospedali e istituti di ricerca italiani attraverso lo statement ‘sulla focus list di un progetto Wikimedia (P5008)’ ‘WikiProject Covid-19 (Q87748614)’.
Un’altra linea d’azione è stata la soggettazione degli articoli scientifici. Partendo dalle tre query59 SPARQL elaborate dal Wikiproject per gli articoli scientifici relativi al coronavirus a cui mancava il soggetto, è stata fatta un’estrazione degli stessi in formato CSV e trasferiti in un foglio di calcolo a cinque colonne, in cui erano presenti l’identificatore dell’item dell’articolo in Wikidata, la proprietà ‘argomento principale’ (P921), l’identificatore del soggetto dell’articolo (‘pandemia di Covid-19 del 2019-2020’ (Q81068910), ‘Covid-19’ (Q84263196) o ‘SARS-CoV-2’ (Q82069695)) e il riferimento dell’affermazione, cioè ‘determinato dall’euristica’ (P887): ‘dedotto dal titolo’ (Q69652283). Inseriti i dati così ordinati in Quickstatements, sono stati avviati tre batch per l’importazione in Wikidata. Nella fase seguente le bibliotecarie hanno proceduto a un controllo a campione, per rilevare eventuali errori e criticità: il metodo si è rivelato però adeguato e preciso. Queste operazioni sono state ripetute circa ogni settimana nel periodo di lavoro (Figura 1).

 

Proprietà

Numero di edit

Argomento principale (P921)

6.446

Autore (P50)

788

Identificativi esterni (vari)

396

Qualifier addition (P12)

1.157

Reference addition (P11)

6.424

Sulla focus list di un progetto Wikimedia (P5008)

15.682

Item/Property creation (P18)

24

Item/Property change (P19)

953

Claim deletion (P15)

864

Totale

32.734

Figura 1 – Modifiche effettuate nell’ambito del Wikidata Wikiproject Covid-19 nel periodo compreso tra il 18 giugno e il 31 luglio 2020.

Conclusioni

Il web semantico e i progetti collaborativi e aperti offrono infinite possibilità e soluzioni a problemi complessi, ma sollevano anche una miriade di problematiche teoriche e pratiche che toccano vari campi, dal diritto d’autore alla progettazione informatica, dalle strategie di ricerca delle informazioni ai modelli di standardizzazione dei dati degli enti e delle istituzioni che li producono. In particolare

[...] lo scambio di informazioni tra istituzioni affini richiede una prima fase di mappatura dispendiosa. In secondo luogo l’eredità di soluzioni tecnologiche – più o meno aperte e più o meno manutenibili – difficilmente permette di dialogare con fonti di dati esterne senza ulteriori costi e/o cambiamenti radicali. Non ultimo, il dialogo tra fonti richiede la revisione e l’aggiornamento delle basi di conoscenza, previa una sofferta fase di data cleansing. Il costo per aggiornare le descrizioni catalografiche è infatti dispendioso, in termini di risorse umane, expertise e tempo. Ciò comporta una drastica selezione delle informazioni da condividere con enti esterni. La conseguenza immediata è un netto ridimensionamento delle domande di ricerca e delle aspettative a cui l’integrazione potrà dare risposta60.

Questa problematica si è rivelata effettiva anche nel caso specifico del Wikiproject Covid-19, poiché esiste il rischio di avere una visione solo parziale dell’argomento: nonostante lo sforzo diffuso di molti editori e produttori di conoscenza scientifica di ‘aprire’ i database per aggregare i propri dati e contenuti al LOD cloud relativo al coronavirus, ci sono ancora molti indici citazionali e database che non permettono l’accesso se non dietro compenso, spesso talmente esoso da costringere molti enti di ricerca a rinunciare a tali risorse; in altri casi, alcuni istituti scientifici non riescono a integrare i propri dati in Wikidata per la difformità dei propri dataset o a causa dei vincoli relativi al copyright. I dati protetti dal diritto d’autore non possono dunque entrare in Wikidata, che di conseguenza potrebbe offrire una prospettiva solo parziale dell’argomento.
Un altro limite è segnato dalla natura stessa dei progetti Wikimedia: essendo piattaforme aperte che nascono e crescono in maniera collaborativa, quella che rappresenta la loro forza si trasforma in alcuni casi anche in una criticità; nonostante le regole di cui si è dotata la comunità di redattori volontari e il controllo continuo anche da parte degli amministratori, nel momento in cui chiunque può aggiungere dati e contenuti, essi si possono rivelare anche errati, parziali o faziosi.
Oltre alle problematiche di natura teorica, durante i workflow descritti sono emerse anche difficoltà tecniche, che hanno rallentato le attività delle bibliotecarie. In primo luogo, alcuni tool sono risultati instabili e il loro funzionamento discontinuo: molte volte le bibliotecarie hanno dovuto ripetere svariate volte la stessa operazione per ottenere il risultato sperato. Un altro rallentamento si è verificato a causa di molte duplicazioni degli item autori, che in alcuni casi presentavano un elemento molto scarno e privo identificatori univoci: a volte è stato molto difficile attribuire un articolo al giusto autore. In molti item, inoltre, le dichiarazioni non sono confortate da riferimenti bibliografici: in questi casi è stato necessario ricercare e aggiungere le fonti, dove possibile.
L’incredibile mole di informazioni e dati inseriti sull’argomento, inoltre, rende la ricerca di informazioni specifiche molto impegnativa e a volte dispersiva: lo sforzo di categorizzare e usare forme di standardizzazione dei dati a volte non riesce a sormontare tali difficoltà.
Tuttavia è prevedibile che le criticità sopra rilevate potranno, almeno in parte, essere superate in un prossimo futuro, considerando la velocità senza eguali con cui Wikidata sta conquistando un ruolo centrale nell’ecosistema del sapere libero. Il numero dei contributori e le professionalità messe a servizio del progetto aumentano di mese in mese, rendendo disponibili tool e strumenti sempre più sofisticati, ma allo stesso tempo di più facile utilizzo per l’utente meno esperto.
L’auspicio è che un numero sempre maggiore di colleghi bibliotecari comprendano che la correttezza e la verificabilità dei dati, che influiscono così pesantemente nella vita quotidiana di miliardi di persone, sono caratteristiche fondamentali della cui presenza cui ognuno dovrebbe farsi carico, e primi fra tutti, coloro che gravitano nell’ambito LIS; essi dovrebbero considerare parte della loro mission la contribuzione attiva a questo tipo di attività, mettendo a disposizione una professionalità che si fonda sulla descrizione delle risorse attraverso i metadati, sul reperimento, la valutazione di fonti affidabili e verificabili, tutti elementi imprescindibili per il successo di progetti portati avanti dai volontari wikimediani nel mondo, e, primo fra tutti, il Wikiproject Covid-19.


NOTE

1 Anna Maria Tammaro, Le biblioteche pubbliche quale ponte per superare il digital divide. In: “Le biblioteche pubbliche nell’era di internet: digitalizzazione del patrimonio, accesso a distanza, diritto d’autore” (Palermo, 23 aprile 2010), p. 2, https://www.repository.unipr.it/handle/1889/1512.
2 Wikimedia Foundation, Responding to Covid-19: how we can help in this time of uncertainty, https://wikimediafoundation.org/covid19/.
3 Cfr. Claudio Forziati, Tania Maio, Information needed, comprendere e anticipare i bisogni informativi al tempo di Wikipedia, «Biblioteche oggi trends», 3 (2017), n. 1, p. 71-80, http://www.bibliotecheoggi.it/trends/article/view/629.
4 Cfr. Susanna Giaccai, Come diventare bibliotecari wikipediani, Milano: Editrice bibliografica, 2015.
5 Cfr. Anna Lucarelli, Wikipedia loves libraries: in Italia è un amore corrisposto, «AIB studi», 54 (2014), n. 2-3, p. 241-259, https://aibstudi.aib.it/article/view/10108; Giovanni Bergamin, Anna Lucarelli, The Nuovo soggettario as a service forthe linked data world, «JLIS.it», 4 (2013), n. 1, p. 213-226, https://www.jlis.it/article/view/5474.
6 Cfr. Alessandra Boccone [et al.], Valorizzazione dei fondi privati in una biblioteca accademica: divulgazione, comunicazione, ricerca, «Bibliothecae.it», 6 (2017), n. 2, p. 255-284, https://bibliothecae.unibo.it/article/view/7703.
7 Giovanni Bergamin, Cristian Bacchi, New ways of creating and sharing bibliographic information: an experiment of using the Wikibase data model for UNIMARC data, «JLIS.it», 9 (2018), n. 3, p. 35-74, https://www.jlis.it/article/view/12458.
8 John Evans, The sum of all Welsh literature. In: Wikicite 2018 (Berkeley, 27th-29th November 2018), https://docs.google.com/presentation/d/1OTLE52im-luTx1l6YhmbxSuJSLYXyRPptF7GKVZTQkw/edit#slide=id.p.
9 Denise A. Smith, Situating Wikipedia as a health information resource in various contexts: a scoping review, «Plos one», 15 (2020), n. 2, article n. e0228786, https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0228786.
10 James M. Heilman [et al.], Wikipedia: a key tool for global public health promotion, «Journal of medical internet research», 13 (2011), n. 1, article n. e14, https://www.jmir.org/2011/1/e14.
11 James M. Heilman, Andrew G. West, Wikipedia and medicine: quantifying readership, editors, and the significance of natural language, «Journal of medical internet research», 17 (2015), n. 3, article n. e62, https://www.jmir.org/2015/3/e62.
12 Cfr. Wikimedia Foundation, Wikipedia and Covid-19: explore the data, https://wikimediafoundation.org/Covid19/data/.
13 Cfr. Covid-19 pandemic. In: Wikipedia: the free encyclopedia. Version of August 24, 2020, 20:35 UTC, https://en.wikipedia.org/wiki/Covid-19_pandemic.
15 Wikipedia C-19 comms stats, https://analytics.wikimedia.org/published/dashboards/Wikipedia_C-19_Comms_Stats/. Dal momento in cui l’Organizzazione mondiale della sanità ha proclamato l’epidemia di coronavirus come una pandemia l’11 marzo 2020, gli articoli sul virus nella versione linguistica inglese di Wikipedia avevano raggiunto 1 milioni di page view al giorno, non includendo gli articoli correlati, come quello relativo alla disinformazione sul Covid-19 o gli articoli presenti nelle altre versioni linguistiche.
19 Omer Benjakob, On Wikipedia, a fight is raging over coronavirus disinformation, «Wired», 9 febbraio 2020, https://www.wired.co.uk/article/wikipedia-coronavirus.
20 Giovanni Colavizza, Covid-19 research in Wikipedia, «Biorxiv», 12 maggio 2020, https://www.biorxiv.org/content/10.1101/2020.05.10.087643v1, DOI: 10.1101/2020.05.10.087643. Successivamente pubblicato come Giovanni Colavizza, Covid-19 research in Wikipedia, «Quantitative science studies», 2020, https://www.mitpressjournals.org/doi/abs/10.1162/qss_a_00080, DOI: 10.1162/qss_a_00080.
22 Stephen Harrison, Coronavirus coverage on Wikipedia is stress-testing the site’s policies, «Slate», 19 marzo 2020, https://slate.com/technology/2020/03/coronavirus-wikipedia-policies.html.
24 Cfr. Eric Luth, How is Wikimedia responding to Covid-19 crisis?, 27 marzo 2020, https://wikimedia.se/2020/03/27/how-is-wikimedia-responding-to-Covid-19-crisis.
25 Contributions to a structured data campaign: Covid-19, https://tools.wmflabs.org/isa/campaigns/61/stats.
26 Cfr. https://news.google.com/Covid19/map?hl=it&gl=IT&ceid=IT:it.
27 African Library and Information Associations and Institutions (AfLIA), https://web.aflia.net.
28 “African librarians week: promoting African scholars to the world” (24th-30th May 2020), https://web.aflia.net/aflibwk/.
29 Cfr. Wikimedia Foundation, Wikipedia and Covid-19: explore the data cit.
31 Cronologia delle modifiche della pagina del Wikidata:Wikiproject Covid-19, https://www.wikidata.org/w/index.php?title=Wikidata:WikiProject_COVID-19&dir=prev&action=history.
33 Item del Wikidata:Wikiproject Covid-19, https://www.wikidata.org/wiki/Wikidata:WikiProject_COVID-19/Items, e la relativa query https://tinyurl.com/y7jdqa4h.
36 Focus list del Wikidata:Wikiproject Covid-19, https://www.wikidata.org/wiki/Wikidata:WikiProject_COVID-19/Focus_list.
37 Turki Houcemeddine [et al.], Wikidata: a large-scale collaborative ontological medical database, «Journal of biomedical informatics», 99 (2019), article n. 103292, p. 1-13: p. 1, https://www.sciencedirect.com/science/article/abs/pii/S1532046419302114.
38 Lynn M. Schriml [et al.], Covid-19 pandemic reveals the peril of ignoring metadata standards, «Scientific data», 7 (2020), article n. 188, https://www.nature.com/articles/s41597-020-0524-5.
39 Wikidata query service, https://query.wikidata.org/.
40 Nello specifico: Andra Waagmeester, Micelio, Antwerpen, Belgio; Egon L. Willighagen, Dipartimento di bioinformatica - BiGCaT, NUTRIM, Università di Maastricht, Olanda; Andrew I Su, Dipartimento di biologia strutturale e computazionale integrativa, The Scripps Research Institute, La Jolla, CA, Stati Uniti; Martina Kutmon, Centro di biologia dei sistemi di Maastricht - MaCSBio, Università di Maastricht, Olanda; Jose Emilio Labra Gayo e Daniel Fernández-Álvarez, Gruppo di ricerca WESO, Università di Oviedo, Spagna; Peter J. Schaap e Jasper J. Koehorst, Dipartimento di Agrotechnology and Food Sciences, Laboratory of Systems and Biologia sintetica, Università e ricerca di Wageningen, Wageningen, Paesi Bassi; Lisa M. Verhagen, Intravacc, Bilthoven, Paesi Bassi.
41 Andra Waagmeester [et al.], A protocol for adding knowledge to Wikidata, a case report, «BioRxiv», 7 aprile 2020, https://www.biorxiv.org/content/10.1101/2020.04.05.026336v1.
42 Library Linked Data Incubator Group Charter, https://www.w3.org/2005/Incubator/lld/charter.
43 Iryna Solodovnik, Uno sguardo sul futuro semantico dell’universo bibliografico, «AIB studi», 52 (2012), n. 3, p. 325-343, https://aibstudi.aib.it/article/view/8624/8000#77.
44 National digital library of India, https://ndl.iitkgp.ac.in/.
45 University of Toronto. Libraries, Covid-19 research resources, https://onesearch.library.utoronto.ca/Covid-19/research-guides.
46 Cfr. Verity Leatherdale, Library helps create Covid-19 historical record, 21 maggio 2020, https://www.sydney.edu.au/news-opinion/news/2020/05/21/library-helps-create-covid-19-historical-record-.html.
47 Università degli studi di Padova. Sistema bibliotecario di ateneo, Covid-19: open data, http://bibliotecadigitale.cab.unipd.it/solidarietadigitale/covid-19-open-data.
48 Università degli studi di Perugia. Centro servizi bibliotecari, Nuovo coronavirus Covid-19: accesso temporaneo gratuito a risorse dedicate, https://www.csb.unipg.it/notizie/archivio-notizie/1018-nuovo-coronavirus-Covid-19-accesso-temporaneo-gratuito-a-risorse-dedicate.
49 Michelle Futornick, LD4P2 project background and goals, 14 gennaio 2019, https://wiki.lyrasis.org/display/LD4P2/LD4P2+Project+Background+and+Goals.
50 Cfr. Wikidata:Wikiproject Linked data for production, https://www.wikidata.org/wiki/Wikidata:WikiProject_Linked_Data_for_Production.
52 LD4-Wikidata Affinity Group. In: Wikidata:Wikiproject Linked data for production cit.
53 Mix’n’Match tool, https://mix-n-match.toolforge.org.
54 Strumento di accesso universale OAuth per vari tool di Wikidata, https://admin.toolforge.org/tool/widar.
55 In modalità semi-automatica, in cima alla pagina si trova l’identificativo del catalogo (Catalog ID), il titolo dell’elemento del catalogo (Catalog name) ed eventualmente una descrizione minima (Catalog description), per comprenderne l’argomento. Nella modalità manuale, invece, si ha a disposizione una lista di cinquanta schede tratte dal catalogo selezionato in precedenza. Molti dei cataloghi presenti in Mix’n’match non sono ancora su Wikidata: alcuni non hanno i requisiti minimi indicati, ma altri potrebbero avere corrispondenze anche in altri cataloghi, cosa che aumenta la loro rilevanza. Tutte le schede che hanno potenziali corrispondenze (da tre in su), ma non hanno un elemento su Wikidata, possono essere rintracciate tramite la funzione ‘Candidati alla creazione’ (Creation candidates).
56 Inserendo nella barra di ricerca il nome prescelto, il tool propone una lista di possibili pubblicazioni dell’autore, che possono essere convalidate o eliminate dall’operatore. Una volta identificati gli articoli giusti, si sceglie l’item dell’autore fra i vari proposti e si legano attraverso Quickstatements. Nel caso in cui l’item dell’autore non fosse presente in Wikidata, il tool offre la possibilità di crearlo in modalità semiautomatica, partendo dal ResearchGate Profile ID, dal VIAF ID o dall’ORCID.
58 Lo schema della query è:

SELECT DISTINCT ?author ?authorLabel ?pdate
{
 VALUES ?topics { wd:Q82069695 wd:Q84263196 wd:Q81068910 }
 ?item wdt:P31 wd:Q13442814.
 ?item wdt:P921 ?topics.
 ?item wdt:P50 ?author.
 OPTIONAL { ?item wdt:P577 ?pdate }
 SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }.
}
ORDER BY ?pdate

59 Query degli articoli scientifici con la parola ‘Covid-19’ nel titolo ma privi di soggetto, https://www.wikidata.org/wiki/Wikidata:WikiProject_COVID-19/Queries#COVID-19.
60 Marilena Daquino, Archivi fotografici per la storia dell’arte e semantic web: problemi, risorse e linee di ricerca, «JLIS.it», 10 (2019), n. 2, p. 37-47: p. 39-40, https://www.jlis.it/article/view/12533/11362.