di Damiano Orrù
Nella realtà di ogni giorno siamo circondati da strumenti e servizi che possono favorire la produttività e semplificare problematiche più frequenti nella vita di molti cittadini. Alcuni trovano utile il robot aspirapolvere, altri il navigatore sul cellulare o in automobile, alcuni prediligono i pagamenti contactless, altri le app elimina code, alcuni si affidano all’app Immuni, altri usufruiscono dei servizi per la casa domotica (la gestione remota e digitale di illuminazione, telecamere, riscaldamento, dispensa, cancelli automatici ecc.).
Tutti questi nuovi protagonisti delle nostre esistenze hanno lo stesso cuore, definito in gergo informatico ‘algoritmo’. Si parla di ‘intelligenza artificiale’, forse in modo sproporzionato rispetto a ciò che effettivamente viene gestito e offerto. Questo cuore tecnologico può pulsare e sopravvivere solo se alimentato dal plasma digitale: i dati, disponibili in modo adeguato per formati, quantità, tempestività e interoperabilità.
Il bibliotecario non evolve in tecnico informatico o in ingegnere programmatore, ma deve saper intuire e distinguere:
Questi ambiti evoluti dell’information literacy trovano applicazione nella gestione dei dati aperti in modo etico e sostenibile, dove il bibliotecario diviene open datasteward. Le potenzialità e le premesse per questo cambiamento sono di stretta attualità anche in ottica di sviluppo sostenibile generato dal citizen engagement in biblioteca, favorendo la condivisione e l’accesso sia ai dati attendibili sia alla produzione scientifica. In particolare, l’alfabetizzazione ai dati contribuisce al Traguardo 4.6 dell’Agenda 2030 delle Nazioni unite per lo sviluppo sostenibile (da ora in avanti: Agenda 2030): «assicurarsi che tutti i giovani e una parte sostanziale di adulti, uomini e donne, raggiungano l’alfabetizzazione e l’abilità di calcolo»1 nell’Obiettivo 4 “Educazione di qualità”.
La data stewardship può essere supportata dalla certificazione etica SA 8000, non solo in ambito accademico, ma anche in tutte le realtà lavorative e produttive. Nel mondo delle biblioteche la data stewardship della ricerca accademica si basa su archivi, pratiche e strumenti potenzialmente favorevoli al Traguardo 16.10 dell’Agenda 2030: «garantire l’accesso del pubblico alle informazioni e proteggere le libertà fondamentali, in conformità con la legislazione nazionale e con gli accordi internazionali»2 nell’Obiettivo 16 “Pace, giustizia e istituzioni solide”.
La connessione tra sostenibilità e ruolo formativo della biblioteca è ribadita tra le funzioni del Nuovo manifesto per le biblioteche digitali:
Le biblioteche digitali gestiscono i dati e i prodotti della ricerca scientifica, ne favoriscono la libera circolazione e ne supportano l’accesso aperto ai fini della diffusione universale della conoscenza. Le biblioteche digitali considerano proprio compito fondamentale la gestione efficace dei dati e dei prodotti della ricerca scientifica, compresi i dati grezzi e i metadati, il loro mantenimento nel tempo e l’accrescimento del loro valore (Data Curation) tramite l’interazione fra i dati stessi e con gli utenti; condividono i principi della Open Science e in particolare le prassi sviluppate a partire dalla Dichiarazione di Berlino, ai fini della massima diffusione dei risultati originali della ricerca, specie se finanziata pubblicamente; supportano a questi fini la realizzazione degli obiettivi dell’accesso libero e senza restrizioni, della distribuzione illimitata, dell’interoperabilità e dell’archiviazione a lungo termine e favoriscono il mantenimento degli standard qualitativi della validazione dei contenuti e della buona pratica scientifica3.
Il punto di partenza e filo conduttore è la data stewardship4, analizzata valutando:
Il bibliotecario come data steward5 ha il compito di promuovere il cambiamento culturale verso la ricerca condivisa, agendo su chi produce e su chi riusa i dati. Si richiede uno sforzo anche per agevolare il trasferimento tecnologico necessario per la scienza aperta, tramite la sinergia a tutti i livelli operativi, finanziari e decisionali dell’istituzione. In tempi ragionevoli è necessario raggiungere una massa critica, supportata da un ruolo proattivo dei ricercatori e dei settori ICT (information and communication technology).
Inoltre il data steward dovrà sostenere piattaforme di scambio per informazioni pratiche, per domande frequenti, per soluzioni replicabili, anche tramite gruppi di discussione di mutuo sostegno.
In questa ottica possono essere particolarmente utili le iniziative proposte a livello internazionale tra cui Research Data Alliance6, European open science cloud7, Italian open science support group8 ecc.
Il data steward risponde con le sue competenze alle esigenze tipiche dei DMP (data management plan), supportando cittadini e ricercatori che condividono:
Se esistono variazioni sulla struttura di archiviazione, sui formati, sui software è necessario documentare in modo accurato come si modifica il processo e come si può consentire nel futuro la replicabilità dell’elaborazione/esperimento. In questa visione oltre ai dati è fondamentale dettagliare chiaramente la metodologia, la conservazione e le condizioni di riuso.
Nella valutazione della stewardship per l’architettura hardware/software dei repository esiste il certificato Coretrustseal9, una certificazione internazionale che attesta la rispondenza tecnica ai principi FAIR (findable, accessible, interoperable, reusable) nella verifica della sostenibilità per la conservazione digitale nel lungo periodo. In Italia la piattaforma Phaidra10 del Sistema bibliotecario di ateneo dell’Università degli studi di Padova ha raggiunto questo obiettivo tramite la verifica della gestione dell’archivio nel garantirne la sostenibilità per la conservazione digitale nel lungo periodo.
In Italia non esiste una certificazione o un sistema di accreditamento che possa rilasciare la certificazione data stewardship. Il bibliotecario evolve da data curator a data steward al fine di migliorare la gestione dei dati per la scienza aperta. Questo comporta la necessità di adattare le competenze e le professionalità alle esigenze dell’istituzione, della disciplina, del paese e della regione in cui si svolge la ricerca.
Il ricercatore è il principale data stakeholder all’interno della comunità scientifica, legata a partnership tra atenei (soprattutto nei progetti europei) e tra organizzazioni di ricerca concorrente come i ministeri, le aziende, i consorzi, le fondazioni, le onlus (organizzazione non lucrativa di utilità sociale). Diviene essenziale stabilire una cooperazione pragmatica, che si affianchi alla condivisione di competenze, requisiti, servizi e protocolli, formati, modelli e standard che travalicano i confini geografici e interdisciplinari.
Si parla di una nuova concezione della data stewardship definita FAIR research data stewardship volta a condividere:
Lo standard internazionale SA 8000 sancisce i requisiti per un comportamento eticamente corretto delle imprese e della filiera di produzione verso i lavoratori. Nel 2020 oltre 4.483 organizzazioni (2.092.945 lavoratori, in 60 paesi e 57 settori produttivi12 hanno scelto SA 8000 per costruire un ambiente di lavoro sostenibile analizzando:
Questo standard basa la valutazione dell’organizzazione sul coinvolgimento delle parti interessate (stakeholder interni ed esterni), con l’apporto del personale in servizio a ogni livello/sede. Le aziende sono parte dei data stakeholder, quanti necessitano di dati disponibili in tempi rapidi e con piattaforme interoperabili e basate su policy e standard di ingresso e uscita nel flusso di gestione informativo: la data governance.
Alla base vi è l’orientamento a migliorare la competitività del mercato su base volontaria degli stakeholder, tramite la rilevazione di eticità della propria filiera produttiva e del proprio ciclo produttivo. Nell’ottica della sostenibilità divengono fondamentali temi come: il rispetto dei diritti umani, il rispetto dei diritti dei lavoratori, la tutela contro lo sfruttamento dei minori, le garanzie di sicurezza e salubrità sul posto di lavoro13. In questa ‘analisi di bilancio sociale’ gli attori coinvolti sono fornitori, clienti, consumatori e loro associazioni, gruppi ambientalisti e umanitari, organizzazioni sindacali, mass media, il bacino di utenza locale/nazionale.
I riferimenti tecnici sono sintetizzati dagli allegati: indicatori di performance (documento che definisce le aspettative minime di performance di un’organizzazione) e documento guida SA 8000 (interpretazione dello standard per chiarire come applicarlo in sede di audit). Questo approccio si basa su interviste per ottimizzare la gestione informativa al fine di realizzare i vantaggi competitivi legati a:
La data stewardship si occupa della gestione etica e responsabile del dato o del set di dati, focalizzando l’architettura della base dati e i relativi processi di automazione, al fine di favorire:
Quindi gli strumenti di data stewardship sono utilizzati nei progetti di data quality e master data management con lo scopo di eliminare entità duplicate e migliorare la riusabilità e la qualità dei dati aziendali15.
Negli ultimi anni si è molto discusso di dati e fonti affidabili per un razionale processo decisionale, volto ad ampliare le capacità statistiche e la fruizione dei dati da parte di persone comuni, come ad esempio per i dati in ambito alimentare, sanitario, civico, sociale e ambientale. Come ribadito tra i principi del Nuovo manifesto per le biblioteche digitali:
Le biblioteche digitali interagiscono con le proprie comunità. Le biblioteche digitali basano il loro rapporto con gli utenti sul metodo dell’interazione, favoriscono la partecipazione attiva degli utenti alla propria comunità, anche attraverso la creazione di nuove risorse, e cercano di parlare il loro linguaggio. Supportano inoltre l’attivazione di percorsi dedicati allo sviluppo della competenza informativa degli utenti stessi, intesa come capacità di ricerca indipendente, di analisi, valutazione critica, riuso efficace delle diverse fonti informative, e di comprensione di come l’informazione è prodotta e valutata, anche al fine di produrre nuova conoscenza16.
In applicazione di questo principio, a contrasto della disinformazione online attraverso l’alfabetizzazione alla ricerca e alla verifica delle informazioni in rete, si segnala il blog Biblioverifica17. L’iniziativa nasce nel 2017 nell’interazione di ‘bibliovolontari’ (bibliotecari e archivisti), tramite i social a supporto dei cittadini, promuovendo le pratiche di «fact-checking e l’utilizzo di dati aperti, fonti certificate, strumenti di ricerca gratuiti, strategie di ricerca per agevolare l’accesso all’informazione sostenibile in termini di accuratezza, tracciabilità, indipendenza, legalità, imparzialità»18.
Anche negli Stati Uniti la disinformazione viene contrastata con strumenti aperti e gratuiti come portali, blog e MOOC (massive open online course, corsi online aperti su larga scala). Dal blog Metaliteracy scaturisce il corso gestito da Thomas P. Mackey e Trudi E. Jacobson, “Empowering yourself in a post-truth world”, fruibile dalla piattaforma gratuita Coursera, tramite brevi contenuti testuali e video, quiz di autovalutazione integrati da un forum di discussione con i tutor19. Per metaliteracy si intende un insieme di pratiche e contenuti tramite i quali i bibliotecari possono supportare studenti e docenti, anche in ambito accademico, nella comprensione delle informazioni e dei dati20. In questi anni l’analisi e la verifica delle fonti e dell’affidabilità delle informazioni in rete sono divenute indispensabili per combattere la disinformazione, educando i cittadini al pensiero critico21.
La ricerca accademica è al servizio dei cittadini, primi finanziatori e primi stakeholder dei dati aperti con impatto sociale, spingendo al riuso e alla collaborazione in modo rapido e agile con imprese e società civile. Per diffondere questo tipo di pratiche e strumenti esistono piattaforme di contenuti e complessità diverse, rivolte al pubblico del web, particolarmente utili a dottorandi e ricercatori:
In una visione di ricerca sostenibile ed etica nascono partnership in cui i data steward possono essere protagonisti:
I cittadini possono accedere a un vasto repertorio di dati aperti, che possono essere compresi e riutilizzati se si dispone delle pubblicazioni che utilizzano o riusano i dati della ricerca. Per questo traguardo è fondamentale l’apertura delle pubblicazioni scientifiche.
Per la consultazione delle riviste ad accesso aperto è disponibile il portale DOAJ (Directory of open access journals), creato nel 2003 dalla Lund University, repertorio online di riviste di alta qualità ad accesso aperto e sottoposte a peer review.
La missione di DOAJ è quella di aumentare la visibilità, l’accessibilità, la reputazione, l’uso e l’impatto delle riviste di ricerca accademica di qualità, con revisione paritaria, ad accesso aperto a livello globale, indipendentemente dalla disciplina, dalla geografia o dalla lingua. DOAJ lavorerà con editori, editori e proprietari di riviste per aiutarli a comprendere il valore dell’editoria e degli standard delle migliori pratiche e ad applicarli alle proprie operazioni. DOAJ si impegna a essere indipendente al 100% e a mantenere tutti i suoi servizi e metadati liberi da usare o riutilizzare per tutti35.
Per l’accesso aperto a e-book scientifici con peer review è disponibile DOAB (Directory of open access books), con la possibilità di scaricare liberamente capitoli o monografie a testo integrale, tramite editori accademici in accesso aperto. Tra le discipline maggiormente presenti troviamo le scienze umane, giuridiche e sociali. Il portale è stato creato da Oapen (Open access publishing in European networks), attualmente gestito con OpenEdition, CNRS (Centre national de la recherche scientifique) e Aix-Marseille Université.
L'obiettivo principale di DOAB è aumentare la rilevabilità dei libri Open Access. Gli editori accademici sono invitati a fornire a DOAB i metadati dei loro libri Open Access. I metadati saranno raccolti per massimizzare la diffusione, la visibilità e l’impatto. Gli aggregatori possono integrare i record nei loro servizi commerciali e le biblioteche possono integrare la directory nei loro cataloghi online, aiutando studiosi e studenti a scoprire i libri. La directory è aperta a tutti gli editori che pubblicano libri accademici sottoposti a peer review in Open Access e devono contenere il maggior numero possibile di libri, a condizione che tali pubblicazioni siano in Open Access e soddisfino gli standard accademici36.
Alla base della reperibilità dei dati vi è l’interoperabilità e l’indicizzazione tramite tag specifici nel vocabolario strutturato Schema.org37, compatibile con le applicazioni IoT (internet of things), spingendo verso la standardizzazione dei metadati, che nel futuro potrà supportare algoritmi AI (intelligenza artificiale). La rete offre strumenti di ricerca gratuiti come Google dataset search38, che consente lo scarico di serie storiche aperte e condivise.
Il cittadino avrà diversi gradi di fruibilità del dato online, come misurabile nella classificazione ideata da Tim Berners-Lee39, inventore del protocollo HTTP del World wide web, promotore dei linked data. Il grado di apertura dei dati è valutabile in cinque livelli in scala crescente (come per le strutture ricettive o le piattaforme di acquisto online) con diversi benefici strutturati dall’Open Data Institute40.
Se il cittadino può visionare, stampare o copiare uno o più dati, disponibili con licenza aperta41, questi ottengono una stella di gradimento.
Per raggiungere la seconda stella i dati devono essere strutturati tramite app o software proprietari chiusi, come Microsoft Excel.
La terza stella è disponibile solo se i dati sono scaricabili in formato CSV (comma-separated value), aperto non proprietario.
Diversamente, il formato URI (uniform resource identifier) consente la tracciabilità universale e univoca dei dati, valutati con quattro stelle per la fruibilità condivisa in ogni ambiente connesso al web. Un esempio di questa codifica è RDF (resource description framework), che è alla base dell’interoperabilità tra applicazioni, consentendo il passaggio al livello massimo.
La valutazione massima di cinque stelle è attribuita ai linked open data connessi con altre serie di dati esterni, consentendo l’interoperabilità simultanea di dati correlati congiunti e dialogando con lo stesso schema strutturato.
Il progetto dati.gov nasce con l’obiettivo di divulgare la cultura dei dati aperti, accrescere la trasparenza della Pubblica amministrazione. Il portale è gestito e sviluppato dall’AgID (Agenzia per l’Italia digitale) all’interno delle strategie di open government, articolate in venti azioni42, in parte finalizzate allo sviluppo inclusivo e sostenibile, all’interoperabilità e allo scambio dei dati pubblici con gli stakeholder.
Nel 2012 viene divulgato il portale Open data UE43 per condividere i dati dei paesi e delle istituzioni europee nel rispetto delle normative nazionali ed europee, per consentirne il riutilizzo libero e gratuito da parte della comunità internet. In Italia Dati open44 indicizza fonti di dati esterne per convertirli in formato RDF, con cui è possibile interagire a livello di linked open data per consentire un accesso uniforme a dati in tabelle, grafici o mappe. UNdata45 è stato lanciato nel 2005 nell’ambito di un progetto denominato Statistics as a public good (Statistica come bene pubblico) con l’obiettivo di fornire un accesso gratuito alle statistiche globali, di alfabetizzare alla statistica gli utenti del web. Il Fondo monetario internazionale (FMI) offre accesso alle statistiche prodotte tramite il portale IMF Data Portal46, unitamente a strumenti statistici grafici, per favorire l’analisi dei dati personalizzate. Uno strumento di monitoraggio finanziario è Sistema informativo sulle operazioni degli enti pubblici (Siope)47, dove il cittadino può tracciare incassi e pagamenti effettuati da tutte le amministrazioni pubbliche (enti, ministeri, comuni, regioni, municipi, atenei, ASL ecc.), tramite la sinergia tra la Ragioneria generale dello Stato, la Banca d’Italia e l’Istat. Dal 2015 Istat48 offre la piattaforma linked open data per accedere e navigare i dati interoperabili direttamente tramite il vocabolario RDF-data cube.
Negli ultimi anni sono nate iniziative che coinvolgono i cittadini come scienziati per coinvolgerli in sperimentazioni di dati con il fine di agevolare la diffusione della ricerca scientifica, la partecipazione e la comprensione della scienza e della tecnologia tra il pubblico in generale. Un esempio è Scistarter49, comunità online dedicata al miglioramento dell’esperienza scientifica dei cittadini con ricercatori e partner scientifici. Scistarter nasce presso l’University of Pennsylvania, nel 2014, in partnership con la School for the Future of Innovation in Society dell’Arizona State University, creando un sistema di gestione e identificazione degli utenti coinvolti attraverso piattaforme e discipline diverse.
Alcuni atenei e consorzi hanno sviluppato piattaforme ad hoc per condividere anche dataset, software e metodi di riproducibilità degli studi e delle ricerche nel rispetto dei principi FAIR e delle limitazioni della normativa europea GDPR (General data protection regulation).
Per i ricercatori i principali vantaggi dell’archiviazione dei dati della propria ricerca possono essere:
I ricercatori, come anche i cittadini, possono reperire dati da diversi repository interoperabili indicizzati nel Registry of research data repositories50 di DataCite, attivo dal 2012, finanziato dalla German Research Foundation51, in partnership con biblioteche accademiche ed editori.
Nei Paesi Bassi la Technische Universiteit Delft ha dato un ruolo centrale alla figura del data stewardin ogni facoltà, per supportare tecnicamente i ricercatori, tra cui si distinguono i data champion52. Si tratta di una comunità che consente un approccio disciplinare aperto ai cambiamenti sistemici in un’ottica di collaborazione con gli stakeholder accademici e della società civile.
Esistono diverse piattaforme che agevolano la diffusione e l’interoperabilità dei dati della ricerca; la più nota è Zenodo, scelta nel programma Horizon Europe dalla Commissione europea come una delle piattaforme per il deposito di dati e pubblicazioni.
La piattaforma Zenodo nasce nel 2013, gestita dal Conseil européen pour la recherche nucléaire (CERN)53 per OpenAIRE (Open Access Infrastructure for Research in Europe)54 per agevolare l’autoarchiviazione ai ricercatori che dispongano dei diritti di pubblicazione in open data. Una seconda piattaforma molto utilizzata per archiviare dati è Figshare, con la possibilità di caricare set di dati, tracciando gli autori tramite ORCID ID e le pubblicazioni tramite DOI, con statistiche di visualizzazione e di condivisione dai dataset. In ambito biomedico è molto utilizzata Dryad, per l’accesso gratuito dei dati pubblicati. Il caricamento dai dataset è a pagamento, per un costo per autore che parte da 80,00 USD, che include l’assegnazione del DOI, il monitoraggio delle citazioni dei propri lavori, limitati periodi di embargo per i loro dati nella fase di peer review. Come estensione del social network omonimo, Mendeley data consente la condivisione di dati aperti della ricerca. Il repository aperto e gratuito è nato nel 2015, con la finalità di incrementare l’esposizione delle pubblicazioni e monitorare l’utilizzo dei loro dati.
Anche la Harvard University ha creato un suo repository di dati di ricerca: Dataverse55, portale open source dell’Institute for Quantitative Social Science, per consentire il caricamento e la consultazione di dati di qualsiasi disciplina.
Ogni cittadino può iniziare a interessarsi dei dati della ricerca tramite Research Data Alliance56, organizzazione internazionale, i cui membri collaborano allo sviluppo di infrastrutture e attività, volti a ridurre gli ostacoli esistenti alla condivisione e allo scambio di dati, per accelerare l’innovazione derivante dai dati a livello mondiale.
Questa ricerca è frutto della stretta collaborazione con Annalisa Casino, presidente della cooperativa di servizi Eticae - Stewardship in action, specialista in gestione etica delle risorse per la certificazione internazionale SA 8000, cuore del progetto e cardine per la sostenibilità e responsabilità imprenditoriale. Per il successo nelle organizzazioni basate sull’apertura, la condivisione dei dati è frutto del potere di avviare, facilitare e coordinare in modo proattivo le collaborazioni in modo sistematico, sostenibile e responsabile.
Il mondo delle biblioteche, utilizzando la scienza aperta come leva per lo sviluppo sostenibile, nel prossimo futuro può coinvolgere realtà come l’AIB, la Rete delle università per lo sviluppo sostenibile (RUS), l’IFLA e l’ASVIS (Alleanza italiana per lo sviluppo sostenibile), per proporre al Social Accountability International (SAI) nuove basi per una nuova certificazione di stewardship basata su requisiti tecnici, enfatizzando come i dati aperti e condivisi possano favorire il perseguimento all’interno dell’Agenda 2030 per i seguenti traguardi:
Questo processo di certificazione nel tempo potrebbe realizzare un sistema di monitoraggio che consideri non solo la tecnologia utilizzata, ma anche i processi e i contenuti interoperabili per l’effettiva stewardship dei dati, per l’accesso aperto da parte di cittadini e imprese.
Il bibliotecario, con adeguate competenze, potrebbe contribuire a facilitare e supportare nuove collaborazioni, tra cittadini e mondo produttivo, basate sulla disponibilità di informazioni in tempo reale, con elevati livelli di interoperabilità, reperibili liberamente in rete.
Questo approccio collaborativo64 può generare sinergie e interazioni nuove, creando partnership tra settore privato e dati della ricerca, condividendo metodologie, piattaforme e strumenti che permettano una condivisione produttiva e responsabile dei dati.
La data stewardship viene definita come: «l’insieme delle attività per preservare e implementare il contenuto informativo, l’accessibilità e l’usabilità dei dati. Questa concezione della ricerca enfatizza le pratiche e le funzioni volte a creare una supervisione adatta a garantire la qualità e l’uso coerente del prodotto e/o per fornire informazioni a valore aggiunto»65.
Il ruolo del data steward è trino: principalmente collaborativo con gli stakeholder, in secondo luogo è protettivo dei dati sensibili, in ultima istanza proattivo verso potenziali interazioni e sviluppi legati ai traguardi raggiungibili in base al campo di azione.
Ultima consultazione siti web: 24 settembre 2020.