Uno sguardo sul futuro semantico dell'universo bibliografico

di Iryna Solodovnik

«It's critical for Libraries to begin preparations
to become full participants in the world of Linked Data»1.

Dal Web semantico all'elaborazione di nuove strategie comunicative per l'universo bibliografico

Il termine Semantic Web è stato coniato nel 2001 da Tim Berners-Lee2 per definire l'estensione del Web attuale, attribuendone la capacità di comprendere la semantica dei documenti digitali in rete e, in fase di ricerca, di interagire con l'utente nelle operazioni sofisticate di scoperta ed estrazione dei contenuti, nonché di elaborazione di nuovi set di risorse di conoscenza3.
L'idea del Web semantico nasce semplicemente dall'ampliamento dell'idea di utilizzare schemi di metadati (le informazioni relative ai dati, attraverso le quali è possibile ricavare informazioni sulla risorsa a cui sono associate) per descrivere domini di informazione, mappandone i dati rispetto a classi o concetti. «Un punto di forza principale del Web semantico è sempre stata l'espressione, sul Web, della grande quantità di informazioni del database relazionale formulate in una modalità processabile da una macchina. Il formato di serializzazione RDF [...] è un formato funzionale ad esprimere le informazioni di database relazionale»4. In questo modo si può disporre di strutture in grado di descrivere e automatizzare i collegamenti esistenti fra i dati, che nel Web semantico sono composti di tre livelli fondamentali. Al livello più basso abbiamo i dati, i metadati riportano questi dati ai concetti di uno schema, nello schema (spesso chiamato ontologia) si esprimono le relazioni fra concetti, che diventano classi di dati coinvolte nella strutturazione della conoscenza di una certa realtà (processi, domini di informazione)5. Il genere più tipico di ontologia per il Web è rappresentato da una tassonomia che definisce le classi di oggetti e le relazioni tra loro, e da una serie di regole di inferenza.
Le singole applicazioni del Web semantico possono operare processi di inferenza utilizzando specifici vocabolari definiti con i linguaggi formali e semi-formali comprensibili dai computer, interrogando così la semantica dei dati pubblicati sul Web.
In questo contesto, si aprono preziose opportunità per lo sviluppo e l'utilizzo di una nuova generazione di formati di metadati, di tecnologie per le biblioteche digitali e per la generazione di dati bibliografici di alta qualità sfruttando le tecnologie come Linked Data - «a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the Semantic Web using URIs and RDF»6 - atte a connettere i dati web tra di loro e con diversi schemi di dati di autorità pubblicati, arricchiti e validati sul Web in modo partecipato e condivisibile da diverse comunità di utenti. «Nell'universo bibliografico c'è un chiaro cambiamento di paradigma da formati record fissi alle ricombinabili dichiarazioni sui metadati. Le istituzioni e i sistemi bibliotecari che implementano archivi di dati bibliografici e relativi servizi dovranno necessariamente prevedere processi e strategie di fornitura dati compatibili con il framework Linked Data e di licenze adeguate»7.

Tecnologie e soluzioni del Web semantico

Le tecnologie più rilevanti del Web semantico, definiti dal World Wide Web Consortium (W3C) sono:
1) XML (eXtensible Markup Language), una sintassi elementare per strutturare il contenuto dei documenti digitali. Attualmente, nelle tecnologie del Web semantico, XML non è una componente necessaria, considerando l'esistenza di una sintassi alternativa come Turtle (Terse RDF Triple Language), uno standard de facto per la serializzazione dei grafi RDF.
2) XML Schema, un linguaggio di descrizione del contenuto XML, il cui scopo è delineare quali elementi sono permessi, quali tipi di dati sono associati ad essi e quale relazione gerarchica hanno fra loro gli elementi contenuti in un file XML.
3) URIs (Uniform Resource Identifiers), indirizzi/identificatori univoci di risorse sul Web. URIs possono esprimersi tramite URN, DOI, URL accompagnati dal prefisso HTTP in modo che gli oggetti possano essere individuati da persone e da user agent sul Web.
4) RDF (Resource Description Framework), una sintassi formale di base per la codifica, lo scambio e il riutilizzo di metadati strutturati che possono descrivere la semantica di una risorsa, sia di quella reperibile sul Web (una pagina HTML, un documento XML o parte di esso), sia di quella che non si trova direttamente (un libro, un quadro). L'utilizzo di RDF per la descrizione semantica delle risorse offre, ovviamente, numerosi benefici in molti settori del Web: si potrebbero sviluppare diverse connessioni semantiche per aggregare i dati correlati, si potrebbero lanciare motori di ricerca più efficienti in grado di basare la ricerca non solo sulle occorrenze di parole contenute nei documenti ma anche in base alla caratterizzazione semantica dei documenti stessi, si potrebbero realizzare agenti software per il filtraggio dei contenuti di una risorsa in funzione di determinati criteri semantici impostati dall'utente.

RDF si esprime attraverso due componenti: RDF Model and Syntax8 e RDF Schema (RDFS o RDF Vocabulary Description Language)9. Mentre la prima componente definisce il modello dei dati specificato attraverso la sintassi (RDF/XML, N3, Turtle, RDFa) per descrivere le risorse, la seconda permette di definire il significato e le caratteristiche delle proprietà e delle relazioni che esistono tra le risorse descritte dalla prima componente. RDF Data Model è basato su uno statement costituito da una tripla del tipo soggetto (una risorsa descritta mediante RDF), predicato (una proprietà, un attributo, una relazione definiti tra risorsa e valore tramite RDF Schema) e oggetto (un valore della proprietà) accompagnati, nella maggior parte di casi, da URIs che puntano ad altre risorse, consentendo cosi l'interoperabilità tra applicazioni che scambiano informazioni sul Web. La triplicazione automatica dei dati secondo l'articolazione soggetto-predicato-oggetto - ad esempio, la pagina http://www.w3.org/DesignIssues/LinkedData.html è scritta dall'autore Tim Berns Lee - è strettamente correlata al nostro modo di pensare e di costruire concetti (figura 1):


Figura 1. L'esempio di componenti di uno statement RDF

L'oggetto (Tim Berns Lee) dello statement rappresentato in figura 1, a sua volta, può essere un soggetto (risorsa) per aprire possibili percorsi di approfondimento sulla proprietà della risorsa. In questa prospettiva, dallo statement emerge un grafo RDF di conoscenza, rappresentato da un insieme di nodi interconnessi da URIs (ove è possibile) che identificano le loro proprietà (figura 2).


Figura 2. L'esempio del grafo formato da triple RDF basato sulla scheda del catalogo10.

La tecnologia RDFS rappresenta un linguaggio ontologico semplice11, che consente di creare una sintassi per definire classi e proprietà per interpretare la semantica delle risorse. In un contesto RDF, le ontologie sono i vocabolari (definizioni di classi, istanze, proprietà) che catturano le strutture di dati di grafi RDF collegati. Nonostante l'esistenza di molti vocabolari RDF di dominio pubblico, che possono essere facilmente riutilizzati se coincidono con la semantica del dominio target, molti domini applicativi richiedono ontologie specifiche che possono riflettere meglio la semantica di dati e relazioni. Riconoscendo, però, i limiti di espressività di RDF e RDFS - in quanto RDF consente unicamente di indicare predicati binari (valore-attributo), e RDFS consente solo di stabilire gerarchie di classi e proprietà e di imporre vincoli per dominio e codominio - il W3C ha definito il Web Ontology Language (OWL).
5) Il linguaggio OWL12 permette di rappresentare esplicitamente il significato e la semantica di dati mediante vocabolari (ontologie) web formali. OWL esprime non solo proprietà (properties), classi (classes), istanze delle classi (individuals) e relazioni (di disgiunzione, di cardinalità, di uguaglianza) tra le classi, ma anche esporta tale conoscenza a diverse applicazioni, contribuendo maggiormente alla loro interoperabilità. L'espressività di OWL è costituita da tre sottolinguaggi: OWL Lite, OWL DL (Description Logic), OWL Full, ciascuno dei quali riproduce un'estensione del suo modello precursore più semplice (non viceversa). OWL Lite rappresenta un percorso di migrazione più rapida per thesauri e altre tassonomie gerarchiche e sistemi inferenziali, supportando, però, solo i valori di cardinalità a zero o uno, ed escludendo alcuni costrutti che esprimono relazioni tra classi (ad esempio disgiunzione, unione, istanziazione). OWL DL è abbastanza espressivo per trattare tutti i costrutti OWL, assegnando, però, solo alcuni vincoli sul loro uso (ad esempio una classe può essere sottoclasse di un'altra classe, ma non un'istanza di una classe; non si possono esprimere restrizioni di cardinalità per le proprietà transitive). OWL Full rende la massima espressività e la libertà sintattica dei costrutti RDFS, ma è difficilmente implementabile.
6) La tecnologia Simple Knowledge Organization System (SKOS)13, basata su RDF e RDFS, che supporta la rappresentazione e agevola la pubblicazione dei sistemi per l'organizzazione della conoscenza (KOS, Knowledge Organisation Systems) quali thesauri, schemi di classificazione, soggettari, schemi di intestazione per soggetto, e altri vocabolari controllati strutturati nel contesto del Web semantico.
7) SPARQL (Simple Protocol and RDF Query Language)14, un linguaggio di interrogazione dei grafi e sottografi RDF, il cui output sarà l'estrazione delle informazioni dalle basi di conoscenza distribuite sul Web.

Le tecnologie appena descritte rappresentano strati sovrapposti di linguaggi, ognuno dei quali usa o estende gli strati precedenti. Il collocamento di queste tecnologie può essere osservato nella figura 3.


Figura 3. Le tecnologie del Web semantico (Semantic Web Layer-Cake Diagram e Semantic Web Stack)15.

Fino al livello delle ontologie (metadati strutturati secondo un ordine logico e relazionati attraverso i concetti di un dominio di conoscenza) non vi è inferenza, ma solo rappresentazione della conoscenza. Sopra questo livello si colloca il livello logico che, tramite certi linguaggi (come SWRL, RuleML) e ragionamenti inferenziali automatici, estrae dalle asserzioni (statements) web una nuova conoscenza (machine understandable), che a sua volta sarà automaticamente integrata e riutilizzata dalle applicazioni. Inoltre, per raggiungere la piena potenzialità, le informazioni del Web semantico devono essere approvate (proof) e, di conseguenza, affidabili (trusted).
Uno dei problemi fondamentali del Web semantico è quello di rendere disponibili, integrabili e interoperabili le varie tipologie di dati sul Web. Tecnicamente, questo obiettivo può essere raggiunto attraverso opportune tecnologie capaci di operare la conversione da diversi formati di dati e database in RDF16, o di eseguire un markup RDF automatizzato dei siti (ad esempio attraverso le tecnologie POWDER, RDFa GRDDL, R2RML, RIF, Drupal7).
Tra i maggiori servizi che si prestano alla trasformazione dei dati strutturati in formati RDF/OWL possono essere elencati: Web services links & resources, SemWev, Beckett, SIMILE (RDF crosswalks), Semantic Bank, D2R Server (per l'esposizione di database relazionali in RDF). Infine, i sevizi di tagging semantico API Application Programming Interface: «un modo per i programmi di comunicare tra loro. Si può comprendere nei termini di come un programmatore invia istruzioni tra programmi diversi»)17 come, ad esempio, OpenCalais e Zemanta sono utili per trasformare blocchi di testi non strutturati in entità principali, topics, relazioni, e per eseguire l'estrazione di keywords, tagging automatico e la disambiguazione di entità e concetti, che possono fungere da output in RDF.

Al fine di sviluppare servizi e applicazioni web semanticamente interoperabili a livello globale, occorre lavorare non solo in direzione dell'armonizzazione di strutture, ma anche di apertura verso i formati dei dati18 e di uso di una terminologia precisa, specifica e condivisa (coinvolgendo attivamente i meccanismi dell'authority control 19che curano la qualità degli indici delle registrazioni) impiegando i dataset dei dati di autorità pubblicati in LOD Cloud, nonché le tecnologie SKOS20, sia per evitare ambiguità di significati dei metadati sia per contribuire all'arricchimento semantico dei loro valori. Questo, ovviamente, influirà in modo positivo anche in fase di definizione finale degli opportuni punti di accesso attraverso SPARQL Query Language.

Linked Data e altri meccanismi del Web semantico con la loro proiezione sull'universo bibliografico

Il termine Linked Data (LD) è stato coniato da Tim Berners-Lee nel 200621 ed è considerato il primo passo verso il vero e proprio Web semantico. LD ha l'obiettivo di strutturare e di connettere i dati sul Web utilizzando URIs e RDF. In particolare, la tecnologia LD è formata dai già citati meccanismi del Web semantico come RDF Data Model , HTTP, URIs per costruire espliciti link RDF tra le entità correlate nel loro significato provenienti dai diversi dataset (di domini pubblico e privato)22 e SPARQL Query per interrogare i costrutti di LD (figura 4).


Figura 4. Componenti della tecnologia Linked Data.

I dati provenienti sia dal dominio pubblico (dati aperti) che da quello privato (dati chiusi) possono essere ugualmente espressi come LD. In quanto al rapporto tra Linked Data, Open Data e Web semantico è interessante la definizione data da Paul Walk23:

  1. i dati possono essere aperti, ma non linkati,
  2. i dati possono essere linkati, ma non essere aperti,
  3. i dati che siano sia aperti sia linkati sono assolutamente realizzabili e riutilizzabili,
  4. il Web semantico può funzionare solo con dati che siano sia aperti sia linkati (più dati aperti sono linkati sul Web con un significato ben definito, più le applicazioni web saranno performanti).

L'obiettivo principale della tecnologia LD è quello di trasformare il Web attuale in un Web dei dati (Web of data)24, concepito come un database globale contenente i dati strutturati linkabili e in RDF e, quindi, interconnessi tra loro, come se fossero pagine web: «si costruisce così un reticolo di dati collegati (Linked Data, appunto) appartenenti a un dominio (che costituisce il contesto di partenza), collegato a sua volta ad altri set di dati esterni, ovvero fuori dal dominio, in un contesto di relazioni sempre più estese»25. Il Web dei dati renderebbe i dati web - forniti da diverse comunità di utenti (figura 5) - il più possibile integrabili, condivisibili e riusabili da diverse comunità di utenti, facilitando cosi l'accesso26 ai contenuti da parte di molteplici applicazioni che, a loro volta, avrebbero un nuovo livello di integrazione e di interoperabilità27, arricchendo ulteriormente la praticità della rete di collegamenti.

Figura 5. Connessione di diversi dataset nel Linked Open Data (LOD) Cloud Diagram28.
.
Il diagramma LOD29 Cloud è stato disegnato nel 2007 entro il progetto Linking Open Data della SWEO community30 per visualizzare graficamente la raccolta di dati Open (dati pubblicati sotto le licenze aperte come, ad esempio, la CC0, PDDL, ODC-BY e non condizionati da licenze commerciali o restrizioni d'uso) messi a disposizione sulla rete di Linked Data. Grazie al modello LOD, i dati (in continua crescita) interoperabili entrano a far parte di un immenso database aperto nel quale vengono pubblicati set di dati grezzi resi disponibili da istituzioni diverse che, però, possono essere liberamente incrociati da terze parti, con la possibilità di generare valore aggiunto per i servizi personalizzati, magari in base alle esigenze di una tipologia specifica di utenti. Mentre nel 2007 il diagramma LOD contava più di 2 miliardi di terne RDF provenienti da diversi database web (le prime e più aggiornate sono DBPedia e Freebase)31, nel 2012 il LOD Cloud ha raggiunto oltre di 52 miliardi di terne RDF.

La crescente richiesta da parte degli utenti di servizi che consentono un elevato grado di interconnessione tra i dati provenienti da diverse fonti, ha portato allo sviluppo collaborativo e alla promozione di soluzioni pratiche per LOD in diversi settori, puntando ai fattori di maggiore interesse come l'interoperabilità semantica, la migliore fruibilità, l'ampio riutilizzo dei dati e la loro libera, aperta32 disponibilità per l'utente. L'importanza di LOD viene ampiamente riconosciuta anche per l'annotazione semantica33, per l'arricchimento dei dataset web attraverso modelli concettuali e authority data resi disponibili attraverso RDF34, per l'implementazione di high-level web-scale services per la ricerca.
In questa prospettiva e con il taglio tematico per i dati bibliografici, è interessante prendere visione delle iniziative di Archives & Museums (LODLAM) Group, IFLA'S Semantic Web Special Interest Group, Library Linked Data Group, dei progetti come Learning Linked Data, Linked Open Vocabularies, nonché delle relazioni di alcuni eventi recenti come Global Interoperability and Linked Data in Libraries, 2nd Linked Open Data Conference35, e altri ancora.
Nonostante il costante sviluppo di numerose guide pratiche, di una diversità di progetti e di un ricco framework tecnologico per la pubblicazione di LD, mancano ancora i meccanismi di automated reasoning su quest'ultimi. Inoltre, una delle critiche più comuni della visione del Web semantico è che gli standard come RDF, OWL e SPARQL sono difficili da comprendere concettualmente ed estremamente complessi da implementare.

Tuttavia, fino ad oggi la propagazione e l'implementazione di tecnologie Linked Data e Open Data allo scopo di mettere sul Web insiemi di dati aperti e connessi in modo interoperabile ha coinvolto diverse istituzioni, tra cui: