I sistemi informativi di tutte le grandi aziende utilizzano sorgenti di dati diverse (spesso molte) ed eterogenee, sia interne che esterne all’organizzazione. All’interno di ciascuna azienda, ogni dato ha un significato ben preciso, e il significato di tutti questi dati compone il linguaggio di business dell’azienda stessa. Comprendere questo linguaggio è cruciale se si vuole non solo gestire in modo corretto il dato stesso ed estrarre valore dal patrimonio informativo dell’azienda, ma anche comunicare in modo efficace all’interno dell’aziende così come all’esterno, con i propri clienti.
Un modello per il linguaggio di business
Ci sono molti modi di descrivere questo linguaggio, ma uno dei più utili sono le ontologie. Letteralmente il termine ontologia significa lo “studio della conoscenza dell’essere e della realtà” (in altre parole, lo “studio delle cose”, o meglio, “del nome delle cose”). In un contesto informatico, una ontologia è un modello in grado di rappresentare, mediante l'uso di un linguaggio machine-readable, formale, e basato sulla logica matematica, gli aspetti rilevanti di un fenomeno o di un ambito di interesse. Quindi, un modello logico e fruibile dalle macchine per esprimere il dominio di business dell’azienda.
L’idea fondamentale dietro questo modello è piuttosto semplice, ma anche molto potente. Immaginiamo che tutte le informazioni gestite da un’azienda siano delle risorse, univocamente identificate, e che queste risorse siano raggruppate in classi di risorse. Ad esempio, libri, automobili, persone, contratti, etc. Queste classi avranno ciascuna delle particolari caratteristiche (il titolo o il codice ISBN di un libro, il codice fiscale di una persona, la cilindrata di un’automobile), oppure avranno dei particolari legami con altre risorse, che appartengono ad altre classi (il proprietario di un’automobile, l’autore di un libro). In una ontologia, queste caratteristiche sono attributi, e questi legami sono relazioni. Queste risorse o classi possono poi essere arricchite inoltre da dei metadati, ovvero “dati che descrivono altri dati”. Quindi etichette (magari in diverse lingue o secondo diversi standard), definizioni, descrizioni, etc.
Tutte insieme, queste classi, attributi, relazioni, risorse, e metadati compongono una ontologia, idealmente suddivise su tre livelli: il livello intensionale, dove sono rappresentati classi, attributi, e relazioni, il livello estensionale, cioè dei dati, che descrive quindi le risorse, e infine il livello dei metatati.
Nella sua accezione più “semplice”, una può costituire una sorta di business glossary di base, magari arricchito da relazioni di sussunzione (o sottoclasse) tra i concetti dell’ontologia, che ne determinano una struttura gerarchica (in questi casi a volte si usa il termine ontologia fondazionale). Una vera ontologia però non si limita a questo: contiene anche un insieme di regole, o assiomi, che descrivono come tutti queste entità interagiscono tra di loro (ogni persona ha uno ed un solo codice fiscale, un libro può avere più autori ma solo un codice ISBN). Questi assiomi, che possono raggiungere un livello di sofisticazione piuttosto elevato grazie all’espressività dei linguaggi ontologici, sono in effetti il cuore del modello, e rappresentano l’insieme di regole di business che definiscono il mondo in cui agisce l’azienda. In altre parole, una ontologia fornisce la semantica, ovvero il significato, del patrimonio informativo dell’azienda, rendendo quindi il linguaggio di business fruibile anche per le macchine.
Nell’ambito del Semantic Web, in cui le ontologie sono ormai il riferimento per la concettualizzazione di un dato dominio, il linguaggio standard per esprimere le ontologie è OWL (Ontology Web Language). OWL ha le sue radici teoriche nei linguaggi della famiglia delle Logiche Descrittive, viene (tipicamente) espresso in sintassi XML (ma non solo), ed è stato sviluppato come evoluzione di RDF e RDFS.
La semantica per la Data Governance
Come possono le ontologie potenziare i processi di gestione dei dati di una azienda? E in che modo si differenziano dai classici modelli di rappresentazione concettuale, quali ad esempio gli UML Class Diagrams o i diagrammi Entità-Relazione?
I vantaggi nell’utilizzare le ontologie sono molteplici. Innanzitutto, l’adozione di una ontologia per la rappresentazione esplicita del dominio di interesse di un’impresa permette di ricavare una descrizione formale del modello informativo dell’impresa stessa: per “formale” si intende con una semantica ben precisa, radicata nella logica matematica, a differenza di quello che avviene invece per i modelli di rappresentazione concettuale classica, per i quali questa semantica è più difficile da individuare.
Inoltre, l’uso delle ontologie nei sistemi informativi permette anche un approccio dichiarativo all’Information Integration, e, più in generale, alla Data Governance. Attraverso l’esplicitazione della rappresentazione del dominio, si acquista infatti riusabilità della conoscenza acquisita, cosa che invece non avviene quando lo schema globale è semplicemente una descrizione unificata delle sorgenti sottostanti. In quest’ottica, gioca un ruolo fondamentale la nozione di identificazione univoca delle risorse e delle entità.
La visione unificata, di alto livello, e astratta che fornisce una ontologia permettere poi di rompere le logiche application-centric di gestione dell’informazione dei sistemi informativi tradizionali, nei quali la semantica (operazionale) è conservata nelle applicazioni (le quali spesso sono le sole entità che sanno come usare i dati). In questi modelli a silos si riscontra spesso il paradosso di dover fortemente accoppiare i dati alle applicazioni che ne fanno uso, vanificando il contributo di decine d’anni di sviluppo delle tecnologie DBMS. L’ontologia permette invece di riprendere il controllo della semantica dei dati, e garantisce, diversamente dai modelli tradizionali della modellazione concettuale, che sono essenzialmente sfruttati a design-time per progettare i database e poi ignorati, un oggetto che non è compilato a run-time, ma interpretato direttamente. Si può immaginare quindi che l’ontologia sia il cervello che dirige il funzionamento del sistema informativo, e allo stesso tempo fornisce agli utenti del sistema un linguaggio comune di comunicazione e condivisione delle informazioni.
Infine, il consolidamento del modello dei dati in una ontologia e la sua condivisione anche verso l’esterno permette di produrre valore per le organizzazioni, sia in ambito pubblico che in ambito privato, promuovendo collaborazioni inter-organizzative o di integrazione tra diverse fonti di dati. Queste collaborazioni (o integrazioni) implicano interscambio di informazioni: esiste quindi uno schema concettuale latente che riguarda l’informazione stessa. La mancanza di esplicitazione di tale schema e di utilizzo dello stesso nella produzione può determinare un aumento dei costi della produzione stessa o, addirittura, il fallimento con perdite economiche che superano il costo della formulazione dello schema.