Il data lake virtuale rappresenta l'approccio tecnologico più avanzato e più efficace per gestire grandi quantità di dati, soprattutto se provenienti da fonti diverse di dati strutturati e destrutturati. In altre parole, il Virtual Data Lake è l'ideale per affrontare gli scenari presenti e, soprattutto, futuri della digital transformation senza stravolgere gli investimenti fatti dalle aziende negli ultimi decenni sulle piattaforme DSS. I Big Data, rappresentano una rivoluzione che fa sempre più leva su IoT, video analisi e cognitive services per ottimizzare, fuori e dentro l'impresa, processi, user experience e strategie omnicanale, grazie alla comprensione della realtà nei linguaggi e nei fenomeni in cui si manifesta, abilitando di fatto l’uso di tecnologie cognitive e nuove tipologie di strumenti di Augmented Analytics. Eppure, le aziende sono ancora molto restie ad adottare questo sistema.

Le ragioni sono molteplici: in primo luogo c'è l'idea – non infondata – che per gestire le tecnologie sottostanti al data lake occorrano competenze e risorse specifiche che esulano dalle logiche del business e che non tutte le organizzazioni posseggono. Chi dispone invece delle giuste conoscenze e skill sa bene che rimodulare l'architettura passando dal data warehouse tradizionale al data lake comporta spesso una trasformazione irreversibile o comunque un progetto molto complesso e oneroso, per affrontare il quale occorre essere davvero sicuri di quello che si sta facendo: si è disposti a cambiare paradigma mettendo in gioco modalità di data management che hanno un impatto significativo sulle operation? Inoltre, si pone il tema dei volumi di dati da raccogliere, conservare e analizzare: in una piccola o media impresa sono (e saranno) tali da giustificare un salto del genere?

Un approccio innovativo al data lake: la virtualizzazione

In realtà, contrariamente a quanto si tende a pensare, per diventare una data-driven company facendo leva sul data lake non è necessario disporre di grandi moli di dati: la differenza la fanno essenzialmente il modo in cui vengono gestiti i record già presenti nei sistemi aziendali e soprattutto il modo in cui li si integra con le informazioni che arrivano dall'esterno e che possono arricchire il patrimonio di conoscenza dell'organizzazione. È vero, d'altra parte, che utilizzando un approccio tradizionale al data lake bisogna ripensare completamente l'architettura IT, con significative ricadute su professionalità, regole e attività legate ai sistemi informativi. È con questa consapevolezza che Almawave ha elaborato una metodologia nuova per lo sviluppo di un'architettura che offra tutti i vantaggi del data lake senza implicarne gli oneri. Il concetto alla base dell'approccio di Almawave al data lake è la virtualizzazione e federazione dei dati attraverso il quale, in pratica, si è in grado di federare i data warehouse dell'azienda con nuove fonti, generando due grossi vantaggi: da una parte si evita di affrontare un upgrade tecnologico impegnativo e invasivo, dall'altra si ottiene un oggetto che per la sua conformazione è in grado di sostenere progettualità più business-driven che IT-driven. Questo approccio consente inoltre di associare una nuova modellazione dati di tipo ontologico, che permette di creare una base di conoscenza condivisa con tutta l’organizzazione dei clienti di Almawave, creando di fatto un linguaggio comune a utenti IT e Business.

Il sostrato tecnologico del data lake virtuale di Almawave

Il merito è del mix tecnologico alla base della digital platform realizzata da Almawave. Applicando a una piattaforma “big data” strumenti di virtualizzazione e federazione dei dati e algoritmi di data science, è possibile realizzare un modulo sovrastante il data warehouse (o a qualsiasi altro tipo di repository) che permette di rivoluzionare l'accesso a qualunque tipo di input, anche destrutturato, senza stravolgere l'architettura IT. Un vero e proprio data lake virtuale - implementabile in tempi rapidi - in grado di supportare qualsiasi tipo di attività di analisi, dalla business intelligence e reporting direzionale fino all’utilizzo di algoritmi di AI, senza la necessità di decuplicare i dati, che rappresenta la maggiore criticità quando si parla di data governance su operazioni di questo genere.

Data lake virtuale e NLP, un connubio vincente

Questo consente anche alle piccole organizzazioni di affrontare, per esempio, le sfide connesse alla necessità di ampliare il proprio patrimonio informativo attraverso l’uso di dati esterni senza necessariamente dover stravolgere la propria architettura dati e consentendo, quindi, attività di analisi su grandi volumi e grandi varietà di dati. Il data lake virtuale aiuta le imprese a standardizzare le informazioni provenienti da fonti diverse, richiedendo competenze basiche, come quelle SQL (Structured Query Language), che risultano assai più semplici da trovare sul mercato rispetto alle professionalità tipicamente richieste per gestire il data lake.

Ma non è tutto: le aziende chiedono una piattaforma che adoperi un linguaggio comprensibile tanto per il business quanto per l'IT; per questo motivo, sfruttando le enormi potenzialità della propria tecnologia Iride^®, Almawave mette al servizio del proprio data lake virtuale un potente strumento di modellazione dati basato su grafo ontologico che, attraverso l’utilizzo di motori di reasoning, è in grado di far emergere relazioni nascoste fra i dati utili per analitiche che sfruttano motori di Machine Learning e Deep Learning.

Come le imprese e la PA possono sfruttare la flessibilità del data lake virtuale

Si tratta quindi di un approccio estremamente innovativo al data lake, concepito per incontrare le esigenze delle imprese di qualsiasi dimensione e attive anche in comparti fortemente regolamentati, come la Pubblica Amministrazione, il mondo dei Trasporti e dei Servizi Finanziari (bancari e assicurativi). In ambito assicurativo, per esempio, il data lake virtuale rappresenta un ottimo compromesso per le aziende che hanno cominciato a raccogliere e trattare gli input provenienti dagli oggetti connessi e gli Open Data per costruire nuovi prodotti e servizi assicurativi: da una parte possono arricchire enormemente il patrimonio informativo con fonti diverse per personalizzare l'offerta, dall'altra non sono costrette a derogare sulla rigidità degli standard richiesti dagli enti regolatori rispetto all'invio di report sulla compliance.

Anche la PA, come tutti sanno, ha vincoli normativi piuttosto stringenti. E seppure – soprattutto sul piano degli enti locali – il tema della voluminosità dei dati non sia ancora prioritario, cresce il bisogno di rendere più agevole l'accesso alle informazioni internamente e verso cittadini e imprese, senza dover ricorrere a infrastrutture troppo complesse da implementare e da mantenere. Il data lake di Almawave è una valida risposta a questo tipo di sfida. Senza contare che, per le pubbliche amministrazioni come per qualsiasi tipo di impresa, grazie alla flessibilità e alla modularità garantite dalla virtualizzazione e dall'utilizzo di tecnologie open source, consente di sperimentare in tempi brevi e senza immobilizzazioni onerose use case che aiutano a valutarne l'effettiva efficacia.