I dati sono l’oro del XXI secolo: attraverso i nostri dati paghiamo inconsciamente la maggior parte dei servizi sul web eppure, nonostante la comparsa dei banner per il consenso alla profilazione, tutt’ora siamo ancora lontani dal renderci appieno conto di quanto quelle informazioni su di noi siano preziose.

Ciò che potrebbe però stupire è che non tutti i dati su cui lavorano le macchine sono di origine “umana”, ma sempre di più sono creati artificialmente mediante algoritmi avanzatissimi; non solo, secondo un’analisi di Gartner, entro l’anno prossimo, il 2024, la maggior parte (60%) dei dati utilizzati in progetti AI sarà generato sinteticamente. Ma non sono solo i consulenti di Gartner ad interessarsi della questione, infatti l’European Data Protection Supervisor ha dedicato una task force proprio al tema dei dati sintetici e, infine, la rivista americana MIT Technology Review ha incluso questa tecnologia tra le 10 Top Technologies del 2022.
È proprio a partire da questa esigenza di dati generati artificialmente che nasce Clearbox AI, startup fondata nel 2019 ed incubata presso il Politecnico di Torino. In particolare questa azienda si rivolge ad altre aziende che si trovino in difficoltà a sviluppare un determinato progetto a causa dei dati che spesso sono sensibili e difficili da gestire a livello di privacy o la cui qualità non è sufficiente per garantire risultati.
Attraverso uno speciale algoritmo Clearbox AI è in grado di fornire dati fittizi che mantengono le proprietà statistiche e le distribuzioni dei dati originali, risultando dunque egualmente realistici. La loro tecnologia proprietaria, basata su modelli generativi, è inoltre agnostica e può quindi essere applicata a qualunque settore, tra quelli sperimentati spiccano diverse collaborazioni in ambito finanziario, sanitario, retail, energetico e della mobilità.
È possibile già attualmente generare dati sintetici quante volte si vuole, da dati di input puliti o grezzi. Attualmente, il prodotto supporta dati tabellari, database relazionali, serie temporali, dati sequenziali e dati di localizzazione. È possibile clonare l’intero set di dati o selezionare un segmento di dati specifico da incrementare. Sono inoltre stati implementati una serie di test statistici automatici per valutare e confrontare l’utilità dei dati e l’analisi del profilo di protezione della privacy del nuovo set di dati sintetici, utile per valutare il rischio di re-identificazione e tutti gli aspetti rilevanti della protezione dei dati prima di condividere un dataset generato da dati sensibili.
Ovviamente Clearbox AI Enterprise Solution si integra perfettamente con i principali database relazionali e data warehouse. I connettori di dati semplificano l’interfacciamento con le fonti di dati e la generazione di dati sintetici senza compromettere le informazioni sensibili memorizzate nel mondo reale.
Alla guida dell’azienda Shalini Kurapati che si è distinta grazie a questo progetto e nel 2022 è stata inserita dalla Commissione Europea nella lista delle 50 migliori startup innovative guidate da donne in Europa inserite nel programma “Women TechEU”,   rappresentando il Politecnico di Torino e quindi la nostra città. Inquadrando il QR sottostante potrete ascoltarla mentre spiega più dettagliatamente che cosa siano i dati sintetici.
Un esempio concreto di utilizzo di Clearbox AI è stato, in partnership con BearingPoint, società multinazionale indipendente di consulenza gestionale e tecnologica, nell’ambito delle frodi bancarie. Non essendo infatti questo genere di truffe particolarmente comune, i dati su cui un IA potrebbe lavorare sono fortemente limitati ed insufficienti, dunque attraverso la generazione di nuove casistiche “inventate” da una macchina, ma pienamente realistiche, è possibile addestrare più che a sufficienza l’intelligenza artificiale che sarà chiamata a sventare questi crimini informatici.