Visione panoramica

Credo sia importante anche e soprattutto per i colleghi che non hanno partecipato alla stesura del progetto leggere direttamente da chi lo ha messo giù e se lo è visto approvare cosa avevamo in mente, provo qui a dare il mio contributo, ma sarebbe altrettanto importante se anche Antonello Fatello e Susanna Le Pera postassero il loro, fosse anche solo per integrare o correggere quanto scrivo.

Comincerò col dire cosa non è il progetto Formaromae:

non è il solito portale internet che pubblica dati sui beni culturali romaninon è una banca dati nuova che assorbe banche dati precedenti (SIMART, Carta dell' agro ecc....)
E' invece un approccio nuovo al problema della frammentazione delle informazioni e delle competenze nella Sovraintendenza e in generale nel campo dei beni culturali territoriali.

Vogliamo utilizzare tecniche di intelligenza artificiale per comporre un nuovo quadro virtuale delle informazioni utile agli scopi più diversi (divulgazione, turismo, supporto alle decisioni, fruizione ecc..).

Il concetto di datalake è abbastanza semplice e intuitivo ed è il punto di partenza, ovvero le informazioni che abbiamo (anche sul medesimo oggetto) sono sparse in contenitori diversi e anche lo stesso oggetto è visto con ottiche diverse a seconda di chi lo gestisce oppure deve restauralo, oppure valorizzarlo o ancora valutare la compatibilità di opere o manifestazioni nelle sue vicinanze.

Non vogliamo affatto cambiare questo stato di cose perchè partiamo dal presupposto che ognuno sappia fare bene quello che fa, quindi chi usa SIMART fa la catalogazione al meglio e ha uno strumento funzionale a quello scopo, chi invece da pareri sulle OSP sicuramente utilizza la carta per la qualità o la carta dell' agro, chi si occupa di Bolkestin ha il suo GIS di riferimento, chi lavora nei musei ha certamente i suoi inventari, chi opera sul territorio i suoi archivi.

Non vogliamo quindi cambiare il modo di lavorare di nessuno e non vogliamo nemmeno acquisire copia integrale del loro lavoro, sarebbe uno spreco replicare la gran massa di dati, duplicare il nostro lago.

Vogliamo invece creare un robot intelligente che vada a pescare nel lago per noi, selezioni il pesce, lo pulisca ce lo cucini e ce lo serva.

Perdonate la metafora ma è proprio quello che dovrebbe fare il sistema formaromae ed essendo una intelligenza artificiale dobbiamo istruirlo.

Dobbiamo costruirgli un "libro di testo" cioè un insieme di regole per fare le tre operazioni:

pescare
pulire
cucinare
Saranno diverse le tecniche di pesca per ciascuna banca dati da cui attingerà (simart usa oracle, altri usano postgres, altri ancora XML ecc...), ma una volta pescato il risultato dovrà essere ripulito, rimandando indietro tutti i dati che per qualche motivo dovessero essere inutilizzabili e infine cucinato e presentato come una nuova pietanza di cui però conosciamo gli ingredienti.

I colleghi informatici mi perdoneranno il linguaggio tuttaltro che tecnico, ma quello che ho descritto in gergo si chiama ETL con un pizzico di AI e di BI, quindi tutte cose ormai ampiamente fattibili e che sappiamo come fare, ma che non abbiamo mai provato a fare con Beni culturali.

Vorrei farvi riflettere sul fatto che il risultato non sarà mai uguale a se stesso perchè anche in cucina usando la stessa ricetta il sapore non può essere mai identico perchè dipende dagli ingredienti. Quindi la stessa ricerca fatta a distanza di una settimana potrebbe darci un risultato diverso, l' importante è che sia sempre aggiornata e rappresenti quanto di meglio è possibile pescare nel nostro lago di informazioni.

Abbandonate quindi le pretese di esaustività in favore di una maggiore coerenza e usabilità del dato. Certamente qualche operazione si può fare a monte nelle banche dati (si può fare in modo che il pesce del lago sia allevato e di buona qualità) e qualche altra si può fare a valle ripulendo e integrando dati carenti, eliminando doppioni e ambiguità, scegliendo prioritariamente i dati da banche forse meno estese, ma più precise e dettagliate, e si può perfino dare un feed back ai gestori delle banche dati segnalandogli quali record il sistema ha scartato perchè imprecisi, ambigui ecc e dove possono trovare dati migliori sullo stesso oggetto.

Al momento tutto questo è poco più di un' idea che insieme dobbiamo tradurre in un preciso programma di apprendimento per il nostro robot, perchè il bello è che il robot già esiste e se ci muoviamo nel campo dell' open source è anche gratuito, dobbiamo solo assemblarlo (con i pezzi che riterremo necessari per le sue funzioni) e scrivere regole e ricette che dovrà applicare utilizzando possibilmente tecniche di machine learning cioè facendogli imparare dall' esperienza.

A me sembra una sfida bellissima e stimolante.
In informatichese quanto scritto finora si traduce nello schema qui sotto.

Un’ ultima nota: una volta creato il nostro robot possiamo, con poche modifiche e istruzioni mandarlo a pescare ovunque, anche nelle banche dati di altri enti o comuni, l’ importante è che abbia i permessi.

luca