Motore di validazione

Componentistica · 1 messaggi · primo messaggio 19/02/2018 16:48

luca

19/02/2018 16:48 · messaggio #10

In questo post provo a immaginare come sia possibile traferire attraverso il DB dei metadati "intelligenza" al sistema.
La fase in cui dovrebbe operare è quella intermedia tra l' extract e il translate.
Nel prelevare un dato nel datalake possono verificarsi i seguenti casi:

  • l' informazione è presente solo in una base dati
  • l' informazione è presente in più basi dati

Nel primo caso è impossibile vagliare automaticamente la sua correttezza e si può solo rilevare se l' informazione presente rispetta il risultato atteso (anche sintatticamente) o il campo non è valorizzato. Una griglia a monte farà escludere l' intero record se l' informazione è di tipo critico, dovrebbe quindi essere generato un messaggio al gestore dei dati per segnalare l' impossibilità di utilizzarlo e segnalare i discostamenti dal risultato atteso.
Nel secondo caso le informazioni vanno tra loro confrontate e integrate, dopo un primo controllo sintattico il sistema dovrà operare classificandole secondo una scala di attendibilità che porterà allo scarto del dato incongruo oppure deciderà di integrare le due informazioni segnalando (con colori diversi?) la fonte.
In entrambi i casi dovrà essere generato un report da inviare ai gestori dei dati.
Il tutto andrebbe integrato in un processo di machine learning che "ricordando" le scelte fatte ottimizzi il processo delle scelte future.
Il processo dovrà agire sia su singoli campi che complessivamente su interi record.
Una volta vagliati i dati si potrà procedere al load e fornire gli output.

← Torna all’indice