luca
Esiste già un sistema open source per dati spaziali.

si potrebbe quindi sviluppare a partire da qui
ecco il link http://www.spatialytics.org/projects/geokettle/
potrebbe essere usato insieme con pentao (kettle per alfanumerici open source)
http://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+-+Java+API+Examples
per generare tramite Java delle API utili per definire webservices e microwebservices.
Attenzione però mi pare di capire che il sistema duplica i dati cioè la fase load non è virtuale, ma popola un nuovo DB.
Funzioni analoghe però possiamo ottenerle con Open Shift + Jboss avendo un set di dati virtuali e quindi da non riversare in un datawerhouse come nel caso precedente, cosa che comporterebbe una cache di storage di qualche terabite…. https://developers.openshift.com/jboss-xpaas/data-virtualization.html
E’ anche possibile provare a sviluppare un server ETL ex novo forse partendo da questa macchina virtuale pubblicata dall' università di PISA scaricabile http://www.disit.org/drupal/?q=node/6690
Infine la società informatica ha sviluppato un pacchetto dedicato di cui sarebbe necessario lo sviluppo https://www.informatica.com/content/dam/informatica-com/global/amer/us/collateral/solution-brief/dw-optimization_solution-brief_3269en.pdf ha lo svantaggio di non essere open source, tuttavia ho avuto modo di illustrare l’architettura ad Amedeo Muro, Major Account manager di quella società e mi ha fatto intendere che l’ intero pacchetto con la loro tecnologia si aggirerebbe intorno ai 100.000 euro, infrastruttura esclusa.
Qualche altro link può essere utile sui sistemi a containers che sono una emanazione di open staks https://www.openstack.org/.
Le architetture in giro sono due:
Doker che mi pare sia usato da Google
https://www.docker.com/what-docker
e Kubernetis sviluppato da REDHAT
https://www.redhat.com/it/topics/containers/what-is-kubernetes
il suo orchestratore è Jankins https://jenkins.io/
E' interessante il fatto che tutti i prodotti REDHAT sono in convenzione CONSIP (assistiti H24 per lo sviluppo)
Per il portale prenderei in considerazione Apache hadoop http://hadoop.apache.org/
e per le API https://hive.apache.org/
Infine per i big data il must è sicuramente hadoop se non lo conoscete troppo qui è illustrato bene http://www.html.it/pag/50111/introduzione-ad-hadoop/
altri link prossimamente su richiesta............