Joyce, un datahub OpenSource scalabile per Kubernetes

Se siete fra quanti nel gestire dati fronteggiano costantemente la necessità di far coincidere fonti diverse in maniera centralizzata, troverete interessante il progetto open-source Joyce, un Data Hub Cloud Native basato su Kafka e MongoDB.

Rilasciato lo scorso 15 luglio da Sourcesense, Joyce può acquisire dati da una qualsiasi fonte attraverso i connettori di Kafka Connect, arricchirne il contenuto e generare automaticamente API REST per poterli interrogare.

Gli scenari di utilizzo sono molteplici.

Dalla realizzazione di un servizio che accede a dati che ancora non si possiedono o che non si possono interrogare direttamente fino a situazioni in cui i propri dati sorgente hanno bisogno di una pre-elaborazione per essere utilizzabili.

Dalla necessità di acquisire dati da più fonti in modo che restituiscano dati omogenei con formati diversi fino alla possibilità di realizzare un layer di API comune a tutte le applicazioni ed i servizi a disposizione, per distribuire i contenuti in più formati per diversi servizi/scopi/dispositivi.

I compiti svolti da Joyce sono quindi essenzialmente quattro:

  1. Acquisire contenuti prodotti da fonti diverse.
  2. Trasformare il contenuto grezzo con una DSL (uno schema).
  3. Registrare il dato in un contenitore (un sink).
  4. Rendere disponibile il dato mediante una API REST automatica.

Joyce è un’applicazione cloud native, funziona all’interno di ambienti Kubernetes e nasce quindi per essere altamente scalabile.

La versione open-source del progetto sarà upstream di riferimento per l’Enterprise Edition.

Da sempre appassionato del mondo open-source e di Linux nel 2009 ho fondato il portale Mia Mamma Usa Linux! per condividere articoli, notizie ed in generale tutto quello che riguarda il mondo del pinguino, con particolare attenzione alle tematiche di interoperabilità, HA e cloud.
E, sì, mia mamma usa Linux dal 2009.

Tags: , , ,