Il tentativo di Google Cloud di unificarli

La federazione delle query è stata solo un primo passaggio. Google Cloud ha annunciato il 6 aprile l’anteprima di BigLake. Il servizio è pubblicizzato come un modo per unificare data lake e warehouse su più cloud. GCP diventerebbe quindi la console centrale per l’accesso e la protezione di questi ambienti.

“BigLake porta l’esperienza decennale che abbiamo con BigQuery in altri data lake”, ha affermato Gerrit Kazmaier, vicepresidente e direttore generale, database, analisi e Looker di Google Cloud in una conferenza stampa. . “Ciò consente di combinare prestazioni, governance, livello di accesso e sicurezza con formati di file aperti”, si vanta.

Sudhir Hasbe, direttore senior della gestione dei prodotti di Google Cloud, inquadra ulteriormente il problema. “Storicamente, tutti i dati venivano archiviati in diversi sistemi di archiviazione, alcuni in magazzini, che offrivano capacità diverse e creavano silos di dati all’interno delle organizzazioni”, afferma.

Questi silos basati su varie tecnologie non beneficiano dello stesso livello di governance, secondo il funzionario. Un data warehouse può fornire un controllo degli accessi a grana fine consentendo una governance coerente, ma un data lake, che contiene volumi di dati molto maggiori, non dispone necessariamente di questo meccanismo.

“E man mano che le organizzazioni diventano sempre più consapevoli delle politiche di governance [à déployer]dobbiamo andare avanti e avere una certa coerenza tra queste diverse piattaforme e strategie”, afferma Sudhir Ashbe.

BigLake: un motore di archiviazione open source “unificato”.

Le capacità di BigLake rivendicate da GCP.

Non dice esattamente cosa fa BigLake. Questo prodotto è effettivamente un motore di archiviazione “unificato” confinante con BigQuery che dovrebbe semplificare l’accesso e la governance delle tabelle in formati aperti su più servizi cloud. Questi dati devono risiedere nei servizi di object storage dei tre colossi del cloud, ovvero Google Cloud Storage, Amazon S3 e Azure Data Lake Storage Gen2. La promessa di GCP al cliente è che possono sfruttare la propria infrastruttura cloud esistente.

Tuttavia, per raggiungere il livello di governance desiderato, BigLake introduce nuove tabelle. È ancora possibile utilizzare “tabelle esterne”, che richiedono l’archiviazione dei metadati e degli schemi di questi asset in BigQuery, ma GCP non garantisce la governance e la coerenza dei dati associati. D’altra parte, un comando semplifica la conversione di tabelle esterne in tabelle BigLake. Questo meccanismo ricorda le Tabelle governate introdotte in Lake Formation da AWS.

Il fornitore ha infatti associato la creazione delle tabelle BigLake alla configurazione dei diritti di accesso da Google IAM. Pertanto, ci sono tre ruoli: l’amministratore del data lake che gestisce le regole IAM per gli oggetti e i bucket di Cloud Storage, l’amministratore del data warehouse che crea, elimina e aggiorna le tabelle BigLake (l’equivalente di “un amministratore BigQuery) e l’analista dei dati, che può leggere e interrogare i dati in determinate condizioni. Il controllo dell’accesso viene eseguito a livello di riga e colonna tramite etichette da modificare dall’editor dello schema della tabella BigLake. Le regole di accesso vengono applicate tramite le API BigQuery. Per i clienti che desiderano governare i dati in modo coerente tra data lake, data warehouse e data mart, GCP integrerà Dataplex, il suo servizio di gestione unificata dei dati (e gestione della mesh di dati) con BigLake.

Una tabella BigLake si comporta come le sue controparti BigQuery, soddisfa gli stessi limiti, ma ci sono diverse API per affrontarli. L’API BigQuery Storage Read basata sul protocollo gRPC consente di leggere le tabelle BigLake in formato JSON, CSV, Avro e ORC da motori di elaborazione open source come Apache Spark. Esistono anche connettori specifici per motori Spark, Hive e Trino ospitati su VM Dataproc o su container per elaborare i dati archiviati in Google Cloud Storage. Anche il livello di trasferimento dei dati a questi motori analitici è open source: GCP si affida ad Apache Arrow per velocizzare il download di (grandi) batch di dati.

Tieni presente che Google Cloud Storage non supporta ancora i formati Avro e ORC. GCP promette di supportare i formati tabella di Delta Lake (Parquet) e successivamente Apache Iceberg e Apache Hudi.

Se i dati non arrivano a Google Cloud, Google Cloud andrà ai dati

Per impostazione predefinita, su Amazon S3 e Azure Data Lake Storage Gen2, le tabelle esterne possono essere lette tramite l’API di BigQuery Omni, la versione multicloud e distribuita di BigQuery. GCP ha anche reso i tavoli BigLake compatibili con questo servizio. Il meccanismo di conversione è quindi particolarmente utile.

Per elaborare i dati, GCP distribuisce e gestisce il piano di controllo di BigQuery su GCP. Questo piano di controllo guida i piani dati su istanze cloud di AWS (S3) o Microsoft Azure (Archiviazione BLOB di Azure), piani dati che eseguono il motore di query di BigQuery, quindi archiviano i risultati delle query nell’oggetto dei servizi di archiviazione dell’utente o li rimandano all’istanza master , su GCP. L’utente si occupa del cablaggio delle connessioni esterne e della scrittura delle query. BigQuery Omni è completamente gestito da GCP, il cliente non paga alcun costo in uscita con fornitori di terze parti.

“BigQuery Omni è un grande elemento di differenziazione, perché non ti chiediamo di addebitare costi ETL elevati”, afferma Gerrit Kazmeier.

“Ci piacerebbe vedere più dati creati su BigQuery, ma sappiamo benissimo che i nostri clienti hanno dati diffusi su più data lake in più cloud, inclusi AWS e Azure”.

Sudhir HasbeDirettore senior della gestione dei prodotti, Google Cloud

“Ci piacerebbe vedere più dati creati su BigQuery, ma sappiamo molto bene che i nostri clienti hanno dati diffusi su più data lake in più cloud, inclusi AWS e Azure”, aggiunge Sudhir Ashbe, che insiste sul fatto che GCP crede nel piazzare il calcolo più vicino ai dati invece di spostarli. “Accettiamo il fatto che i file si trovino in luoghi diversi e andiamo ai dati piuttosto che metterli insieme in un unico posto”.

BigQuery Omni è disponibile in generale da dicembre 2021. Probabilmente è un po’ troppo presto per verificare se l’implementazione della soluzione e il relativo modello di prezzo sono più vantaggiosi rispetto alla moltiplicazione dei lavori ETL, incluso il costo di uscita dei dati.

Data Cloud Alliance: impegni, ancora nessuna roadmap

BigLake deve in ogni caso limitare se non impedire lo spostamento e la moltiplicazione delle copie dei dati. Questa unificazione degli usi è elogiata da Snowflake, da un lato, con la sua piattaforma multicloud proprietaria, e soprattutto da Databricks, che per prima ha scommesso sul termine, un po’ marketing, di Lakehouse, la combinazione di un data lake e un data warehouse (e chi è meno convinto del principio del multicloud). “Penso che la differenza più grande sia che crediamo nell’architettura dei dati aperti”, afferma Gerrit Kazmaier per differenziare l’approccio di GCP da quello di giocatori come Snowflake. “Con BigLake, non ci aspettiamo che i clienti scendano a compromessi tra storage proprietario o open source, tra motori di elaborazione open source o proprietari”. Ad esempio, GCP prevede che i clienti che utilizzano la soluzione analizzeranno i dati da diverse fonti come software SaaS (Salesforce, Workday o Marketo) e li visualizzeranno con Looker, Power BI o Tableau.

“I clienti non vogliono essere incatenati a nessun venditore, incluso noi stessi.”

Gerrit KazmaierVice Presidente e Direttore Generale, Database, Analytics e Looker, Google Cloud

Quanto a Databricks, si tratta di un partner che condivide “la stessa filosofia” di GCP, indica Sudhir Ashbe. “Lavoriamo con Databricks, il loro motore Spark si integra con BigQuery e continueremo a lavorare con questa azienda per risolvere insieme i problemi dei clienti in modo coerente con i formati open source”.

In questo senso, Google ha annunciato la creazione della Data Cloud Alliance. Databricks è uno dei membri di questo gruppo, insieme a Startbust, MongoDB, Elastic, Fivetran, Neo4J, Redis, Dataiku Accenture e Deloitte. Questi partner “si impegnano” ad accelerare l’adozione di modelli e standard di dati aperti, riducendo la complessità di governance, conformità e sicurezza e promuovendo la formazione di talenti e professionisti in queste aree.

“I clienti non vogliono essere incatenati a un venditore, compresi noi stessi”, riconosce Gerrit Kazmaier. “Si tratta di riunire il meglio di tutti e risolvere i problemi dei nostri clienti comuni”, aggiunge. Ciò non rende l’iniziativa molto più chiara al momento. I funzionari promettono che questo “momento fondante” sarà seguito da annunci, ma al momento del lancio non è stato rivelato alcun calendario. Da parte sua, Databricks evoca il fatto di contribuire a questa iniziativa per migliorare lo scambio di dati, una delle sue priorità attualmente.

Leave a Comment