Perché ottimizzare il tuo DataWareHouse con una strategia di data lakehouse

Back to Blog List

Perché ottimizzare il tuo DataWareHouse con una strategia di data lakehouse

Like

Perché ottimizzare il tuo DataWareHouse con una strategia di data lakehouse

In un blog precedente, abbiamo sottolineato che i warehouse, noti per l'elaborazione dei dati ad alte prestazioni per la business intelligence, possono diventare rapidamente costosi per i nuovi dati e i carichi di lavoro in evoluzione. Abbiamo anche sostenuto che le query e i report, forniti da motori di big data come Presto, devono funzionare con il framework dell'infrastruttura Spark per supportare l'analisi avanzata e il processo decisionale dei dati aziendali complessi. Per fare ciò, Presto e Spark devono lavorare prontamente con le infrastrutture di data warehouse esistenti e moderne. Ora, parliamo del motivo per cui l'ottimizzazione del data warehouse è un valore chiave di una strategia di data lakehouse.
Leggi il nostro blog su come risolvere le sfide di oggi con un'architettura lakehouse
Valore dell'ottimizzazione del data warehouse
Dalla sua introduzione oltre un secolo fa, il motore a benzina è rimasto sostanzialmente invariato. È stato semplicemente adattato nel tempo per soddisfare le esigenze moderne come i controlli dell'inquinamento, l'aria condizionata e il servosterzo.
Allo stesso modo, il database relazionale è stato la base per il data warehousing per tutto il tempo in cui il data warehousing è esistito. I database relazionali sono stati adattati per soddisfare le esigenze dei nuovi carichi di lavoro, come le attività di ingegneria dei dati associate ai dati strutturati e semi-strutturati, e per la creazione di modelli di machine learning.
Tornando all'analogia, ci sono stati cambiamenti significativi nel modo in cui alimentiamo le auto. Ora abbiamo motori a benzina, veicoli elettrici a batteria (BEV) e veicoli ibridi. Un articolo di Forbes dell'agosto 2021 ha fatto riferimento a una pubblicazione del Department of Energy Argonne National Laboratory del 2021 che indicava: "I veicoli elettrici ibridi (pensa: Prius) hanno avuto il più basso costo totale di 15 anni per miglio di guida nella categoria Small SUV battendo i BEV".
Proprio come i veicoli ibridi aiutano i loro proprietari a bilanciare il prezzo di acquisto iniziale e il costo nel tempo, le aziende stanno cercando di trovare un equilibrio tra alte prestazioni e convenienza per il loro ecosistema di dati e analisi. In sostanza, vogliono eseguire i carichi di lavoro giusti nell'ambiente giusto senza dover copiare eccessivamente i set di dati.
Ottimizzazione dell'architettura data lakehouse
Fortunatamente, il panorama IT sta cambiando grazie a un mix di piattaforme cloud, open source e fornitori di software tradizionali. L'aumento dello storage di oggetti cloud ha ridotto il costo dello storage dei dati. I formati di file open-data si sono evoluti per supportare la condivisione dei dati su più motori di dati, come Presto, Spark e altri. Il caching intelligente dei dati sta migliorando le prestazioni delle infrastrutture di data lakehouse.
Tutte queste innovazioni vengono adattate dai fornitori di software e accettate dai loro clienti. Quindi, cosa significa questo da una prospettiva pratica? Cosa possono fare le imprese di diverso da quello che stanno già facendo oggi? Alcuni esempi di casi d'uso aiuteranno. Per utilizzare efficacemente i dati grezzi, spesso devono essere curati all'interno di un data warehouse. I dati semistrutturati devono essere riformattati e trasformati per essere caricati in tabelle. E i processi ML consumano un'abbondanza di capacità per creare modelli.
Le organizzazioni che eseguono questi carichi di lavoro nel loro ambiente di data warehouse oggi pagano una velocità di esecuzione elevata per attività di progettazione che non aggiungono valore o informazioni aggiuntive. Solo gli output di questi modelli basati sui dati consentono a un'organizzazione di ricavare valore aggiunto. Se le organizzazioni potessero eseguire queste attività di progettazione a una velocità di esecuzione inferiore in una data lakehouse, rendendo i dati trasformati disponibili sia alla lakehouse che al warehouse tramite formati aperti, potrebbero fornire lo stesso valore di output con un'elaborazione a basso costo.
Vantaggi dell'ottimizzazione nel data warehouse e nella data lakehouse
L'ottimizzazione dei carichi di lavoro tra un data warehouse e una data lakehouse condividendo i dati utilizzando formati aperti può ridurre i costi e la complessità. Ciò aiuta le organizzazioni a ottenere un migliore ritorno sulla strategia dei dati e sugli investimenti nell'analisi, contribuendo al contempo a migliorare la governance e la sicurezza dei dati.
E proprio come un'auto ibrida consente ai proprietari di auto di ottenere un valore maggiore dal loro investimento in auto, l'ottimizzazione dei carichi di lavoro in un data warehouse e data lakehouse consentirà alle organizzazioni di ottenere maggiore valore dal loro ecosistema di analisi dei dati.
Scopri come ottimizzare il tuo data warehouse per scalare i carichi di lavoro di analisi e intelligenza artificiale (AI) con una strategia di data lakehouse.

#IBMChampion

IBM Z and LinuxONE - IBM Z - Group home

Perché ottimizzare il tuo DataWareHouse con una strategia di data lakehouse