Maintenant que nous vous avons détaillé comment choisir votre data warehouse dans le cloud nous vous proposons la découverte de quelques unes du marché:
- Snowflake
- AWS Redshift
- Google Big Query
- Azure Data Warehouse
- Benchmark
Vous pouvez revenir aux critères de sélection des data warehouse dans le cloud.
Nous avons voulu tester nous-même ces data warehouses pour nous en faire notre propre idée.
Étant habitués aux entrepôts de données et aux bases de données en général nous voulions surtout nous rendre compte à quel point il était simple de se lancer dans un projet.
En guise d’introduction
Basée sur Microsoft Parallel Data Warehouse, une solution “on premise”, Azure Data warehouse associe une architecture de traitement massivement parallèle (MPP) comme Redshift, avec la séparation du calcul et du stockage comme Snowflake.
Il est relativement rapide et facile à faire passer à l’échelle car les services de calcul et de stockage sont décorrélés. Il est même possible de suspendre les ressources de calcul, ce qui permet de contrôler les coûts.
Scénario
Nous avons suivi un tutoriel. Celui-ci va du chargement des données jusqu’à leur analyse.
Exécution des requêtes
SELECT
d.[Year],
d.[Month],
d.[DayOfMonth],
count(*) as nb_trips,
avg(t.[TipAmount]) as avg_tip_amount
from [dbo].[Trip] t
inner join [dbo].[Date] d on t.[DateID] = d.[DateId]
group by d.[Year],
d.[Month],
d.[DayOfMonth]
order by d.[Year],
d.[Month],
d.[DayOfMonth];
Nous avons pu aussi bien tester l’exécution des requêtes depuis les interfaces offerts par Azure que par des clients SQL installés sur nos postes.
Bonus
Au-delà des nombreuses et très importantes fonctionnalités offertes par Azure Data Warehouse, il n’est plus à rappeler à quel point Microsoft est “tellement” implanté dans “tellement” de sociétés ! Franchir le pas est donc très simple, tout en conservant nos habitudes. Cette solution de data warehousing s’intègre facilement aux systèmes d’information existants.
Appréciation Générale
Bien que l’on ait besoin de travailler certain point d’optimisation, Azure Data Warehouse offre le support à une variété de données (JSON, données structurées, données non-structurées) qui facilite grandement leurs manipulations. En plus, la richesse du support SQL est elle aussi appréciable.