Contoso est une entreprise qui produit des jeux pour plusieurs plateformes : consoles de jeux, appareils portables et ordinateurs personnels. Ces jeux produisent un grand nombre de journaux et l'objectif de Contoso et de collecter et d'analyser ces journaux pour mieux connaître les préférences des clients, leurs données démographiques, leur comportement d'utilisation, etc., pour identifier les opportunités de ventes supplémentaires et de ventes croisées, développer de nouvelles fonctionnalités attractives pour amener une croissance des activités et offrir une meilleure expérience aux clients.
Cet exemple évalue en particulier l'efficacité d'une campagne marketing que Contoso a lancée récemment en collectant des exemples de journaux, en les traitant et en les enrichissant avec des données de référence, et en transformant les données. Il a les trois pipelines suivants :
- PartitionGameLogsPipeline lit les événements bruts des jeux depuis le stockage des objets blob et crée des partitions basées sur l'année, le mois et le jour.
- EnrichGameLogsPipeline fait la jointure des événements des jeux avec les données de référence des codes géographiques, et enrichit les données en mappant les adresses IP aux géolocalisations correspondantes.
- AnalyzeMarketingCampaignPipeline tire parti des données enrichies et les traite avec les données des publicités pour créer le résultat final qui établit l'efficacité de la campagne marketing.
L'exemple montre comment vous pouvez utiliser le service Azure Data Factory pour composer des flux d'intégration des données pour copier/déplacer des données en utilisant l'activité de copie, et pour traiter les données en utilisant des scripts Pig ou Hive sur un cluster Azure HDInsight avec l'activité HDInsight.
Pour déployer l'exemple :
- Sélectionnez le compte de stockage dans la liste déroulante correspondant au compte que vous voulez utiliser avec l'exemple.
- Sélectionnez le serveur de bases de données et la base de données que vous voulez utiliser avec l'exemple.
- Entrez le nom d'utilisateur et le mot de passe pour accéder à la base de données.
- Cliquez sur le bouton Créer.
Le processus de déploiement effectue les opérations suivantes :
- Il télécharge les données de l'exemple vers votre stockage Azure.
- Il crée une table dans la base de données SQL Azure.
- Il déploie les services, les tables et les pipelines liés pour exécuter l'exemple.
Un service lié HDInsight à la demande est utilisé dans cet exemple, qui crée un cluster HDInsight à la demande avec un seul nœud pour exécuter des scripts Pig et Hive, et il est supprimé une fois le traitement terminé.
Une fois le déploiement terminé, vous pouvez surveiller le flux de travaux d'intégration des données de bout en bout en utilisant la vue de diagramme et utiliser les fonctionnalités de surveillance du portail Microsoft Azure pour surveiller les jeux de données et les pipelines.
REMARQUE : des coûts sont associés au transfert des données et au traitement des données avec un cluster HDInsight à la demande. Pour obtenir des informations détaillées, consultez Tarification HDInsight et Tarification du transfert de données.
Pour plus d'informations sur cet exemple, consultez ce didacticiel sur Azure.com.