Contoso — игровая компания, которая разрабатывает игры для разных платформ: игровых консолей, наладонных устройств и ПК. Игры создают множество журналов, и цель Contoso — собирать и анализировать данные в них, чтобы понять предпочтения, демографию, шаблоны использования и другие особенности пользователей, чтобы выявить возможности для дополнительных и перекрестных продаж, создавать новые привлекательные функции, развивать свой бизнес и радовать пользователей.
Этот пример служит для оценки эффективности недавней маркетинговой кампании Contoso. В нем собираются примеры журналов, которые затем обрабатываются и обогащаются эталонными данными, после чего преобразуются. В нем есть три конвейера:
- PartitionGameLogsPipeline читает необработанные игровые события из службы хранилища BLOB-объектов и создает разделы по годам, месяцам и дням.
- EnrichGameLogsPipeline соединяет разделенные игровые события с эталонными геокодами и обогащает данные, сопоставляя IP-адреса с соответствующими географическими расположениями.
- AnalyzeMarketingCampaignPipeline использует обогащенные данные и обрабатывает их вместе с рекламными данными, чтобы создать итоговые данные об эффективности маркетинговой кампании.
Пример демонстрирует, как можно использовать службу фабрики данных Azure для создания рабочих процессов интеграции данных, чтобы копировать и перемещать данные с помощью действия копирования, а также обрабатывать их с помощью скриптов Pig и Hive в кластере Azure HDInsight, используя действие HDInsight.
Чтобы развернуть пример, выполните следующие действия.
- Выберите учетную запись хранения для использования с примером в раскрывающемся списке.
- Выберите сервер баз данных и базу данных для использования с примером.
- Введите имя пользователя и пароль для доступа к базе данных.
- Нажмите кнопку Создать.
В процессе развертывания происходит следующее.
- Образцы данных отправляются в службу хранилища Azure.
- В Базе данных SQL Azure создается таблица.
- Развертываются связанные службы, таблицы и конвейеры для запуска примера.
В примере используется связанная служба HDInsight по требованию, в которой по требованию создается кластер HDInsight из одного узла, в котором запускаются скрипты Pig и Hive, а после обработки кластер удаляется.
После завершения развертывания вы можете следить за сквозным рабочим процессом интеграции данных с помощью диаграмм и функций мониторинга на портале Microsoft Azure, чтобы наблюдать за наборами данных и конвейерами.
Примечание. Может взиматься плата за передачу данных и их обработку с помощью кластера HDInsight по требованию. Дополнительные сведения см. в разделах Цены на HDInsight и Цены на передачу данных.
Дополнительные сведения об этом примере см. в этом учебнике на сайте Azure.com.