Необходимо в графическом визуализаторе представить архитектуру с точки зрения вовлеченных Дата-Компонент следующей задачи.  Есть разрозненные источники данных формата Google Analytics Google Sheets On-premises PostgreSQL  AWS Aurora Компания хочет создать Digital Twin (DataLake) который будет использовать эти хранилища как источники данных. DataLake должен содержать 3 слоя данных  Cold Warm Hot Нарисуйте архитектуру полного решения с условием того что Digital Twin должен размещаться в AWS Cloud.  какую базу данных вы будете использовать для Warm / Hot слоев?  определите ODD / DDS / Raw слой и какие хранилища будут ответственны за это? какие инструменты для Data Streaming вы включите в архитектуру какой BI инструмент и как он будет взаимодействовать с хранилищами вы будете использовать? как ваше решение  будет использовать (в техническом плане) Data Science Team Data Quality Team Слева у нас внешние источники данных(google sheets, aurora, postgres, google analytics) Подключаем airflow, запускаем его по расписанию Например каждые 5 минут выгружаем данные из источников в row слой Row слой – сырые данные, лежат в s3 bucket Из row слоя в odd слой данные перекладываются с помощью spark джобы(+очередь сообщений типа rabbit mq, чтобы параллельно из нескольких источников загружать в odd) Odd – операционный слой, данные здесь лежат в 3 нормальной форме по модели бд, которую мы спроектировали Dds – консолидированная модель данных, данные перекладываются из odd с помощью sql в основном Mart – витрины данных, тут много аналитики со стороны бизнеса и data science инженеров, март слой используется инструментами bi(тут можно использовать power bi или metabase, например) В bi красивые графики, диаграмки для бизнес людей и пользователей(горячий слой) это сырое описание, его надо дополнить чутка и нарисовать схему по нему, схемы у нас с тобой должны быть хоть немного разные и выбор инструментов тоже

Похожие

Посмотрите другие вакансии

Вот самые похожие вакансии

Новый поиск