Необходимо в графическом визуализаторе представить архитектуру с точки зрения вовлеченных Дата-Компонент следующей задачи. Есть разрозненные источники данных формата Google Analytics Google Sheets On-premises PostgreSQL AWS Aurora Компания хочет создать Digital Twin (DataLake) который будет использовать эти хранилища как источники данных. DataLake должен содержать 3 слоя данных Cold Warm Hot Нарисуйте архитектуру полного решения с условием того что Digital Twin должен размещаться в AWS Cloud. какую базу данных вы будете использовать для Warm / Hot слоев? определите ODD / DDS / Raw слой и какие хранилища будут ответственны за это? какие инструменты для Data Streaming вы включите в архитектуру какой BI инструмент и как он будет взаимодействовать с хранилищами вы будете использовать? как ваше решение будет использовать (в техническом плане) Data Science Team Data Quality Team Слева у нас внешние источники данных(google sheets, aurora, postgres, google analytics) Подключаем airflow, запускаем его по расписанию Например каждые 5 минут выгружаем данные из источников в row слой Row слой сырые данные, лежат в s3 bucket Из row слоя в odd слой данные перекладываются с помощью spark джобы(+очередь сообщений типа rabbit mq, чтобы параллельно из нескольких источников загружать в odd) Odd операционный слой, данные здесь лежат в 3 нормальной форме по модели бд, которую мы спроектировали Dds консолидированная модель данных, данные перекладываются из odd с помощью sql в основном Mart витрины данных, тут много аналитики со стороны бизнеса и data science инженеров, март слой используется инструментами bi(тут можно использовать power bi или metabase, например) В bi красивые графики, диаграмки для бизнес людей и пользователей(горячий слой) это сырое описание, его надо дополнить чутка и нарисовать схему по нему, схемы у нас с тобой должны быть хоть немного разные и выбор инструментов тоже