-
Введение в Big Data (Большие данные)
- Большие данные и цифровизация бизнеса
- Базовые принципы и отличия от классических подходов к работе с данными
- Обзор методологии CRISP DM — модели жизненного цикла аналитики данных: получение данных, подготовка данных, планирование модели, построение модели, проверка результатов, внедрение
- Отраслевая специфика аналитики больших данных. Общий разбор отраслевых сценариев (cases)
- Тенденции в подходах Big Data и что актуально на сегодняшний день
- Технологии Big Data в условиях импортозамещения
-
Понимание Бизнеса (Business Understanding)
- Определение бизнес целей для проекта Big Data
- Отраслевая специфика аналитики больших данных. Общий разбор отраслевых сценариев (cases)
- Инициация проекта — критические факторы успеха. Основные проблемы
- Оценка ситуации: риски, ROI, доступные ресурсы, оценка зрелости компании
- Приоритизация задач: Что делаем, а что нет
- Высокоуровневый план проекта
- Начинаем формировать команду проекта: специалисты и их компетенции, роли
-
Понимание данных (Data Understanding)
- Определение источников данных
- Специфика работы с потоковыми данными и batch в Big Data
- Принципы формирования Data Lake: выбор платформы
- Первичный сбор и анализ данных: инструментарий и доступные методы
- Описание данных и сбор метаданных
- Data management и Data Governance
- Оценка качества данных Data Quality
- Основные трудности и проблемы, критические факторы успеха, роли и навыки
- Разбор сценариев (cases) для фазы Data Understanding
-
Подготовка данных (Data Preparation)
- Подготовка данных – подходы Data Science: нормализация, очистка, выборки, enrichment, форматирование данных
- Подготовка данных – как процесс формирования Data Pipeline:
- Процессы ETL и ELT
- Зонирование Data Lake и сегментирование данных.
- Назначение и сравнительная характеристика компонент экосистемы Apache Hadoop, NoSQL, DWH, платформ потоковой обработки для хранения и обработки Big Data на примерах (отраслевые сценарии)
- Инструменты оркестрирования и автоматизации (Data Flow)
- И снова о Метаданных: Data Lineage, Data Provenance, Data Governance, …
- Безопасность больших данных
- Основные трудности и проблемы, критические факторы успеха
- Специалисты и их компетенции на данной стадии
-
Выбор и построение моделей (Modeling)
- Классы аналитических задач и подходы к их решению
- Обзор техник моделирования
- Построение моделей и оценка моделей
- Что нужно для успешного моделирования
- Инструментарий для решения аналитических задач этапа моделирования
- Оценка моделей и среда тестирования моделей: технические метрики оценки качества проведенного моделирования
- А также песочницы, Machine & Deep learning, AI, Нейронные сети и многое другое
- Команда Data Science и их компетенции
- Основные трудности и проблемы фазы моделирования, критические факторы успеха
- Облачные платформы для быстрой разработки
- Место DevOps, MLOps для организации процессов разработки
- Рассмотрение фазы моделирования на сквозных сценариях (cases): место, участники, взаимодействие с другими фазами и процессами
-
Оценка результатов ( Evaluation)
- Про бизнес-метрики оценки качества моделирования
- Что делать если все плохо ? – возвращаемся на предыдущие фазы
- Рассматриваем данную стадию в рамках наших сценариев (cases)
- Отличия среды разработки и эксплуатации
- Особенности этапа оценки
-
Развертывание (Deployment)
- Планирование развертывания модели
- Мониторинг и обслуживание модели
- Методологии автоматизации и вывода продуктов в промышленную эксплуатацию – DevOps и MLOps
- Задачи финального обеспечения фаз жизненного цикла Data Science: цикличность reviews, обновления и вывод из эксплуатации
-
Финальная переоценка проекта
- Постанализ рисков и BIA, ROI и генерация ценности
- Допущенные просчеты и методы их решения
- Оценка процессов и оценка зрелости компании
- Типичные ошибки применения CRISP DM
- Альтернативные подходы и расширения CRISP DM (Domino, TDSP, SEMMA)