Продолжительность: 3 дня, 24 академических часа.
(Курсы Big Data для администраторов Hadoop, Spark)
Соотношение теории к практике 50/50.
Практический курс «Основы Hadoop» содержит базовые сведения по установке, настройке и эксплуатации кластера Hadoop. Обучение Хадуп в нашем учебном центре включает теоретический минимум, необходимый для эффективной практической работы с кластером Apache Hadoop. На курсе рассматриваются следующие темы:
- выполнение основных операций в файловой системе HDFS;
- запуск задач MapReduce;
- основы управления ресурсами Hadoop с помощью планировщика задач YARN;
- концепции использования Hadoop и компонентов экосистемы Хадуп (MapReduce, Apache Hive, Apache Pig, Apache Flume, Apache Sqoop и Apache Spark) для организации хранения больших данных и процессинга.
Курс построен на сквозных практических примерах с тренировочными наборами данных для запуска пакетных (batch) и потоковых (streaming) задач в Hadoop кластере. Для каждого слушателя предоставляются индивидуальные кластера в облачной инфраструктуре Amazon Web Services (AWS), чтобы вы освоили все концепции и понятия на практике. Какой именно дистрибутив Хадуп выбрать, решаете вы: Cloudera Distributed Hadoop, HortonWorks HDP или ArenaData Hadoop.
Также на наших курсах обучения основам Hadoop вы познакомитесь с программным обеспечением по управлению кластером Cloudera Manager или Apache Ambari (на выбор).
Программа курса «Основы Hadoop»
Основы Hadoop и Big Data
Что такое Big Data.
Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Концепция Data Lake.
Архитектура Apache Hadoop
Hadoop сервисы и основные компоненты: Name node, Data Node, YARN, HDFS.
Отказоустойчивость и высокая доступность.
Batch процессинг.
Потоковая обработка
Распределенная файловая система HDFS
Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты.
Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS.
Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы.
Влияние компрессии на производительность. Кодеки компрессии.
Импорт(загрузка) данных на HDFS
MapReduce
Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.
Установка кластера Hadoop
Установка Hadoop кластера.
Выбор начальной конфигурации.
Оптимизация уровня ядра для узлов.
Оптимизация Java, JVM, Heap size, Garbage Collection
Начальная конфигурация HDFS и MapReduce.
Файлы логов и конфигураций.
Настройка подключений Hadoop клиентов.
Установка кластера Hadoop в облаке.
Особенности настройки кластера Hadoop на физическом сервере (on-premises)
Топология кластера Hadoop
Tiering — многоуровневое хранение данных (Cold, Warm,Hot, RAM disk). Storage policy — полтиики хранения. Метки конфигураций узлов. RACK awareness.
Архитектура YARN — планировщик и менеджер ресурсов
Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность.
FIFO scheduler
Capacity scheduler (Планировщик по мощности)
Fair scheduler (Гранулярное управление ресурсами)
Защита очередей и доминантное управление ресурсами DRF
Инструментарий Hadoop экосистемы
Графический интерфейс сервиса HUE/Zeppelin
Базовые операции в Apache Pig
Использование Apache Hive для доступа к данным на HDFS по SQL интерфейсу, понятие Hive таблицы, HiveQL — базовый синтаксис.
Импорт и экспорт SQL таблиц с применением Apache sqoop
Настройка агентов для управления потоковыми операциями с Apache Flume
Базовые операции в Apache Spark
Примерный список практических занятий по курсу «Основы Hadoop»:
- Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
- Базовые операции обслуживания кластера Hadoop и файловые операции HDFS
- Управление ресурсами и запуском задач с использованием YARN и MapReduce
- ETL операции преобразования с использованием Apache Pig
- Знакомство с SQL интерфейсом доступа Apache Hive
- Выполнение базовых операций импорта/экспорта с применением Apache sqoop
- Настройка агента потоковой обработки Apache Flume(опционально)
- Применение веб-интерфейса HUE/Zeppelin (опционально)
- Примечание:
• Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
• Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей
- Лекции 0
- Тесты 0
- Учебное время 50 hours
- Навык Все уровни
- Язык English
- Студенты 0
- Оценки Да