• Главная
  • О компании
  • Каталог курсов
  • Расписание
  • Контакты
Мы на связи:
+7 (7172)79 30 99
+7 (727) 344 30 99
+7 (701) 757 83 23
+7 700 8 700 777
info@dtu.kz
university@dtu.kz
Digital Transformation University
  • Главная
  • О компании
  • Каталог курсов
  • Расписание
  • Контакты

Big Data

  • Главная
  • Все курсы
  • Big Data
  • Администрирование кластера Hadoop

Администрирование кластера Hadoop

Digital Transformation University
Big Data
Бесплатно
Big Data
  • Обзор
Бесплатно
  • Обзор

Продолжительность: 5 дней, 40 академических часов.
(Курсы Big Data для администраторов Hadoop, Spark)

Соотношение теории к практике 40/60.

Сегодня Apache Hadoop является самой популярной открытой платформой для распределенных вычислений и главной технологией больших данных (Big Data). Данный курс для администраторов Big Data содержит всю необходимую теоретическую информацию по планированию и развертыванию распределенных вычислительных кластеров на базе дистрибутивов Hadoop. Рассматриваются процессы мониторинга и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент. Особое внимание уделено настройкам безопасности системы Kerberos (Active Directory и MIT/FreeIPA) на базе Hadoop.

Курс администрирование кластера Hadoop построен на сквозных практических примерах развертывания и администрирования распределенной вычислительной среды: локально и в облачной инфраструктуре. Вы изучите особенности использования компонент Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Cloudera Distributed Hadoop/ HortonWorks и Arenadata Hadoop (российский дистрибутив Hadoop в рамках программы импортозамещения), а также программного обеспечения управления кластером Cloudera Manager/ Arenadata Hadoop / HortonWorks.

Программа

Введение в Big Data

  • Что такое Big Data. Понимание проблемы Big Data
  • Эволюция систем распределенных вычислений Hadoop
  • Принципы формирования Data Lake и pipelines

Архитектура Apache Hadoop

  • Hadoop сервисы и основные компоненты. Name node. Data Node.
  • YARN сервис — планировщик
  • HDFS
  • Отказоустойчивость и высокая доступность

Hadoop Distributed File System

  • Архитектура HDFS. Блоки HDFS.
  • Основные команды работы с HDFS.
  • Операции чтения и записи, назначения HDFS.
  • Дисковые квоты. Поддержка компрессии
  • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
  • Импорт (загрузка) данных на HDFS
  • Организация Tiering для хранения данных
  • Архивное хранение HDFS
  • Локальное чтение и распределенное кэширование

Map Reduce

  • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2/3
  • Ограничения и параметры MapReduce и YARN
  • Управление запуском пользовательских задач (jobs) под MapReduce

Дизайн кластера Hadoop

  • Сравнение дистрибутивов и версий Hadoop 2/3 (Cloudera Distributed Hadoop, MapR, HortonWorks Data Platform, Arenadata Hadoop): различия и ограничения
  • Требования программного и аппаратного обеспечения
  • Планирование кластера
  • Масштабирование кластера Hadoop. Отказоустойчивость Hadoop
  • Federated NameNode. Hadoop в облаке.
  • Сравнение Cloud решений для Hadoop. Amazon EMR
  • Интеграция с другими решениями: streaming (DataFlow), NoSQL.

Установка кластера

  • Установка Hadoop кластера
  • Выбор начальной конфигурации
  • Оптимизация уровня ядра для узлов
  • Начальная конфигурация HDFS и MapReduce
  • Файлы логов и конфигураций
  • Установка Hadoop клиентов
  • Установка Hadoop кластера в облаке
  • Автоматические варианты установки
  • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  • Операции обслуживания кластера Hadoop

Дисковая подсистема

  • Квоты
  • Остановка, запуск, перезапуск(Graceful Shutdown)
  • Управление узлами
  • Управление обновлениями и создание локального репозитория

Оптимизация и управление ресурсами

  • Поиск узких мест.
  • Производительность. Файловая система. Data Node и data layout и партиционирование, bucketing
  • Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler).
  • Защита очередей и доминантное управление ресурсами DRF.
  • Особенности управления ресурсами для разных дистрибутивов

Управление кластером Hadoop с использованием Cloudera Manager/Apache Ambari

  • Установка Cloudera Manager/Apache Ambari
  • Основные операции и задачи Cloudera Manager/Apache Ambari
  • Мониторинг с Cloudera Manager/Apache Ambari/ Grafana
  • Диагностика и разрешение проблем с Cloudera Manager/Apache Ambari

Безопасность Apache Hadoop

  • Безопасность по умолчанию
  • Многопользовательский режим
  • Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberos, keytabs, principals.
  • Установка и конфигурирование Kerberos в Hadoop
  • Обзор возможностей Apache Sentry, Cloudera Navigator, Apache Ambari, Apache Ranger, Apache Knox, Apache Atlas
  • Резервное копирование и аварийное восстановление
  • Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA)
  • Компоненты безопасности Hadoop
  • Best practices Cloudera / HortonWorks/Cloudera/ArenaData

Мониторинг Apache Hadoop

  • Apache Zookeeper
  • Встроенные средства мониторинга Cloudera Manager/Apache Ambari
  • Логи сервисов и компонент
  • Внешние системы мониторинга: Zabbix, JMX, Grafana

Troubleshooting

  • Data Node
  • Name Node
  • Восстановление Name Node
  • Инструментарий Apache Hadoop экосистемы

Графический интерфейс сервиса HUE

  • Подключение Cloudera Data Science Workbench
  • Назначение Apache Zookeeper
  • Основы Apache Pig — установка и выполнение базовых операций
  • Введение в Apache Hive, понятие Hive таблицы, установка Hive
  • Использование Apache sqoop — установка и выполнение базовых операций
  • Базовые операции Apache Flume — установка и выполнение базовых операций
  • Обзор и назначение компонент: Cloudera Impala, Apache NiFi, Apache HBase, Apache Kafka, Apache Zookeeper, Apache Oozie
  • Примерный список практических занятий:

Ручная установка кластера Hadoop с дистрибутива Cloudera Distributed

  • Hadoop/HortonWorks/Arenadata Hadoop на локальной системе 3-узловый кластер
  • Установка 3-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
  • Базовые операции с кластером Hadoop и файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARN MapReduce/Tez.
  • Управление кластером с использованием Cloudera Manager/Apache Ambari(развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Cloudera Manager/Apache Ambari
  • Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume
  • Выполнение задач в веб-интерфейсе HUE/Apache Ambari View
  • Мониторинг кластера Hadoop с использованием Zabbix (опционально)
  • HA высокая доступность (High Availablility) Name Node и YARN (ресурс-менеджер).

Примечание:

  • Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу).
  • Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей
  • Лекции 0
  • Тесты 0
  • Учебное время 50 hours
  • Навык Все уровни
  • Язык English
  • Студенты 0
  • Оценки Да
  • Поделиться:

Вам Может Понравиться

MB-910T00: Microsoft Dynamics 365 Fundamentals (CRM)Подробнее
Digital Transformation University

MB-910T00: Microsoft Dynamics 365 Fundamentals (CRM)

Хотите подробнее изучить Dynamics 365? Этот курс даст вам общее представление о возможностях Dynamics 365 по взаимодействию с клиентами. Вы познакомитесь с понятием взаимодействия с клиентами, приложениями для взаимодействия с клиентами, включая Dynamics 365 Marketing, Dynamics 365 Sales, Dynamics 365 Customer Service и Dynamics 365 Field Service, а также их основными...

Digital Transformation University
0
student
₸1.00
MB-210T01: Microsoft Dynamics 365 SalesПодробнее
Digital Transformation University

MB-210T01: Microsoft Dynamics 365 Sales

Microsoft Dynamics 365 Sales — это комплексное приложение для управления взаимоотношениями с существующими и потенциальными клиентами. С помощью Dynamics 365 Sales организации могут отслеживать данные о целях продаж, автоматизировать рекомендации, учиться на основе данных и многое другое. Присоединяйтесь к нашей команде всемирно признанных экспертов, так как...

Digital Transformation University
0
student
Бесплатно
MB-920T00: Microsoft Dynamics 365 Fundamentals (ERP)Подробнее
Digital Transformation University

MB-920T00: Microsoft Dynamics 365 Fundamentals (ERP)

Хотите подробнее изучить Dynamics 365? Курс MB-920T00: Microsoft Dynamics 365 Fundamentals (ERP) даст вам общее представление о возможностях Dynamics 365, касающихся финансов и операций. Вы познакомитесь с понятием управления ресурсами предприятия (ERP), а также изучите основные возможности приложений для управления финансами и операциями. Затем мы рассмотрим...

Digital Transformation University
0
student
Бесплатно
CompTIA PenTest+Подробнее
Digital Transformation University

CompTIA PenTest+

Курс CompTIA PenTest+  предназначен для ИТ-специалистов, которые хотят развить навыки тестирования на проникновение, чтобы они могли выявлять уязвимости информационных систем и эффективные методы устранения этих уязвимостей. В частности, студенты, которым также нужны практические рекомендации по надлежащей защите информационных систем и их содержимого. Этот курс также...

Digital Transformation University
0
student
Бесплатно
CompTIA Cybersecurity Analyst (CySA+)Подробнее
Digital Transformation University

CompTIA Cybersecurity Analyst (CySA+)

Курс CompTIA Cybersecurity Analyst (CySA+) подготовит вас к успешному получению этой востребованной сертификации с помощью практического обучения на основе сценариев, чтобы вы были готовы к передовым постоянным угрозам (APT). В этом сертификационном учебном курсе вы получите базовые знания для полной подготовки к экзамену CySA+. Это...

Digital Transformation University
0
student
Бесплатно

+7 (7172) 79 30 99, +7 (727) 344 30 99, +7 700 8 700 777

info@dtu.kz

© 2023 | Digital Transformation University

Записаться на курс