• Главная
  • О компании
  • Каталог курсов

    Обучение

    • Все курсы
    • Big Data
    • Business analysis
    • Cisco
    • CyberSecurity
    • Digital Transformation
    • DevOps
    • IT Management
    • Juniper
    • Microsoft
    • Oracle
    • Postgres
    • Programming
    • Red Hat Linux
    • VMware
    • Тренинг
    Oracle Database 19c: PL/SQL Workshop

    Oracle Database 19c: PL/SQL Workshop

    Бесплатно
    Подробнее
  • Расписание
  • Контакты
      • Cart

        0
    Мы на связи:
    +7 (7172)79 30 99 Нурсултан
    +7 (7172) 79 50 55 Нурсултан
    +7 (727) 344 30 99 Алматы
    +7 (701) 757 83 23
    info@dtu.kz
    Digital Transformation UniversityDigital Transformation University
    • Главная
    • О компании
    • Каталог курсов

      Обучение

      • Все курсы
      • Big Data
      • Business analysis
      • Cisco
      • CyberSecurity
      • Digital Transformation
      • DevOps
      • IT Management
      • Juniper
      • Microsoft
      • Oracle
      • Postgres
      • Programming
      • Red Hat Linux
      • VMware
      • Тренинг
      Oracle Database 19c: PL/SQL Workshop

      Oracle Database 19c: PL/SQL Workshop

      Бесплатно
      Подробнее
    • Расписание
    • Контакты
        • Cart

          0

      Администрирование кластера Hadoop

      Digital Transformation University
      Big Data
      (0 review)
      Бесплатно
      Big Data
      • Обзор

      Продолжительность: 5 дней, 40 академических часов.
      (Курсы Big Data для администраторов Hadoop, Spark)

      Соотношение теории к практике 40/60.

      Сегодня Apache Hadoop является самой популярной открытой платформой для распределенных вычислений и главной технологией больших данных (Big Data). Данный курс для администраторов Big Data содержит всю необходимую теоретическую информацию по планированию и развертыванию распределенных вычислительных кластеров на базе дистрибутивов Hadoop. Рассматриваются процессы мониторинга и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент. Особое внимание уделено настройкам безопасности системы Kerberos (Active Directory и MIT/FreeIPA) на базе Hadoop.

      Курс администрирование кластера Hadoop построен на сквозных практических примерах развертывания и администрирования распределенной вычислительной среды: локально и в облачной инфраструктуре. Вы изучите особенности использования компонент Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Cloudera Distributed Hadoop/ HortonWorks и Arenadata Hadoop (российский дистрибутив Hadoop в рамках программы импортозамещения), а также программного обеспечения управления кластером Cloudera Manager/ Arenadata Hadoop / HortonWorks.

      Программа

      Введение в Big Data

      • Что такое Big Data. Понимание проблемы Big Data
      • Эволюция систем распределенных вычислений Hadoop
      • Принципы формирования Data Lake и pipelines

      Архитектура Apache Hadoop

      • Hadoop сервисы и основные компоненты. Name node. Data Node.
      • YARN сервис — планировщик
      • HDFS
      • Отказоустойчивость и высокая доступность

      Hadoop Distributed File System

      • Архитектура HDFS. Блоки HDFS.
      • Основные команды работы с HDFS.
      • Операции чтения и записи, назначения HDFS.
      • Дисковые квоты. Поддержка компрессии
      • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
      • Импорт (загрузка) данных на HDFS
      • Организация Tiering для хранения данных
      • Архивное хранение HDFS
      • Локальное чтение и распределенное кэширование

      Map Reduce

      • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2/3
      • Ограничения и параметры MapReduce и YARN
      • Управление запуском пользовательских задач (jobs) под MapReduce

      Дизайн кластера Hadoop

      • Сравнение дистрибутивов и версий Hadoop 2/3 (Cloudera Distributed Hadoop, MapR, HortonWorks Data Platform, Arenadata Hadoop): различия и ограничения
      • Требования программного и аппаратного обеспечения
      • Планирование кластера
      • Масштабирование кластера Hadoop. Отказоустойчивость Hadoop
      • Federated NameNode. Hadoop в облаке.
      • Сравнение Cloud решений для Hadoop. Amazon EMR
      • Интеграция с другими решениями: streaming (DataFlow), NoSQL.

      Установка кластера

      • Установка Hadoop кластера
      • Выбор начальной конфигурации
      • Оптимизация уровня ядра для узлов
      • Начальная конфигурация HDFS и MapReduce
      • Файлы логов и конфигураций
      • Установка Hadoop клиентов
      • Установка Hadoop кластера в облаке
      • Автоматические варианты установки
      • Установка и настройка кластера Hadoop в изолированном окружении (offline).
      • Операции обслуживания кластера Hadoop

      Дисковая подсистема

      • Квоты
      • Остановка, запуск, перезапуск(Graceful Shutdown)
      • Управление узлами
      • Управление обновлениями и создание локального репозитория

      Оптимизация и управление ресурсами

      • Поиск узких мест.
      • Производительность. Файловая система. Data Node и data layout и партиционирование, bucketing
      • Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler).
      • Защита очередей и доминантное управление ресурсами DRF.
      • Особенности управления ресурсами для разных дистрибутивов

      Управление кластером Hadoop с использованием Cloudera Manager/Apache Ambari

      • Установка Cloudera Manager/Apache Ambari
      • Основные операции и задачи Cloudera Manager/Apache Ambari
      • Мониторинг с Cloudera Manager/Apache Ambari/ Grafana
      • Диагностика и разрешение проблем с Cloudera Manager/Apache Ambari

      Безопасность Apache Hadoop

      • Безопасность по умолчанию
      • Многопользовательский режим
      • Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberos, keytabs, principals.
      • Установка и конфигурирование Kerberos в Hadoop
      • Обзор возможностей Apache Sentry, Cloudera Navigator, Apache Ambari, Apache Ranger, Apache Knox, Apache Atlas
      • Резервное копирование и аварийное восстановление
      • Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA)
      • Компоненты безопасности Hadoop
      • Best practices Cloudera / HortonWorks/Cloudera/ArenaData

      Мониторинг Apache Hadoop

      • Apache Zookeeper
      • Встроенные средства мониторинга Cloudera Manager/Apache Ambari
      • Логи сервисов и компонент
      • Внешние системы мониторинга: Zabbix, JMX, Grafana

      Troubleshooting

      • Data Node
      • Name Node
      • Восстановление Name Node
      • Инструментарий Apache Hadoop экосистемы

      Графический интерфейс сервиса HUE

      • Подключение Cloudera Data Science Workbench
      • Назначение Apache Zookeeper
      • Основы Apache Pig — установка и выполнение базовых операций
      • Введение в Apache Hive, понятие Hive таблицы, установка Hive
      • Использование Apache sqoop — установка и выполнение базовых операций
      • Базовые операции Apache Flume — установка и выполнение базовых операций
      • Обзор и назначение компонент: Cloudera Impala, Apache NiFi, Apache HBase, Apache Kafka, Apache Zookeeper, Apache Oozie
      • Примерный список практических занятий:

      Ручная установка кластера Hadoop с дистрибутива Cloudera Distributed

      • Hadoop/HortonWorks/Arenadata Hadoop на локальной системе 3-узловый кластер
      • Установка 3-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
      • Базовые операции с кластером Hadoop и файловые операции HDFS.
      • Управление ресурсами и запуском задач с использованием YARN MapReduce/Tez.
      • Управление кластером с использованием Cloudera Manager/Apache Ambari(развертывание сервисов, репликация, мониторинг, alerting и т.д.)
      • Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Cloudera Manager/Apache Ambari
      • Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume
      • Выполнение задач в веб-интерфейсе HUE/Apache Ambari View
      • Мониторинг кластера Hadoop с использованием Zabbix (опционально)
      • HA высокая доступность (High Availablility) Name Node и YARN (ресурс-менеджер).

      Примечание:

      • Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу).
      • Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

      Course Features

      • Lectures 0
      • Quizzes 0
      • Duration 50 hours
      • Skill level All levels
      • Language English
      • Students 0
      • Assessments Yes
      • Обзор
      Бесплатно
      • Поделиться:

      Вам Может Понравиться

      Oracle Database 19c: PL/SQL Workshop Подробнее
      Digital Transformation University

      Oracle Database 19c: PL/SQL Workshop

      0
      0
      Free
      Oracle Database 19c: Performance Management and Tuning Подробнее
      Digital Transformation University

      Oracle Database 19c: Performance Management and Tuning

      0
      0
      Free
      Red Hat OpenShift Administration II: Operating a Production Kubernetes Cluster (DO280) Подробнее
      Digital Transformation University

      Red Hat OpenShift Administration II: Operating a Production Kubernetes Cluster (DO280)

      0
      0
      Free
      Red Hat OpenShift I: Containers & Kubernetes (DO180) Подробнее
      Digital Transformation University

      Red Hat OpenShift I: Containers & Kubernetes (DO180)

      0
      0
      Free
      FortiGate Infrastructure Подробнее
      Digital Transformation University

      FortiGate Infrastructure

      0
      0
      Free

      Рекомендуемые

      Oracle Database 19c: PL/SQL Workshop

      Oracle Database 19c: PL/SQL Workshop

      Бесплатно
      Oracle Database 19c: Performance Management and Tuning

      Oracle Database 19c: Performance Management and Tuning

      Бесплатно
      Red Hat OpenShift Administration II: Operating a Production Kubernetes Cluster (DO280)

      Red Hat OpenShift Administration II: Operating a Production Kubernetes Cluster (DO280)

      Бесплатно

      +7 (7172) 79 50 55, +7 (7172) 79 03 30

      info@dtu.kz

      © 2022 | Digital Transformation University

      • Главная
      • Контакты
      Записаться на курс