• Главная
  • О компании
  • Каталог курсов
    • Все курсы
    • AWS
    • Big Data
    • Business analysis
    • Check Point
    • Cisco
    • CyberSecurity
    • DevOps
    • Digital Transformation
    • IBM
    • IT Management
    • Juniper
    • Microsoft
    • Oracle
    • Postgres
    • Programming
    • Project Management
    • Red Hat Linux
    • VMware
    • Тестирование ПО
    • Тренинг
    Матрица компетенций бизнес-аналитика

    Матрица компетенций бизнес-аналитика

    Бесплатно
    Подробнее
  • Расписание
  • Контакты
Мы на связи:
+7 (7172)79 30 99 Нур-султан
+7 (727) 344 30 99 Алматы
+7 (701) 757 83 23
info@dtu.kz
Digital Transformation University
  • Главная
  • О компании
  • Каталог курсов
    • Все курсы
    • AWS
    • Big Data
    • Business analysis
    • Check Point
    • Cisco
    • CyberSecurity
    • DevOps
    • Digital Transformation
    • IBM
    • IT Management
    • Juniper
    • Microsoft
    • Oracle
    • Postgres
    • Programming
    • Project Management
    • Red Hat Linux
    • VMware
    • Тестирование ПО
    • Тренинг
    Матрица компетенций бизнес-аналитика

    Матрица компетенций бизнес-аналитика

    Бесплатно
    Подробнее
  • Расписание
  • Контакты

    Big Data

    • Главная
    • Все курсы
    • Big Data
    • Администрирование кластера Hadoop

    Администрирование кластера Hadoop

    Digital Transformation University
    Big Data
    Бесплатно
    Big Data
    • Обзор
    Бесплатно
    • Обзор

    Продолжительность: 5 дней, 40 академических часов.
    (Курсы Big Data для администраторов Hadoop, Spark)

    Соотношение теории к практике 40/60.

    Сегодня Apache Hadoop является самой популярной открытой платформой для распределенных вычислений и главной технологией больших данных (Big Data). Данный курс для администраторов Big Data содержит всю необходимую теоретическую информацию по планированию и развертыванию распределенных вычислительных кластеров на базе дистрибутивов Hadoop. Рассматриваются процессы мониторинга и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент. Особое внимание уделено настройкам безопасности системы Kerberos (Active Directory и MIT/FreeIPA) на базе Hadoop.

    Курс администрирование кластера Hadoop построен на сквозных практических примерах развертывания и администрирования распределенной вычислительной среды: локально и в облачной инфраструктуре. Вы изучите особенности использования компонент Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Cloudera Distributed Hadoop/ HortonWorks и Arenadata Hadoop (российский дистрибутив Hadoop в рамках программы импортозамещения), а также программного обеспечения управления кластером Cloudera Manager/ Arenadata Hadoop / HortonWorks.

    Программа

    Введение в Big Data

    • Что такое Big Data. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Принципы формирования Data Lake и pipelines

    Архитектура Apache Hadoop

    • Hadoop сервисы и основные компоненты. Name node. Data Node.
    • YARN сервис — планировщик
    • HDFS
    • Отказоустойчивость и высокая доступность

    Hadoop Distributed File System

    • Архитектура HDFS. Блоки HDFS.
    • Основные команды работы с HDFS.
    • Операции чтения и записи, назначения HDFS.
    • Дисковые квоты. Поддержка компрессии
    • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
    • Импорт (загрузка) данных на HDFS
    • Организация Tiering для хранения данных
    • Архивное хранение HDFS
    • Локальное чтение и распределенное кэширование

    Map Reduce

    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2/3
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce

    Дизайн кластера Hadoop

    • Сравнение дистрибутивов и версий Hadoop 2/3 (Cloudera Distributed Hadoop, MapR, HortonWorks Data Platform, Arenadata Hadoop): различия и ограничения
    • Требования программного и аппаратного обеспечения
    • Планирование кластера
    • Масштабирование кластера Hadoop. Отказоустойчивость Hadoop
    • Federated NameNode. Hadoop в облаке.
    • Сравнение Cloud решений для Hadoop. Amazon EMR
    • Интеграция с другими решениями: streaming (DataFlow), NoSQL.

    Установка кластера

    • Установка Hadoop кластера
    • Выбор начальной конфигурации
    • Оптимизация уровня ядра для узлов
    • Начальная конфигурация HDFS и MapReduce
    • Файлы логов и конфигураций
    • Установка Hadoop клиентов
    • Установка Hadoop кластера в облаке
    • Автоматические варианты установки
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
    • Операции обслуживания кластера Hadoop

    Дисковая подсистема

    • Квоты
    • Остановка, запуск, перезапуск(Graceful Shutdown)
    • Управление узлами
    • Управление обновлениями и создание локального репозитория

    Оптимизация и управление ресурсами

    • Поиск узких мест.
    • Производительность. Файловая система. Data Node и data layout и партиционирование, bucketing
    • Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler).
    • Защита очередей и доминантное управление ресурсами DRF.
    • Особенности управления ресурсами для разных дистрибутивов

    Управление кластером Hadoop с использованием Cloudera Manager/Apache Ambari

    • Установка Cloudera Manager/Apache Ambari
    • Основные операции и задачи Cloudera Manager/Apache Ambari
    • Мониторинг с Cloudera Manager/Apache Ambari/ Grafana
    • Диагностика и разрешение проблем с Cloudera Manager/Apache Ambari

    Безопасность Apache Hadoop

    • Безопасность по умолчанию
    • Многопользовательский режим
    • Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberos, keytabs, principals.
    • Установка и конфигурирование Kerberos в Hadoop
    • Обзор возможностей Apache Sentry, Cloudera Navigator, Apache Ambari, Apache Ranger, Apache Knox, Apache Atlas
    • Резервное копирование и аварийное восстановление
    • Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA)
    • Компоненты безопасности Hadoop
    • Best practices Cloudera / HortonWorks/Cloudera/ArenaData

    Мониторинг Apache Hadoop

    • Apache Zookeeper
    • Встроенные средства мониторинга Cloudera Manager/Apache Ambari
    • Логи сервисов и компонент
    • Внешние системы мониторинга: Zabbix, JMX, Grafana

    Troubleshooting

    • Data Node
    • Name Node
    • Восстановление Name Node
    • Инструментарий Apache Hadoop экосистемы

    Графический интерфейс сервиса HUE

    • Подключение Cloudera Data Science Workbench
    • Назначение Apache Zookeeper
    • Основы Apache Pig — установка и выполнение базовых операций
    • Введение в Apache Hive, понятие Hive таблицы, установка Hive
    • Использование Apache sqoop — установка и выполнение базовых операций
    • Базовые операции Apache Flume — установка и выполнение базовых операций
    • Обзор и назначение компонент: Cloudera Impala, Apache NiFi, Apache HBase, Apache Kafka, Apache Zookeeper, Apache Oozie
    • Примерный список практических занятий:

    Ручная установка кластера Hadoop с дистрибутива Cloudera Distributed

    • Hadoop/HortonWorks/Arenadata Hadoop на локальной системе 3-узловый кластер
    • Установка 3-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
    • Базовые операции с кластером Hadoop и файловые операции HDFS.
    • Управление ресурсами и запуском задач с использованием YARN MapReduce/Tez.
    • Управление кластером с использованием Cloudera Manager/Apache Ambari(развертывание сервисов, репликация, мониторинг, alerting и т.д.)
    • Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Cloudera Manager/Apache Ambari
    • Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume
    • Выполнение задач в веб-интерфейсе HUE/Apache Ambari View
    • Мониторинг кластера Hadoop с использованием Zabbix (опционально)
    • HA высокая доступность (High Availablility) Name Node и YARN (ресурс-менеджер).

    Примечание:

    • Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу).
    • Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей
    • Лекции 0
    • Тесты 0
    • Учебное время 50 hours
    • Навык Все уровни
    • Язык English
    • Студенты 0
    • Оценки Да
    • Поделиться:

    Вам может понравиться

    Матрица компетенций бизнес-аналитикаПодробнее
    Digital Transformation University

    Матрица компетенций бизнес-аналитика

    Продолжительность: 16 академических часов. Курс Матрица компетенций бизнес-аналитика основывается на матрице компетенций, которая содержится в Своде знаний по бизнес-анализу (BABOK) 3.0 и состоит из 29 базовых компетенций для аналитика, сгруппированных в 6 категорий: · Аналитическое мышление и решение проблем; · Поведенческие характеристики; · Знание бизнеса; ·...

    Digital Transformation University
    0
    student
    Бесплатно
    Zabbix. Enterprise monitoring IT infrastructureПодробнее
    Digital Transformation University

    Zabbix. Enterprise monitoring IT infrastructure

    Linux. Zabbix. Мониторинг IT инфраструктуры предприятия Курс Zabbix. Enterprise monitoring IT infrastructure предназначен для системных администраторов, которым требуется обеспечить комплексный мониторинг сетевой инфраструктуры средствами свободного программного обеспечения (СПО), работающего под управлением систем Linux/FreeBSD, а также,  для тех, кто планирует освоить компетенцию специалиста по мониторингу инфраструктуры предприятия....

    Digital Transformation University
    0
    student
    Бесплатно
    Introduction to DevOps: Infrastructure as Code, using Docker and KubernetesПодробнее
    Digital Transformation University

    Introduction to DevOps: Infrastructure as Code, using Docker and Kubernetes

    Введение в DevOps: инфраструктура как код, использование Docker и Kubernetes Курс Introduction to DevOps: Infrastructure as Code, using Docker and Kubernetes разработан для системных администраторов, желающих освоить принципы и технологии Infrastructure as a Code для автоматизации развертывания и управления IT-инфраструктурой предприятия. Сейчас происходят процессы трансформации профессии...

    Digital Transformation University
    0
    student
    Бесплатно
    Linux. Администрирование сервисов и сетейПодробнее
    Digital Transformation University

    Linux. Администрирование сервисов и сетей

    Продолжительность: 24 академических часа. По окончании курса Linux Администрирование сервисов и сетей вы сможете решать большинство задач, связанных с работой компьютерной сети предприятия. Вы научитесь использовать Linux в качестве интернет шлюза и пакетного фильтра, предоставите своим пользователям возможность работы с файловыми сервисами и электронной почтой....

    Digital Transformation University
    0
    student
    Бесплатно
    Linux administration fundamentalsПодробнее
    Digital Transformation University

    Linux administration fundamentals

    После курса Linux administration fundamentals вы сможете устанавливать и настраивать операционную систему Linux, заводить учетные записи пользователей, предоставлять им регламентируемый доступ к ресурсам сервера на базе ОС Linux. Для Вас не составит труда настроить параметры локальной сети и подключение к Интернет. Вы легко будете устанавливать,...

    Digital Transformation University
    0
    student
    Бесплатно

    Рекомендуемые

    Computer Hacking Forensics Investigator (CHFI)

    Computer Hacking Forensics Investigator (CHFI)

    Бесплатно
    Бизнес и системный анализ в IT

    Бизнес и системный анализ в IT

    Бесплатно
    Обслуживание экстра — класса

    Обслуживание экстра — класса

    Бесплатно
    (ENARSI) Implementing Cisco Enterprise Advanced Routing and Services

    (ENARSI) Implementing Cisco Enterprise Advanced Routing and Services

    Бесплатно
    VMware vSphere: Install, Configure, Manage

    VMware vSphere: Install, Configure, Manage

    Бесплатно

    +7 (7172) 79 30 99, +7 (727) 344 30 99

    info@dtu.kz

    © 2023 | Digital Transformation University

    Записаться на курс