Tilda Publishing
BIG DATA AND
DATA ENGINEERING
Профессия data engineer уже более востребована на рынке, чем data scientist. Более того, само понятие "большие данные" уже несколько лет как превратилось из хайпа в реальность. И требования по умению работать с большими данными все прочнее закрепляются в вакансиях рядом с привычными алгоритмами и структурами данных.

Поэтому в курсе мы рассмотрим наиболее популярный инструментарий для работы с большими данными в индустрии - экосистему Apache Hadoop. Студенты научатся эффективному использованию распределенной файловой системы HDFS. Освоят парадигму MapReduce, перенесутся на следующий уровень абстракции на примере Apache Hive. БольшАя часть курса будет посвящена лингва франка современного мира больших данных - Apache Spark. Студенты научатся эффективно использовать как пакетный, так и потоковый режим обработки. Освоят библиотеку машинного обучения Spark ML и тонкости распределенных алгоритмов машинного обучения. Часть занятий будет посвящена NoSQL подходу к хранению данных на примере Apache Cassandra и Apache HBase.

Основой всего курса станет проект, в котором каждый студент сможет реализовать end-to-end конвейер получения, обработки и хранения больших данных.


Курс ведет: Павел Клеменков, Chief Data Scientist @ NVIDIA Data Platform,
соавтор специализации Big Data for Data Engineers на Coursera,
основатель сообщества Moscow Spark профессиональных пользователей и разработчиков фреймворка Apache Spark.

Курс обязателен
: Data Science and Data Engeneering
Курс по выбору: Business Intelligence