Внимание: для доступа к курсам ITtensive на Udemy напишите, пожалуйста, на support@ittensive.com с названием курса или группы курсов, которые хотите пройти.
Это второй курс из серии Машинное обучение без учителя. На нем вы освоите работу с кластеризацией данных и поиском аномалий на примере задача хакатона Яндекс.Недвижимости по прогнозу срока экспозиции объявлений.
Курс разбит на 4 части. В первой части мы последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную регрессию, а также ансамбли машинного обучения.
Вторая часть посвящена базовым моделям кластеризации:
Изучите внешние и внутренние метрики кластеризации.
Разберете модели К-средних и FOREL и потренируетесь в их применении.
Рассмотрите принципы работы агломеративной кластеризации и используете ее на практике.
Узнаете про расстояние Махаланобиса и работу GMM.
В качестве задания соберем простую модель кластеризации исходных данных.
В третьей части перейдем к продвинутой кластеризации:
Погрузитесь в различия моделей DBSCAN, HDBSCAN и OPTICS.
Разберете особенности модели распространения близости.
Посмотрите на расширяющийся нейронный газ.
Запустите и обучите самоорганизующиеся карты Кохонена (SOM).
Столкнетесь с матрицей Кирхгофа и спектральной кластеризацией.
И соберем ансамбль из несколько моделей кластеризации.
В завершении:
Изучите поиск аномалий и метрику pAUC.
Используете тест Смирнова-Граббса на практике.
Потренируетесь в эллипсоидальной аппроксимации.
Разберете разницу между LOF и ABOD.
Обучите и используете модель COPOD.
Вырастите как iForest, как и расширенный лес изоляции.
В финале соберем свое решение задачи Хакатона 2020 года.