Требуется: датасет в формате .csv, готовый и рабочий эксперимент Azure ML, презентация с подробными скриншотами эксперимента и с описанием выполняемых действий, оформление не требуется. Данные на усмотрение исполнителя, важно пройти все шаги, указанные ниже.

Срок: до 20.11.2023

Шаги выполнения:

Выбрать и описать набор данных для анализа, а также сформулировать задачу, которая будет решаться в рамках проекта. В качестве набора данных можно использовать данные из различных контестов (kaggle и т.п.).
Произвести описание характеристик и физического смысла каждого атрибута данных. Оценить количественные характеристики набора данных, в том числе количество пропущенных значений, типы признаков (числовые, порядковые, категориальные и так далее).
Произвести предварительную обработку данных, включая, при необходимости, очистку, обработку пропущенных значений, выделение признаков, генерацию признаков и так далее.
Провести описательный анализ данных. Этот этап включает в себя определение шкалы измерения каждого признака, выявление аномальных значений, визуализацию распределения каждого признака, при необходимости — проверку на нормальность, построение корреляционных матриц и матриц совместных распределений каждого признака с целевой переменной, выявление коррелированных признаков и признаков, не несущих информации для данной задачи. При необходимости произвести понижение размерности и поиск аномалий.
Сделать выводы.
Проверить сбалансированность набора данных (в случае выявления несбалансированности принять меры). Выбрать и обосновать выбор метрик качества модели. Разделить набор данных на обучающую и тестовую выборки. Обосновать количественные характеристики и метод разделения (временной, случайный, последовательный).
Обучить несколько базовых моделей для решения выбранной задачи.
Проанализировать результаты, сделать выводы.
Выбрать наиболее перспективную модель для решения поставленной задачи. Постараться улучшить полученный результат. Это можно осуществить введением суррогатных признаков, отбором признаков, нормализацией данных, ансамблированием моделей, изменением алгоритма предварительной обработки данных. Сравнить полученные результаты.
Представить результаты моделирования в наглядном виде (графики, таблицы сравнения моделей, таблицы классификации, и другие). Сделать выводы, сравнить с существующими аналогичными решениями, порассуждать о перспективах решения проблемы.

год назад
Nakiono
35 лет
год в сервисе
Был
год назад

Заявки фрилансеров

Антон
 
21 год
год в сервисе
Был
год назад
год назад