Создать файл типа ipynb (Python 3.10). 1. Выбрать датасет с сайта kaggle.com (www.kaggle.com/datasets) Для выбранного датасета оформить в том файле решение следующих задач: - сформулировать постановку основной задачи, которая будет решаться в проекте (классификация или регрессия); - рассчитать основные описательные статистики; - провести визуальный анализ данных, построив графики разных типов для количественных и качественных признаков; - построить графики, сгруппировав признаки по градациям целевой переменной (в случае задачи классификации) или графики зависимости признаков от значений целевого признака (в случае задачи регрессии); - обработать пропущенные значения, заменив пропуски модой, медианой или средним (обосновать выбор метода). Строки с пропусками в целевой переменной удалить; - построить графики еще раз; - сохранить обработанный датасет; - построить классификаторы для выбранного целевого признака (или перейти от задачи регрессии к задаче классификации, введя дополнительный столбец – класс, разбив значения целевого признака на два класса). 2. Использовать логистическую регрессию и деревья решений с параметрами по умолчанию: - подобрать 2-3 оптимальных параметра; - рассчитать метрики для всех построенных классификаторов, включая AUC; - выбрать наилучшую модель и описать, как ею можно пользоваться для новых данных.  Предоставить такую возможность проверяющему – подготовить демонстрационный пример загрузки новых данных. Для этого: - построить регрессию признаков на значения целевой переменной (в случае основной задачи проекта – регрессии) или преобразовать один из признаков в непрерывный (в случае задачи классификации), убедившись предварительно в отсутствии сильной корреляции. Сильно коррелирующие признаки исключить; - рассчитать метрики качества регрессионной модели с параметрами по умолчанию; - подобрать 2-3 оптимальных параметра моделей; - выбрать наилучшую модель, описать, как ею можно пользоваться, предоставить проверяющему возможность загрузки внешних данных и получения ответа. - создать файл (в формате word), загрузив в него текст описания проблемы, связанной с вашим датасетом и описание самого датасета с веб-страницы сайта kaggle. 3. Предобработать текст, исключить стоп-слова, цифры и спецсимволы, знаки пунктуации; - нормализовать текст; - построить облако тегов; Оформить  весь вышеописанный проект в виде презентации (в формате ipynb)

Похожие

Посмотрите другие вакансии

Вот самые похожие вакансии

Новый поиск