FIITDS: Средний датасет

Средний датасет

Средний датасет содержит от 500 до 1000 объектов.

Такой датасет должен позволять не только построить простую модель, но и показать типичные аспекты обработки данных: пропуски, категориальные признаки, строковые признаки, выбросы, временные признаки, разные версии качества данных.

Для среднего датасета желательно подготовить 2–3 версии:

easy – простая очищенная версия
medium – версия с умеренными пропусками и категориальными признаками
raw – более «сырая» версия, требующая предварительной обработки

Пример файлов:

used_cars_ru_easy.csv
used_cars_ru_easy.meta

used_cars_ru_medium.csv
used_cars_ru_medium.meta

used_cars_ru_raw.csv
used_cars_ru_raw.meta

Характеристики версий:

Версия `easy`

нет или почти нет пропусков
мало категориальных значений
нет длинных текстовых признаков
можно сразу запускать базовую модель

Версия `medium`

есть небольшое количество пропусков
есть категориальные признаки
возможны признаки типа DateTime
требуется базовая предобработка

Версия `raw`

есть пропуски
есть выбросы
есть длинные строковые поля
есть неудачные или пересекающиеся признаки
требуется осмысленная очистка данных

Примеры тем:

аренда квартир
недвижимость Москвы, Санкт-Петербурга, Ростова-на-Дону или другого города
российские вузы
школы и образовательные организации
вакансии в ИТ
товары российских интернет-магазинов
туристические объекты России
городской транспорт
продажи учебного магазина
погода по городам России
спортивные результаты
активность студентов в Moodle

Средний датасет

Версия easy

Версия medium

Версия raw

Версия `easy`

Версия `medium`

Версия `raw`