Средний датасет
Средний датасет содержит от 500 до 1000 объектов.
Такой датасет должен позволять не только построить простую модель, но и показать типичные аспекты обработки данных: пропуски, категориальные признаки, строковые признаки, выбросы, временные признаки, разные версии качества данных.
Для среднего датасета желательно подготовить 2–3 версии:
easy– простая очищенная версияmedium– версия с умеренными пропусками и категориальными признакамиraw– более «сырая» версия, требующая предварительной обработки
Пример файлов:
used_cars_ru_easy.csv
used_cars_ru_easy.meta
used_cars_ru_medium.csv
used_cars_ru_medium.meta
used_cars_ru_raw.csv
used_cars_ru_raw.meta
Характеристики версий:
Версия easy
- нет или почти нет пропусков
- мало категориальных значений
- нет длинных текстовых признаков
- можно сразу запускать базовую модель
Версия medium
- есть небольшое количество пропусков
- есть категориальные признаки
- возможны признаки типа
DateTime - требуется базовая предобработка
Версия raw
- есть пропуски
- есть выбросы
- есть длинные строковые поля
- есть неудачные или пересекающиеся признаки
- требуется осмысленная очистка данных
Примеры тем:
- аренда квартир
- недвижимость Москвы, Санкт-Петербурга, Ростова-на-Дону или другого города
- российские вузы
- школы и образовательные организации
- вакансии в ИТ
- товары российских интернет-магазинов
- туристические объекты России
- городской транспорт
- продажи учебного магазина
- погода по городам России
- спортивные результаты
- активность студентов в Moodle