Средний датасет содержит от 500 до 1000 объектов.

Такой датасет должен позволять не только построить простую модель, но и показать типичные аспекты обработки данных: пропуски, категориальные признаки, строковые признаки, выбросы, временные признаки, разные версии качества данных.

Для среднего датасета желательно подготовить 2–3 версии:

  • easy – простая очищенная версия
  • medium – версия с умеренными пропусками и категориальными признаками
  • raw – более «сырая» версия, требующая предварительной обработки

Пример файлов:

used_cars_ru_easy.csv
used_cars_ru_easy.meta

used_cars_ru_medium.csv
used_cars_ru_medium.meta

used_cars_ru_raw.csv
used_cars_ru_raw.meta

Характеристики версий:

Версия easy
  • нет или почти нет пропусков
  • мало категориальных значений
  • нет длинных текстовых признаков
  • можно сразу запускать базовую модель
Версия medium
  • есть небольшое количество пропусков
  • есть категориальные признаки
  • возможны признаки типа DateTime
  • требуется базовая предобработка
Версия raw
  • есть пропуски
  • есть выбросы
  • есть длинные строковые поля
  • есть неудачные или пересекающиеся признаки
  • требуется осмысленная очистка данных

Примеры тем:

  • аренда квартир
  • недвижимость Москвы, Санкт-Петербурга, Ростова-на-Дону или другого города
  • российские вузы
  • школы и образовательные организации
  • вакансии в ИТ
  • товары российских интернет-магазинов
  • туристические объекты России
  • городской транспорт
  • продажи учебного магазина
  • погода по городам России
  • спортивные результаты
  • активность студентов в Moodle