Рекомендуемая комплектация отчетных материалов

Рекомендуемая структура архива для одного датасета:
dataset/
  data/
    dataset_name.csv

  meta/
    dataset_name.meta

  samples/
    01_load_dataset.pas
    02_describe_dataset.pas
    03_baseline_model.pas

  report/
    README.md
    quality_report.md
    ai_log.md
    sources.md

Рекомендуемая структура архива для среднего датасета с несколькими версиями:
dataset/
  data/
    dataset_name_easy.csv
    dataset_name_medium.csv
    dataset_name_raw.csv

  meta/
    dataset_name_easy.meta
    dataset_name_medium.meta
    dataset_name_raw.meta

  samples/
    01_load_easy.pas
    02_describe_medium.pas
    03_baseline_model.pas
    04_preprocessing_raw.pas

  report/
    README.md
    quality_report.md
    ai_log.md
    sources.md

Рекомендуемая структура архива для большого реального датасета:
dataset/
  data/
    dataset_name_sample_1000.csv
    dataset_name_sample_10000.csv
    dataset_name_full.csv

  meta/
    dataset_name_sample_1000.meta
    dataset_name_sample_10000.meta
    dataset_name_full.meta

  samples/
    01_load_sample.pas
    02_describe_sample.pas
    03_baseline_model.pas

  scripts/
    preprocessing.py
    generate_samples.py

  report/
    README.md
    quality_report.md
    ai_log.md
    sources.md
    license.md
    preprocessing.md

Директория scripts/ обязательна только для больших реальных датасетов или для случаев, когда использовалась нетривиальная обработка данных.


Содержание README.md

Файл README.md должен быть основным текстовым описанием датасета.

Рекомендуемая структура:
# Название датасета

## Цель

Кратко описать, зачем нужен датасет и какие задачи машинного обучения на нём можно изучать.

## Предметная область

Описать, что представляют собой объекты датасета.

## Файлы

Перечислить CSV-файлы, `.meta`-файлы и примеры программ.

## Задачи машинного обучения

- регрессия: ...
- классификация: ...
- кластеризация: ...

## Признаки

Таблица признаков: имя, тип, описание, роль.

## Целевая переменная

Указать target, если он есть.

## Особенности данных

Описать пропуски, выбросы, категориальные признаки, строковые признаки, DateTime-признаки.

## Использование

Кратко описать, как загрузить датасет и запустить примеры.

## Ограничения

Указать, что в датасете синтетическое, что упрощено, какие есть проблемы качества.


Содержание quality_report.md

Файл quality_report.md должен описывать качество данных.

Рекомендуемая структура:

# Quality report

## Размер

- строк: ...
- столбцов: ...

## Типы признаков

- числовые: ...
- категориальные: ...
- строковые: ...
- булевы: ...
- DateTime: ...

## Пропуски

Указать признаки с пропусками и примерную долю пропусков.

## Категориальные признаки

Указать число уникальных значений для категориальных признаков.

## Возможные выбросы

Описать подозрительные или необычные значения.

## Рекомендованная обработка

- заполнение пропусков;
- кодирование категориальных признаков;
- удаление или обработка строковых признаков;
- извлечение признаков из DateTime;
- обработка выбросов.


Содержание ai_log.md

Файл ai_log.md должен описывать использование ИИ-помощников.

Рекомендуемая структура:

# AI usage log

## Использованные инструменты

- ChatGPT
- GitHub Copilot
- Cursor
- другой инструмент

## Для чего использовались

- выбор темы датасета;
- проектирование признаков;
- генерация синтетических строк;
- поиск открытых источников;
- написание скриптов очистки;
- подготовка `.meta`;
- написание примеров PascalABC.NET;
- проверка README.

## Что проверено вручную

- соответствие CSV и `.meta`;
- типы признаков;
- корректность target;
- запуск примеров;
- отсутствие персональных данных;
- разумность значений.

Содержание sources.md

Файл sources.md должен содержать информацию об источниках данных.

Если датасет полностью синтетический, нужно написать:

Датасет полностью синтетический. Реальные персональные данные не использовались.

Если данные частично синтетические:

Датасет частично синтетический. Структура и диапазоны значений основаны на типичных сценариях предметной области.

Если использованы реальные открытые данные, нужно указать:
  • название источника;    
  • ссылку;    
  • дату обращения;    
  • лицензию или условия использования;    
  • какие преобразования были выполнены.