Формат отчетных материалов
Рекомендуемая комплектация отчетных материалов
dataset/ data/ dataset_name.csv meta/ dataset_name.meta samples/ 01_load_dataset.pas 02_describe_dataset.pas 03_baseline_model.pas report/ README.md quality_report.md ai_log.md sources.mddataset/ data/ dataset_name_easy.csv dataset_name_medium.csv dataset_name_raw.csv meta/ dataset_name_easy.meta dataset_name_medium.meta dataset_name_raw.meta samples/ 01_load_easy.pas 02_describe_medium.pas 03_baseline_model.pas 04_preprocessing_raw.pas report/ README.md quality_report.md ai_log.md sources.mddataset/ data/ dataset_name_sample_1000.csv dataset_name_sample_10000.csv dataset_name_full.csv meta/ dataset_name_sample_1000.meta dataset_name_sample_10000.meta dataset_name_full.meta samples/ 01_load_sample.pas 02_describe_sample.pas 03_baseline_model.pas scripts/ preprocessing.py generate_samples.py report/ README.md quality_report.md ai_log.md sources.md license.md preprocessing.mdscripts/ обязательна только для больших реальных датасетов или для случаев, когда использовалась нетривиальная обработка данных.Содержание README.md
README.md должен быть основным текстовым описанием датасета.# Название датасета## ЦельКратко описать, зачем нужен датасет и какие задачи машинного обучения на нём можно изучать.## Предметная областьОписать, что представляют собой объекты датасета.## ФайлыПеречислить CSV-файлы, `.meta`-файлы и примеры программ.## Задачи машинного обучения- регрессия: ...- классификация: ...- кластеризация: ...## ПризнакиТаблица признаков: имя, тип, описание, роль.## Целевая переменнаяУказать target, если он есть.## Особенности данныхОписать пропуски, выбросы, категориальные признаки, строковые признаки, DateTime-признаки.## ИспользованиеКратко описать, как загрузить датасет и запустить примеры.## ОграниченияУказать, что в датасете синтетическое, что упрощено, какие есть проблемы качества.Содержание quality_report.md
Файл quality_report.md должен описывать качество данных.
Рекомендуемая структура:
# Quality report## Размер- строк: ...- столбцов: ...## Типы признаков- числовые: ...- категориальные: ...- строковые: ...- булевы: ...- DateTime: ...## ПропускиУказать признаки с пропусками и примерную долю пропусков.## Категориальные признакиУказать число уникальных значений для категориальных признаков.## Возможные выбросыОписать подозрительные или необычные значения.## Рекомендованная обработка- заполнение пропусков;- кодирование категориальных признаков;- удаление или обработка строковых признаков;- извлечение признаков из DateTime;- обработка выбросов.
Содержание ai_log.md
Файл ai_log.md должен описывать использование ИИ-помощников.
Рекомендуемая структура:
# AI usage log## Использованные инструменты- ChatGPT- GitHub Copilot- Cursor- другой инструмент## Для чего использовались- выбор темы датасета;- проектирование признаков;- генерация синтетических строк;- поиск открытых источников;- написание скриптов очистки;- подготовка `.meta`;- написание примеров PascalABC.NET;- проверка README.## Что проверено вручную- соответствие CSV и `.meta`;- типы признаков;- корректность target;- запуск примеров;- отсутствие персональных данных;- разумность значений.Содержание sources.md
Файл sources.md должен содержать информацию об источниках данных.
Если датасет полностью синтетический, нужно написать:
Датасет полностью синтетический. Реальные персональные данные не использовались.Датасет частично синтетический. Структура и диапазоны значений основаны на типичных сценариях предметной области.- название источника;
- ссылку;
- дату обращения;
- лицензию или условия использования;
- какие преобразования были выполнены.