Формат .meta-файла

Для каждого CSV-файла должен быть подготовлен .meta-файл с метаинформацией о датасете.

Формат .meta – простой текстовый формат: ключ = значение

Пример:
name = MoscowHousing

task = regression

features = rooms,area,kitchen_area,floor,floors_total,metro_minutes,renovation
target = price

description.en = Apartment prices in Moscow with basic structural and location features.
description.ru = Цены на квартиры в Москве с основными характеристиками жилья и расположения.

source = Real estate listings (aggregated dataset)
url = https://example.com/moscow-housing

feature.price = float
feature.rooms = int
feature.area = float
feature.kitchen_area = float
feature.floor = int
feature.floors_total = int
feature.metro_minutes = float
feature.renovation = categorical

feature.price.ru = цена квартиры
feature.rooms.ru = число комнат
feature.area.ru = площадь квартиры
feature.kitchen_area.ru = площадь кухни
feature.floor.ru = этаж
feature.floors_total.ru = этажей в доме
feature.metro_minutes.ru = минуты до метро
feature.renovation.ru = тип ремонта

feature.price.en = apartment price
feature.rooms.en = number of rooms
feature.area.en = apartment area
feature.kitchen_area.en = kitchen area
feature.floor.en = floor
feature.floors_total.en = total floors in building
feature.metro_minutes.en = minutes to metro
feature.renovation.en = renovation type

value.renovation.without.ru = без ремонта
value.renovation.cosmetic.ru = косметический
value.renovation.euro.ru = евроремонт
value.renovation.designer.ru = дизайнерский

value.renovation.without.en = without renovation
value.renovation.cosmetic.en = cosmetic
value.renovation.euro.en = european renovation
value.renovation.designer.en = designer renovation


Обязательные поля .meta

В .meta-файле должны быть указаны:

name = ...
task = ...
features = ...
target = ...
description.ru = ...
description.en = ...
source = ...
url = ...

Если у датасета нет целевой переменной, например для задачи кластеризации, можно указать:

task = clustering
target = none


Допустимые типы признаков

В .meta используются следующие типы признаков:

  • int
  • float
  • string
  • categorical
  • bool
  • DateTime

Значение типа DateTime используется для дат и времени.

Пример:
feature.sale_date = DateTime
feature.sale_date.format = yyyy-MM-dd
feature.sale_date.ru = дата продажи
feature.sale_date.en = sale date

Рекомендуемый формат дат: yyyy-MM-dd
Пример значения в CSV: 

Если используется дата и время, рекомендуется формат: yyyy-MM-dd HH:mm:ss

Пример: 2025-03-17 14:30:00


Дополнительные поля .meta

Рекомендуется также указывать:

title.ru = ...
title.en = ...
family = ...
variant = ...
rows = ...
columns = ...
version = ...
license = ...
synthetic = ...
missing = ...
missing_values = ...

Пример:
title.ru = Цены на квартиры в Москве
title.en = Moscow apartment prices

family = MoscowHousing
variant = medium

rows = 1200
columns = 8
version = 1.0

license = educational
synthetic = partial

missing = yes
missing_values = NA

Поле synthetic может принимать значения:
  • no – данные реальные
  • partial – данные частично синтетические
  • full – данные полностью синтетические

Пример .meta с DateTime-признаком

name = ShopSalesRU
title.ru = Продажи учебного магазина
title.en = Educational shop sales

task = regression
family = ShopSalesRU
variant = medium

rows = 3000
columns = 9
version = 1.0

features = sale_date,city,category,brand,price,discount,quantity,is_weekend
target = revenue

description.ru = Учебный датасет продаж магазина с датами, категориями товаров и выручкой.
description.en = Educational shop sales dataset with dates, product categories and revenue.

source = synthetic dataset based on typical retail scenarios
url = none
license = educational
synthetic = full

missing = yes
missing_values = NA

feature.sale_date = DateTime
feature.city = categorical
feature.category = categorical
feature.brand = categorical
feature.price = float
feature.discount = float
feature.quantity = int
feature.is_weekend = bool
feature.revenue = float

feature.sale_date.format = yyyy-MM-dd

feature.sale_date.ru = дата продажи
feature.city.ru = город
feature.category.ru = категория товара
feature.brand.ru = бренд
feature.price.ru = цена товара
feature.discount.ru = скидка
feature.quantity.ru = количество
feature.is_weekend.ru = выходной день
feature.revenue.ru = выручка

feature.sale_date.en = sale date
feature.city.en = city
feature.category.en = product category
feature.brand.en = brand
feature.price.en = product price
feature.discount.en = discount
feature.quantity.en = quantity
feature.is_weekend.en = weekend flag
feature.revenue.en = revenue