4_K_Modes
Необходимо реализовать алгоритм K-Modes для кластеризации категориальных данных на примере датасета Mushrooms. Использование готовой реализации K-Modes запрещено.
Представление категориальных признаков
После реализации алгоритма необходимо исследовать влияние способа кодирования категориальных признаков. Требуется применить кластеризацию при трёх вариантах представления данных:
- Label Encoding;
- One-Hot Encoding;
- Embedding-представление категорий (вы можете взять любую sbert модель, например) .
Визуализация
Полученные кластеры необходимо визуализировать с использованием методов снижения размерности (например PCA или t-SNE). Визуализация должна позволять сравнить результаты различных способов кодирования.
Оценка качества
Хотя задача формально является кластеризацией, в датасете присутствует истинная метка (съедобный / ядовитый гриб). Используйте её только для оценки качества после построения кластеров.
Необходимо сопоставить кластеры с классами, вычислить метрики и интерпретировать результат:
- Sensitivity (Recall для положительного класса),
- Specificity,
- Adjusted Rand Index (ARI);
- Normalized Mutual Information (NMI).