Перейти к основному содержанию
EDU-MMCS
Вы используете гостевой доступ (Вход)

Data Mining - методы анализа и обработки данных

  1. В начало
  2. Курсы
  3. Весенний семестр
  4. Фундаментальная информатика и ИТ
  5. Data Mining
  6. Гладковой
  7. 6_NN_Clustering

6_NN_Clustering

Требуемые условия завершения
Открыто с: вторник, 21 апреля 2026, 00:00
Срок сдачи: вторник, 12 мая 2026, 18:00

Кластеризация данных с помощью нейросети

Необходимо обучить нейросеть-энкодер для кластеризации изображений на одном из стандартных датасетов: MNIST, Fashion-MNIST или CIFAR-10.

Идея подхода: нейросеть не кластеризует сама по себе — она преобразует исходные пиксели в компактные эмбеддинги (векторы меньшей размерности), в которых объекты одного класса расположены близко друг к другу. Кластеризация затем выполняется обычным K-Means поверх этих эмбеддингов.

Обучение происходит итеративно: на каждой эпохе K-Means назначает метки кластеров, по меткам вычисляется функция потерь, и эта потеря обновляет веса энкодера — чтобы на следующей эпохе эмбеддинги разделялись лучше.

⚠️ Использование готовых реализаций DEC (Deep Embedded Clustering) запрещено. Энкодер и функции потерь реализуются самостоятельно.


Целевые функции

Необходимо реализовать кластеризацию с тремя различными функциями потерь и сравнить результаты.

Внутрикластерный разброс — минимизируем суммарное попарное расстояние между точками внутри каждого кластера. Чем меньше значение, тем плотнее кластеры:

$$F(w, b) = \min \sum_C \sum_{x_i, x_j \in C} d(x_i, x_j)$$

Расстояние до центроидов — минимизируем среднее расстояние от каждой точки до центра её кластера. Более быстрый в вычислении вариант предыдущей функции:

$$F(w, b) = \frac{1}{N} \sum_n \sum_i (x_i^{(n)} - C_i)^2$$

Silhouette Loss — наиболее информативная функция: штрафует не только за "размазанность" своего кластера, но и за близость чужих кластеров. Максимизируем силуэтный коэффициент (минимизируем его отрицание):

$$L = -\frac{1}{N} \sum_{i=1}^{N} \frac{b(x_i) - a(x_i)}{\max(a(x_i), b(x_i))}$$

где $a(x_i)$ — среднее расстояние до точек своего кластера, $b(x_i)$ — среднее расстояние до ближайшего чужого кластера.


Оценка качества

После обучения с каждой из трёх функций потерь вычислите метрики и сравните результаты:

  • Silhouette Score
  • Adjusted Rand Index (ARI)
  • Normalized Mutual Information (NMI)

Истинные метки классов (цифры 0–9 в MNIST и т.д.) используются только для оценки после построения кластеров — не в процессе обучения.


Визуализация

Полученные кластеры необходимо визуализировать с использованием методов снижения размерности (PCA или t-SNE). Визуализация должна позволять сравнить, насколько хорошо разделяются эмбеддинги при каждой из трёх функций потерь.


◄ 5_Fuzzy_C-Means
7_Clustering_Project ►
Пропустить Навигация
Навигация
  • В начало

    • Страницы сайта

      • Мои курсы

      • Теги

    • Мои курсы

    • Курсы

      • Весенний семестр

        • Прикладная математика и информатика

        • Фундаментальная информатика и ИТ

          • Web-разработка

          • Modern Optimization Methods

          • CS292

          • Project activity

          • HTML, CSS, and Javascript

          • Frontend development

          • CS351

          • Data Mining

            • Общее

            • Кластеризация данных

            • Кластеризация данных (продолжение)

            • Категориальные признаки данных

            • Сегментация посетителей

            • Метрики качества кластеризации. ROC - кривые.

            • Разброс в кластерах, определение числа кластеров

            • Редукция размерности пространства характеристик

            • Кластеризация - резюме

            • Нейросети

            • Нейросети, классификация данных

            • Выделение фоновых данных

            • Нейросети и кластеризация данных

            • Гладковой

              • Задание0_Intro

              • Задание1_simplest_clustering

              • Задание2_K-means

              • Задание3_Clustering_comparison

              • Задание4_K_Modes

              • Задание5_Fuzzy_C-Means

              • Задание6_NN_Clustering

              • Задание7_Clustering_Project

          • GraphAlgoEn

          • [β] CS211a. ЯП С#

          • ОрбПО

        • Математика, механика

        • Педагогическое образование

        • Магистратура

          • Разработка мобильных приложений и компьютерных игр

        • Аспирантура

        • Вечернее отделение

        • Другое

        • ТФНД

        • МО_4курс

        • KP

        • АБМ1_ИИБ_25-26

        • Java Eng

        • МО (ПО)

      • Осенний семестр

        • Прикладная математика и информатика

        • Фундаментальная информатика и ИТ

        • Математика, механика

        • Педагогическое образование

        • Магистратура

          • Разработка мобильных приложений и компьютерных игр

        • Аспирантура

        • Вечернее отделение

        • Другое

      • Воскресная компьютерная школа

        • Пользователь компьютера плюс

        • Пользователь прикладных программ

        • Программирование I ступень

        • Программирование II ступень

        • Программирование III ступень

        • Архив

      • Воскресная математическая школа

        • Открытое тестирование РНОМЦ и мехмата ЮФУ

          • Открытое тестирование РНОМЦ и мехмата ЮФУ - 2026

          • Открытое тестирование РНОМЦ и мехмата ЮФУ - 2025

        • Олимпиадная математическая школа

        • Повышение квалификации

        • Доступная математика

        • Лаборатория математического онлайн-образования мех...

        • Осенняя универсиада

        • Научно-практическая конференция

        • ВМШ

          • ВМШ -2025

        • Летняя олимпиадная математическая школа РНОМЦ и ме...

      • Государственная итоговая аттестация

      • Дополнительное образование

      • Олимпиады

      • Видеолекции

      • Разное

      • Архив курсов

      • Заочная школа мехмата ЮФУ

Вы используете гостевой доступ (Вход)
Data Mining
Сводка хранения данных
Скачать мобильное приложение Яндекс.Метрика