Перейти к основному содержанию
EDU-MMCS
Вы используете гостевой доступ (Вход)

Основы работы с данными для ИИ

  1. В начало
  2. Курсы
  3. Осенний семестр
  4. Фундаментальная информатика и ИТ
  5. DataSc101
  6. Тема 4
  7. Темы проекта

Темы проекта

Требуемые условия завершения
Открыто с: четверг, 11 декабря 2025, 00:00
Срок сдачи: вторник, 23 декабря 2025, 23:59

Задачи:

1. Анализ данных в Python (pandas и numpy)

Загрузить датасет в формате CSV и выполнить полный анализ данных. Минимальные требования:

A. Загрузка и первичный обзор
  • загрузить данные через pandas;

  • вывести первые/последние строки;

  • посмотреть структуру данных;

  • проверить типы данных и при необходимости привести их к корректным типам.

B. Обработка данных

Нужно выполнить::

  1. Пропущенные значения

    • найти пропуски (isnull, isna);

    • посчитать количество пропусков по столбцам;

    • выбрать стратегию заполнения или удаления:

      • удаление строк/столбцов;

      • заполнение медианой/средним/модой/значениями по группам.

  2. Дубликаты

    • найти дубликаты (duplicated);

    • вывести количество дублирующихся строк;

    • удалить их при необходимости (drop_duplicates).

  3. Выбросы (при необходимости)

    • с помощью z-score из numpy;

    • визуально (boxplot).

Статистики данных:

  • описательная статистика (describe);

  • подсчёт уникальных значений, частоты;

  • корреляционный анализ (corr).

C. Визуализация данных

Нужно построить минимум 5 графиков:

  • гистограммы распределений;

  • линейный график;

  • столбчатые диаграммы;

  • boxplot;

  • heatmap корреляций.

Можно использовать:
matplotlib, seaborn, plotly.

D. Группировки и агрегации

Нужно применить группировки (groupby) и выполнить минимум 3 вида агрегаций:

Примеры:

  • среднее / медиана по группам;

  • подсчёт количества;

  • суммирование;

  • построение сводной таблицы (pivot_table).


2. Аналитика в Yandex DataLens

Необходимо:

  1. Загрузить датасет в Datalens.

  2. Создать минимум 3 чарта:

    • диаграмма по категориям,

    • линейный график,

    • таблица или карта (если есть геоданные).

  3. Создать дашборд минимум из 3 визуализаций.

  4. Настроить:

    • фильтры,

    • селекторы,

    • интерактивность графиков.


3. Публикация проекта на GitHub

Нужно

  1. Создать публичный репозиторий.

  2. Добавить:

    • Jupyter Notebook (.ipynb) с анализом;

    • исходный CSV-датасет;

    • README.md с описанием проекта.

  3. Сделать минимум два коммита:

    • первый — загрузка исходных данных и структуры проекта;

    • второй — финальный анализ и визуализации.


Возможные варианты:
1. Поведение покупателей
2. Модные тренды зимы
3. Книги
4. Сон и образ жизни
5. Свой вариант 

Выбор варианта нужно утвердить у преподавателя

Проект принимается только при защите у преподавателя с ответами на вопросы

  • google_books_dataset.csv google_books_dataset.csv
    11 декабря 2025, 10:15
  • shopping_behavior.csv shopping_behavior.csv
    11 декабря 2025, 10:15
  • Sleep_health_and_lifestyle_dataset.csv Sleep_health_and_lifestyle_dataset.csv
    11 декабря 2025, 10:15
  • Winter_Fashion_Trends_Dataset.csv Winter_Fashion_Trends_Dataset.csv
    11 декабря 2025, 10:15
◄ Лабораторная 12. Разметка датасетов
Варианты ФИИТ-4 ►
Пропустить Навигация
Навигация
  • В начало

    • Страницы сайта

      • Мои курсы

      • Теги

    • Мои курсы

    • Курсы

      • Осенний семестр

        • Прикладная математика и информатика

        • Фундаментальная информатика и ИТ

          • Probability Theory and Mathematical Statistics

          • Научные Вычислительные Пакеты

          • DataSc101

            • Общее

            • Основы работы с Git и GitHub

            • Работа с Яндекс. Даталенс

            • Анализ данных в Python

            • Тема 4

              • ЗаданиеТемы проекта

              • СтраницаВарианты ФИИТ-4

              • СтраницаВарианты ПМИ-2

            • Тема 5

            • Тема 6

            • Тема 7

            • Тема 8

          • NLP (7 семестр)

          • Compiler Development

          • CMVSM

          • АЗПК

          • Frontend

          • ТеорЯП

          • Ruby Eng

          • EngCA&OS

        • Математика, механика

        • Педагогическое образование

        • Магистратура

          • Разработка мобильных приложений и компьютерных игр

        • Аспирантура

        • Вечернее отделение

        • Другое

        • Экзамен ИКТ

        • ТестИИ

        • Информатика-Осень-ПМИ-2

        • Информатика-осень-ПМИ-1

        • ИММвс

      • Весенний семестр

        • Прикладная математика и информатика

        • Фундаментальная информатика и ИТ

        • Математика, механика

        • Педагогическое образование

        • Магистратура

          • Разработка мобильных приложений и компьютерных игр

        • Аспирантура

        • Вечернее отделение

        • Другое

      • Воскресная компьютерная школа

        • Пользователь компьютера плюс

        • Пользователь прикладных программ

        • Программирование I ступень

        • Программирование II ступень

        • Программирование III ступень

        • Архив

      • Воскресная математическая школа

        • Открытое тестирование РНОМЦ и мехмата ЮФУ - 2025

        • Олимпиадная математическая школа

        • Повышение квалификации

        • Доступная математика

        • Лаборатория математического онлайн-образования мех...

        • Осенняя универсиада

        • Научно-практическая конференция

        • ВМШ

          • ВМШ -2025

        • Летняя олимпиадная математическая школа РНОМЦ и ме...

      • Государственная итоговая аттестация

      • Дополнительное образование

      • Олимпиады

      • Видеолекции

      • Разное

      • Архив курсов

      • Заочная школа мехмата ЮФУ

Вы используете гостевой доступ (Вход)
DataSc101
Сводка хранения данных
Скачать мобильное приложение Яндекс.Метрика