Перейти к основному содержанию
EDU-MMCS
Вы используете гостевой доступ (Вход)

Искусственный интеллект

  1. В начало
  2. Курсы
  3. Весенний семестр
  4. Магистратура
  5. M1. Artificial Intelligence
  6. Большие Языковые Модели
  7. Лабораторная 2. Эмбеддинги

Лабораторная 2. Эмбеддинги

Требуемые условия завершения
Открыто с: пятница, 3 октября 2025, 00:00
Срок сдачи: среда, 29 октября 2025, 00:00

Цель лабораторной работы: познакомиться с эмбеддингами.

Ключевая идея: эмбеддингами можно сравнивать похожесть текстов по смыслу.

Можно делать в группах до 5 человек при соответствующем качестве.

Творческий подход приветствуется.

Результат можно будет переиспользовать в следующих лабораторных

 

Результат предлагается оформить в виде микросервиса или CLI приложения, публикация в виде гитхаб-репозитория приветствуется.

Стек: любой.

Предлагаемые технологии:

  • Эмбеддинг модели: поднять локально ollama и выбрать модели оттуда. Взаимодействовать через REST API. Можно поднять в докере. 

  • Векторная база данных (если нужна): postgres+pgvector. Клиенты есть почти под любой язык. В документации клиентов есть примеры минимальных решений для некоторых вариантов.

 

Общие бонусные задачи:

  • Есть UI в виде минимального фронтенда.

  • Есть docker-compose и проект одной командой запустится у преподавателя (пусть и без данных).

  • Проведено сравнение эффективности разных эмбеддинг моделей.

  • Проведено сравнение разных функций расстояния.

 

Оценка: 5-20 баллов

 

Вариант 1. Ведущий для викторин

Пусть есть список вопросов и ответов (составьте сами, найдите в интернете (для ЧГК или своей игры) или сгенерируйте LLM). С помощью модели с эмбеддингом сравнивайте близость ответа участника с правильным ответом.

Минимальное решение: на вход приходит правильный ответ и ответ участника, утилита возвращает “совпадает”/”не совпадает”.

Полное решение:

  • Администратор может загружать викторины, хранятся в базе данных, эмбединги посчитаны заранее.

  • Пользователь может проходить викторины, получая вопросы и отправляя только свои ответы.

Дополнительные задания:

  • Сравните качество с моделью LLM, попросив её сначала порассуждать, а потом выдать только true или false.

 

Вариант 2. Поиск по базе знаний

Возьмите набор статей (вики по фандому, документация к библиотеке, код вашего большого петпроекта) и сделайте поиск по нему на основе эмбеддингов с использованием векторной базы данных.

Минимальное решение: по текстовому запросу выдаётся n ссылок на похожие документы.

Полное решение:

  • Проработаны механизмы разбиения текста: заголовки, отдельные абзацы.

Дополнительное задание:

  • Сравните разные индексы для векторных полей.

  • В качестве доменной области выберите PascalABC.Net https://pascalabc.net/downloads/pabcnethelp/index.htm

Будущее развитие: использование в составе RAG как справочник для LLM.

 

Вариант 3. Автоматическая расстановка тегов

Возьмите размеченный датасет текстов с тегами, засуньте в векторную базу данных, и на основе множества тегов для k похожих текстов предложите подходящие теги. Например, анекдоты с тегами по тематикам (плюс анекдотов - они короткие и много сайтов с тегированными анекдотами).

Минимальное решение: на вход один анекдот, на выходе теги.

Полное решение: датасет разбит на тестовую и “обучающую” выборки, проведена оценка качества расстановки тегов.

Дополнительное задание:

  • Используются объёмные тексты, подобрана стратегия их разбиения на чанки.

  • Сравните разные индексы для векторных полей.

  • Сравните разные функции расстояния.

 

Вариант 4. Рекомендательная система (content-based)

На основе описаний фильмов/игр/товаров, загруженных в базу данных, предложите похожие.

Минимальное решение: на вход описание нового фильма, на выходе предлагаются похожие.

Полное решение: проведён анализ качества рекомендаций в зависимости от используемых функций расстояния и превращаемых в эмбеддинг данных (помимо описания можно включать другие данные).

 

◄ Лабораторная 1. Знакомство
Пропустить Навигация
Навигация
  • В начало

    • Страницы сайта

      • Мои курсы

      • Теги

    • Мои курсы

    • Курсы

      • Весенний семестр

        • Прикладная математика и информатика

        • Фундаментальная информатика и ИТ

        • Математика, механика

        • Педагогическое образование

        • Магистратура

          • Разработка мобильных приложений и компьютерных игр

          • Научные вычисления - 2025

          • ИАБолДанн

          • История инф

          • Data Scince и АД

          • МО (маг ИИ)

          • NLP

          • M1. Artificial Intelligence

            • Общее

            • Введение

            • Построение пути и навигация

            • ROS 2

            • Алгоритмы принятия решений

            • Большие Языковые Модели

              • ЗаданиеЛабораторная 1. Знакомство

              • ЗаданиеЛабораторная 2. Эмбеддинги

            • Тема 15

            • Тема 16

            • Тема 17

            • Тема 18

            • Тема 19

            • Тема 20

          • CSm2Research

          • Мат. модели в МСС

          • НИС

          • Свертки

        • Аспирантура

        • Вечернее отделение

        • Другое

        • ОИИ

      • Осенний семестр

        • Прикладная математика и информатика

        • Фундаментальная информатика и ИТ

        • Математика, механика

        • Педагогическое образование

        • Магистратура

          • Разработка мобильных приложений и компьютерных игр

        • Аспирантура

        • Вечернее отделение

        • Другое

      • Воскресная компьютерная школа

        • Пользователь компьютера плюс

        • Пользователь прикладных программ

        • Программирование I ступень

        • Программирование II ступень

        • Программирование III ступень

        • Архив

      • Воскресная математическая школа

        • Открытое тестирование РНОМЦ и мехмата ЮФУ - 2025

        • Олимпиадная математическая школа

        • Повышение квалификации

        • Доступная математика

        • Лаборатория математического онлайн-образования мех...

        • Осенняя универсиада

        • Научно-практическая конференция

        • ВМШ

          • ВМШ -2025

        • Летняя олимпиадная математическая школа РНОМЦ и ме...

      • Государственная итоговая аттестация

      • Дополнительное образование

      • Олимпиады

      • Видеолекции

      • Разное

      • Архив курсов

      • Заочная школа мехмата ЮФУ

Служба поддержки сайта
Вы используете гостевой доступ (Вход)
M1. Artificial Intelligence
Сводка хранения данных
Скачать мобильное приложение Яндекс.Метрика