M1. Artificial Intelligence: Лабораторная 4. Исследование

Лабораторная 4. Исследование

Открыто с: четверг, 13 ноября 2025, 00:00

Срок сдачи: среда, 24 декабря 2025, 00:00

Воспроизведите любое исследование поведения языковых моделей.

5 баллов. Вы воспроизвели результат на хотя бы ещё одной модели.
5-30 баллов. Вы сформулировали дополнительные гипотезы, вопросы и проверили их и/или использованы разнообразные модели.

Сдаётся в свободной форме оформленный отчёт + код для экспериментов (можно всё положить в один репозиторий).

Пример (можно взять в работу):
[2510.04950] Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper) - в данной статье обнаружили, что точность некоторых моделей увеличивается, если им грубить.

Насколько эти выводы обобщаются? Возьмите датасет из статьи и проверьте поведение моделей с открытыми весами.
- Можно взять одну модель, но с разным количеством весов.
- Можно взять разные модели.
Какой язык страшнее? Сформируйте датасет на русском языке (или любом другом поддерживаемом моделью, если вы его знаете, можно перевести языковой моделью и скорректировать) и проверьте влияние русскоязычной нецензурной брани. А если языки в одном промпте смешивать?
Чья грубость важнее – разработчика или пользователя? Попробуйте взять модель, поддерживающую разные роли пользователей (system/developer/user) и проверьте, влияет ли источник грубости на точность.