Лабораторная 4. Исследование
Требуемые условия завершения
Открыто с: четверг, 13 ноября 2025, 00:00
Срок сдачи: среда, 24 декабря 2025, 00:00
Воспроизведите любое исследование поведения языковых моделей.
- 5 баллов. Вы воспроизвели результат на хотя бы ещё одной модели.
- 5-30 баллов. Вы сформулировали дополнительные гипотезы, вопросы и проверили их и/или использованы разнообразные модели.
Сдаётся в свободной форме оформленный отчёт + код для экспериментов (можно всё положить в один репозиторий).
Пример (можно взять в работу):
[2510.04950] Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper) - в данной статье обнаружили, что точность некоторых моделей увеличивается, если им грубить.
- Насколько эти выводы обобщаются? Возьмите датасет из статьи и проверьте поведение моделей с открытыми весами.
- Можно взять одну модель, но с разным количеством весов.
- Можно взять разные модели.
- Какой язык страшнее? Сформируйте датасет на русском языке (или любом другом поддерживаемом моделью, если вы его знаете, можно перевести языковой моделью и скорректировать) и проверьте влияние русскоязычной нецензурной брани. А если языки в одном промпте смешивать?
- Чья грубость важнее – разработчика или пользователя? Попробуйте взять модель, поддерживающую разные роли пользователей (system/developer/user) и проверьте, влияет ли источник грубости на точность.