Лабораторная работа 2. Построение векторной модели текста. (TF-IDF)
Требуемые условия завершения
Открыто с: понедельник, 23 сентября 2024, 09:00
Срок сдачи: воскресенье, 6 октября 2024, 23:00
Задание.
- Скачайте gzip архив с набором данных с рецензиями на фильмы (объем 81б1 Мбайт) по ссылке:
http://ai.stanford.edu/~amaas/data/sentiment/ - Распакуйте архив и сохраните данные в объекте DataFrame. Выведите первые 3 и последние 3 рецензии.
- Перемешайте объект DataFrame с использованием функции permutation. Выведите первые 10 и последние 10 рецензии.
- Разделите данные на обучающее и тестовое множество в отношении 3:1.
Используя алгоритм векторизации TF-IDF, выполните бинарную классификацию отзывов на положительные и отрицательные. Для этого обучите логистическую регрессионную модель на тестовом множестве, используйте метод кросс-валидации.
Выполните предсказание на тестовом множестве. Какая получена точность?
Отчетность. Прикрепите ноутбук с прокомментированным кодом и анализом полученных результатов
- 23 сентября 2024, 08:56