Тематический план
-
Машинное обучение. Виды признаков. Обучающая выборка. Задачи классификации, регрессии, ранжирования. Эмпирический риск. Обучение и переобучение.
Задачи классификации и регрессии. Понятие отступа. Метод стохастического градиента. Математическая модель искусственного нейрона. Функция активации. Проблема полноты. Задача исключающего ИЛИ. Метод обратного распространения ошибки. Многослойная нейронная сеть. Эвристики обучения нейронной сети и ускорения сходимости. Формирование начального приближения. Проблема «паралича» сети. Метод послойной настройки сети. Подбор структуры сети. Метод постепенного усложнения сети. Промежуточные представления.
Модель Word2vec. Модели CBoW и Skip-gram. Negative Sampling. Реализация модели word2vec в пакете Gensim.
-
Быстрые методы стохастического градиента (Поляка, Нестерова, AdaGrad, RMSProp, AdaDelta, Adam, Nadam). Проблема взрыва градиента и эвристика gradient clipping. Метод случайных отключений нейронов (Dropout). Интерпретации Dropout. Обратный Dropout и L2-регуляризация. Батч-нормализация. Функции активации ReLU и PReLU. Мини-батчи. BLAS3 операции.
Обучение рекуррентных сетей. Backpropagation Through Time (BPTT). Слои RNN, GRU, LSTM. Их устройство и отличия.
Свёрточные нейронные сети. Pooling. Zero-padding. Понятие рецептивного поля.
Sequence labeling, Named Entities Recognition (NER), Named Entities Linkage (NEL). Пакет Spacy.
-
Обработка естественного языка (Natural Language Processing, NLP). Области применения NLP.
Sequence-to-Sequence архитектура. Attention. Neural Turing Machine (NTM). Задачи автоматического машинного перевода текстов, обобщения текстов.
Построение чат-ботов с помощью глубоких нейронных сетей. Обзор существующих подходов (Retrieval-Based, Generative Models). Понятия Open Domain, Closed Domain.
Модель Transformer. Машинный перевод без корпуса параллельных текстов.