# Обзор алгоритмов машинного обучения

## 1. Особенности работы алгоритмов

Представьте графически работу различных алгортмов машинного обучения и сохраните картинки в отчете (удобней всего в google-docs). Для этого:
* Возьмите датасет вашего варианта (см. список ниже). Найдите два **количественных** признака, от которых сильнее всего зависит целевой. Далее работайте с датасетом, содержащим только эти два признака и целевой.
* Постройте график рассеяния всей выборки (отобразив цветом целевой класс) и небольшой случайной подвыборки, на которой вы будете тестировать алгоритмы (несколько десятков/сотен объектов). 
* Постройте карты работы следующих алгоритмов для разных значений параметров: sklearn.tree.DecisionTreeClassifier, sklearn.neighbors.KNeighborsClassifier, sklearn.svm.SVC с rbf ядром. Подберите параметры так, чтобы алгоритм оказался недообучен и переобучен (для SVC нужно уменьшить размер выборки). Отобразите те области карты, на которых лучше всего видна степень обученности модели и разместите две картинки в один ряд в отчете
* Сравните карты работы линейной регрессии sklearn.linear_model.LinearRegression с картой одного из более устойчивых линейных алгоритмов: sklearn.linear_model.LogisticRegression или sklearn.linear_model.RidgeCV или sklearn.svm.LinearSVC (разместите их в один ряд в отчете). Уменьшите размер выборки так, чтобы карты отличались. Выясните и запишите в отчете, как и почему отличаются линейные алгоритмы.
* Постройте карту работы наивного Байесовского классификатора sklearn.naive_bayes.GaussianNB
* Постройте карту работы композиции деревьев. Для небольших выборок лучше всего использовать sklearn.ensemble.ExtraTreesClassifier

## 2. Метрики качества

* Для логистической регрессии и переобученного дерева предскажите вероятности класса 1 для всех объектов *полной* выборки. Постройте на одном графике разными полупрозрачными цветами нормированные гистограммы вероятностей для обоих целевых классов (разместите гистограммы обоих алгоритмов друг рядом с другом в отчете).
* Найдите визуально наилучшее пороговое значение вероятности, которое отделяет один класс от другого для каждого алгоритма. Вычислите для этого порогового значения [метрики качества](https://en.wikipedia.org/wiki/Confusion_matrix): матрицу ошибок, Accuracy, TPR, FPR, TNR, FNR, Precision, Recall, F1-меру, Selectivity, Specificity, Balanced accuracy, Adjusted balanced accuracy (sklearn.metrics.balanced_accuracy_score). Оформите результаты в отчете в виде таблицы
* Прикрепите в Moodle ваш ноутбук и ссылку на ваш отчет (его нужно расшарить всем для чтения кнопкой Share)

## Варианты датасетов:
1. [Hepatitis C Prediction Dataset](https://www.kaggle.com/datasets/fedesoriano/hepatitis-c-dataset) (целевой признак: пол пациента)
2. [Russian Demography Data](https://www.kaggle.com/datasets/dwdkills/russian-demography) (целевой признак: year<=2004)
3. [House prices](https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/data?select=train.csv) (целевой признак: LotArea<=9480)
4. [Cryptocurrency Closing Price Prediction](https://zindi.africa/competitions/cryptocurrency-closing-price-prediction/data) (целевой признак: volatility<=0.013, удалите все строки, где не задана volatility)
5. [Video Game Sales](https://www.kaggle.com/datasets/rush4ratio/video-game-sales-with-ratings) (целевой признак: Rating==E)
6. [Credit Card Fraud Detection](https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud) (целевой признак: Amount<=22)
7. [Pokemon Dataset with Team Combat](https://www.kaggle.com/code/tuannguyenvananh/descriptive-analysis-pokemon-eda-feat-satoshi/data?select=pokemon.csv) (целевой признак: Legendary)
8. [TMDB 5000 Movie Dataset](https://www.kaggle.com/datasets/tmdb/tmdb-movie-metadata?select=tmdb_5000_movies.csv) (целевой признак: revenue>19млн)
9. [Body Fat Prediction Dataset](https://www.kaggle.com/datasets/fedesoriano/body-fat-prediction-dataset) (целевой признак: Neck<=38)
10. [Chess Game Dataset](https://www.kaggle.com/datasets/datasnaek/chess?select=games.csv) (целевой признак: winner==white)
11. [Red Wine Quality](https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009) (целевой признак: residual sugar <= 2.2)
12. [Heart Failure Prediction Dataset](https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction) (целевой признак: пол)
13. [Car Price Prediction Multiple Linear Regression](https://www.kaggle.com/datasets/hellbuoy/car-price-prediction) (целевой признак: horsepower <= 100)
14. [Body performance Data](https://www.kaggle.com/datasets/kukuroo3/body-performance-data) (целевой признак: возраст <= 40)
15. [World Happiness Report](https://www.kaggle.com/datasets/unsdsn/world-happiness) (целевой признак: Family <= 1)
16. [Students Performance in Exams](https://www.kaggle.com/datasets/spscientist/students-performance-in-exams) (целевой признак: lunch)
17. [Pima Indians Diabetes Database](https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database) (целевой признак: возраст <= 30)
18. [IBM HR Analytics Employee Attrition & Performance](https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset) (целевой признак: MaritalStatus==Married - бинарная классификация)
19. [Acoustic Extinguisher Fire Dataset](https://www.kaggle.com/datasets/muratkokludataset/acoustic-extinguisher-fire-dataset) (целевой признак: FUEL==gasoline - бинарная классификация)
20. [Pumpkin Classification : Autoviz](https://www.kaggle.com/datasets/muratkokludataset/pumpkin-seeds-dataset) (целевой признак: Compactness<=0.7)
21. [Dry Bean Dataset](https://www.kaggle.com/datasets/muratkokludataset/dry-bean-dataset) (целевой признак: Class==DERMASON)
22. [California Housing Prices](https://www.kaggle.com/datasets/camnugent/california-housing-prices) (целевой признак: ocean_proximity == '<1H OCEAN')
23. [Data Science for Good: PASSNYC](https://www.kaggle.com/datasets/passnyc/data-science-for-good?resource=download) (целевой признак: Percent Black <= 40)
24. [Spotify Song Attributes](https://www.kaggle.com/datasets/geomack/spotifyclassification) (целевой признак: acousticness<=0.1)
25. [Real Estate DataSet](https://www.kaggle.com/datasets/arslanali4343/real-estate-dataset) (целевой признак: PTRATIO>=18.84)
26. [Glass Classification](https://www.kaggle.com/datasets/uciml/glass) (целевой признак: Type==2)
27. [Car information dataset](https://www.kaggle.com/datasets/tawfikelmetwally/automobile-dataset) (целевой признак: model_year>=77)
28. [Sleep Health and Lifestyle Dataset](https://www.kaggle.com/datasets/uom190346a/sleep-health-and-lifestyle-dataset) (целевой признак: Sleep Disorder == None)
29. [Другой датасет](https://www.kaggle.com/datasets) по согласованию с преподавателем практики и с изменением целевого признака (**датасеты у всех должны быть разными**). 

## Полезные кусочки кода

### отображение статистики:
```
pd.options.display.max_columns = data.shape[1]
data.describe(include='all')
```

### поиск "сильных" признаков:
```
import seaborn as sns
sns.set(rc={'figure.dpi':300})
label = 'укажите ваш целевой признак'
features = [c for c in data.columns if c != label and data.dtypes[c] != 'object']
X = data.loc[:,features]
y = data[label]
mi = sklearn.feature_selection.mutual_info_classif(X, y)
ax = sns.barplot(x=mi, y=features)
```

### график рассеяния:
```
ax = sns.scatterplot(data=data, x='имя столбца1', y='имя столбца2', hue=label, palette="deep")
```

### карта предсказания классификатора (цвет - вероятность класса 1):
```
x='имя столбца1'; y='имя столбца2'
model = конструктор модели

import matplotlib.pyplot as plt
fig, ax = plt.subplots()
xlim = (data[x].min(), data[x].max())
ylim = (data[y].min(), data[y].max())
model.fit(data.loc[:,[x,y]], data[label])
grid_x = np.linspace(*xlim, 100)
grid_y = np.linspace(*ylim, 100)
xx, yy = np.meshgrid(grid_x, grid_y)
grid = np.c_[xx.ravel(), yy.ravel()]
prediction = model.predict_proba(grid)[:,1].reshape(xx.shape)
ax.contourf(xx, yy, prediction, cmap=sns.color_palette("rocket", as_cmap=True))

ax = sns.scatterplot(data=data, x=x, y=y, hue=label, palette="rocket", ax=ax)
ax.set_xlim(*xlim)
ax.set_ylim(*ylim)
```

### гистограмма:
```
ax = sns.histplot(data=data, x="probability", hue=label, kde=True)
```