DataSc101: Индивидуальное задание 1. Создание датасета с помощью скрапинга

Индивидуальное задание 1. Создание датасета с помощью скрапинга

Открыто с: среда, 22 октября 2025, 00:00

Срок сдачи: среда, 29 октября 2025, 00:00

Скрапинг одного из 2 сайтов с помощью BeautifulSoup
Books to Scrape
Quotes to Scrape
Задачи лабораторной работы:

Подключить необходимые библиотеки и загрузить HTML-страницу выбранного сайта.
С помощью BeautifulSoup извлечь нужные данные (названия, цены, цитаты, авторов и т.п.).
Организовать данные в виде таблицы (DataFrame).
Проанализировать DataFrame: определить количество строк и столбцов, проверить наличие пропусков, выполнить простую статистику или подсчёт уникальных значений, визуально оценить структуру данных, построить графики.
Сохранить результат в CSV-файл.

Ход работы
1. Установка и импорт библиотек
!pip install requests beautifulsoup4 pandas
import requests
from bs4 import BeautifulSoup
import pandas as pd
2. Получение HTML-страницы
Пример для Books to Scrape:
url = "https://books.toscrape.com/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
Проверим статус ответа:
print("Статус ответа:", response.status_code)
3. Извлечение данных
Пример (Books to Scrape)
books = soup.find_all("article", class_="product_pod")
data = []
for book in books:
    title = book.h3.a["title"]
    price = book.find("p", class_="price_color").text
    availability = book.find("p", class_="instock availability").text.strip()
    data.append({"Название": title, "Цена": price, "Наличие": availability})
df = pd.DataFrame(data)
print(df.head())
5. Сохранение результатов
df.to_csv("scraped_data.csv", index=False, encoding="utf-8")

Примеры скрапинга для заданных сайтов

https://colab.research.google.com/drive/1DECcuQrgt4MABn40Uhn4pckekZ755tBf?usp=sharing