Индивидуальное задание 1. Создание датасета с помощью скрапинга
Требуемые условия завершения
Ход работы
1. Установка и импорт библиотек
2. Получение HTML-страницы
Пример для Books to Scrape:
3. Извлечение данных
Пример (Books to Scrape)
5. Сохранение результатов
Примеры скрапинга для заданных сайтов
https://colab.research.google.com/drive/1DECcuQrgt4MABn40Uhn4pckekZ755tBf?usp=sharing
Открыто с: среда, 22 октября 2025, 00:00
Срок сдачи: среда, 29 октября 2025, 00:00
Скрапинг одного из 2 сайтов с помощью BeautifulSoup
Books to Scrape
Quotes to Scrape
Задачи лабораторной работы:
- Подключить необходимые библиотеки и загрузить HTML-страницу выбранного сайта.
- С помощью BeautifulSoup извлечь нужные данные (названия, цены, цитаты, авторов и т.п.).
- Организовать данные в виде таблицы (DataFrame).
- Проанализировать DataFrame: определить количество строк и столбцов, проверить наличие пропусков, выполнить простую статистику или подсчёт уникальных значений, визуально оценить структуру данных, построить графики.
- Сохранить результат в CSV-файл.
Ход работы
1. Установка и импорт библиотек
!pip install requests beautifulsoup4 pandasimport requestsfrom bs4 import BeautifulSoupimport pandas as pd2. Получение HTML-страницы
Пример для Books to Scrape:
url = "https://books.toscrape.com/"response = requests.get(url)soup = BeautifulSoup(response.text, "html.parser")Проверим статус ответа:print("Статус ответа:", response.status_code)3. Извлечение данных
Пример (Books to Scrape)
books = soup.find_all("article", class_="product_pod")data = []for book in books: title = book.h3.a["title"] price = book.find("p", class_="price_color").text availability = book.find("p", class_="instock availability").text.strip() data.append({"Название": title, "Цена": price, "Наличие": availability})df = pd.DataFrame(data)print(df.head())5. Сохранение результатов
df.to_csv("scraped_data.csv", index=False, encoding="utf-8")Примеры скрапинга для заданных сайтов
https://colab.research.google.com/drive/1DECcuQrgt4MABn40Uhn4pckekZ755tBf?usp=sharing