Перейти к основному содержанию
EDU-MMCS
Вы используете гостевой доступ (Вход)

Основы работы с данными для ИИ

  1. В начало
  2. Курсы
  3. Осенний семестр
  4. Фундаментальная информатика и ИТ
  5. DataSc101
  6. Анализ данных в Python
  7. Индивидуальное задание 1. Создание датасета с помо...

Индивидуальное задание 1. Создание датасета с помощью скрапинга

Требуемые условия завершения
Открыто с: среда, 22 октября 2025, 00:00
Срок сдачи: среда, 29 октября 2025, 00:00

Скрапинг одного из 2 сайтов с помощью BeautifulSoup
Books to Scrape
Quotes to Scrape
Задачи лабораторной работы:

  • Подключить необходимые библиотеки и загрузить HTML-страницу выбранного сайта.
  • С помощью BeautifulSoup извлечь нужные данные (названия, цены, цитаты, авторов и т.п.).
  • Организовать данные в виде таблицы (DataFrame).
  • Проанализировать DataFrame: определить количество строк и столбцов, проверить наличие пропусков, выполнить простую статистику или подсчёт уникальных значений, визуально оценить структуру данных, построить графики.
  • Сохранить результат в CSV-файл.

Ход работы
1. Установка и импорт библиотек
!pip install requests beautifulsoup4 pandas
import requests
from bs4 import BeautifulSoup
import pandas as pd
2. Получение HTML-страницы
Пример для Books to Scrape:
url = "https://books.toscrape.com/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
Проверим статус ответа:
print("Статус ответа:", response.status_code)
3. Извлечение данных
Пример (Books to Scrape)
books = soup.find_all("article", class_="product_pod")
data = []
for book in books:
    title = book.h3.a["title"]
    price = book.find("p", class_="price_color").text
    availability = book.find("p", class_="instock availability").text.strip()
    data.append({"Название": title, "Цена": price, "Наличие": availability})
df = pd.DataFrame(data)
print(df.head())
5. Сохранение результатов
df.to_csv("scraped_data.csv", index=False, encoding="utf-8")

Примеры скрапинга для заданных сайтов

https://colab.research.google.com/drive/1DECcuQrgt4MABn40Uhn4pckekZ755tBf?usp=sharing

◄ Лекция 5. Этические аспекты ИИ. Обзор парсинга и скрапинга
Лекция 6. Работа с данными через API ►
Пропустить Навигация
Навигация
  • В начало

    • Страницы сайта

      • Мои курсы

      • Теги

    • Мои курсы

    • Курсы

      • Осенний семестр

        • Прикладная математика и информатика

        • Фундаментальная информатика и ИТ

          • Probability Theory and Mathematical Statistics

          • Научные Вычислительные Пакеты

          • DataSc101

            • Общее

            • Основы работы с Git и GitHub

            • Работа с Яндекс. Даталенс

            • Анализ данных в Python

              • ФайлЛекция 4. Основы работы с данными в Python

              • ЗаданиеЛабораторная работа 5. Анализ данных в Python

              • ЗаданиеЛабораторная работа №6. Анализ данных в Python

              • ГиперссылкаАнализ данных IMDB с лекции

              • ФайлЛекция 5. Этические аспекты ИИ. Обзор парсинга и с...

              • ЗаданиеИндивидуальное задание 1. Создание датасета с помо...

              • ФайлЛекция 6. Работа с данными через API

              • ЗаданиеЛабораторная работа 7. Создание датасета с помощью...

              • ЗаданиеЛабораторная работа 8. Подготовка выборок для обуч...

              • ТестТест #1 "Git и Github"

              • ТестТест 2 "Pandas и Numpy"

              • ФайлЛекция 7. Обработка текстовых данных

              • ЗаданиеЛабораторная работа 9. NLP

              • ЗаданиеЛабораторная работа 10

              • ФайлЛекция 10

              • ЗаданиеЛабораторная работа 11. Обработка изображений

            • Тема 4

            • Тема 5

            • Тема 6

            • Тема 7

            • Тема 8

          • NLP (7 семестр)

          • Compiler Development

          • CMVSM

          • АЗПК

          • Frontend

          • ТеорЯП

          • Ruby Eng

          • EngCA&OS

        • Математика, механика

        • Педагогическое образование

        • Магистратура

          • Разработка мобильных приложений и компьютерных игр

        • Аспирантура

        • Вечернее отделение

        • Другое

        • Информатика-Осень-ПМИ-2

        • Информатика-осень-ПМИ-1

        • ИММвс

        • ФИиТ eng 2025

      • Весенний семестр

        • Прикладная математика и информатика

        • Фундаментальная информатика и ИТ

        • Математика, механика

        • Педагогическое образование

        • Магистратура

          • Разработка мобильных приложений и компьютерных игр

        • Аспирантура

        • Вечернее отделение

        • Другое

      • Воскресная компьютерная школа

        • Пользователь компьютера плюс

        • Пользователь прикладных программ

        • Программирование I ступень

        • Программирование II ступень

        • Программирование III ступень

        • Архив

      • Воскресная математическая школа

        • Открытое тестирование РНОМЦ и мехмата ЮФУ - 2025

        • Олимпиадная математическая школа

        • Повышение квалификации

        • Доступная математика

        • Лаборатория математического онлайн-образования мех...

        • Осенняя универсиада

        • Научно-практическая конференция

        • ВМШ

          • ВМШ -2025

        • Летняя олимпиадная математическая школа РНОМЦ и ме...

      • Государственная итоговая аттестация

      • Дополнительное образование

      • Олимпиады

      • Видеолекции

      • Разное

      • Архив курсов

      • Заочная школа мехмата ЮФУ

Вы используете гостевой доступ (Вход)
DataSc101
Сводка хранения данных
Скачать мобильное приложение Яндекс.Метрика