Копируем текст с веб страницы

import requests
from bs4 import BeautifulSoup

def check_website_accessibility(url):
    try:
        response = requests.head(url, allow_redirects=True)
        response.raise_for_status()
        return True
    except requests.exceptions.RequestException as e:
        print("Ошибка при доступе к веб-сайту:", e)
        return False

def extract_text_from_webpage(url):
    # Проверяем доступность веб-сайта
    if not check_website_accessibility(url):
        return None
   
    # Отправляем GET-запрос к веб-странице
    response = requests.get(url)
   
    # Проверяем успешность запроса
    if response.status_code == 200:
        # Используем BeautifulSoup для парсинга HTML
        soup = BeautifulSoup(response.text, 'html.parser')
       
        # Извлекаем текст из HTML
        text = soup.get_text()
       
        return text
    else:
        print("Ошибка при получении страницы:", response.status_code)
        return None

def save_text_to_file(text, filename):
    # Сохраняем текст в файл
    with open(filename, 'w', encoding='utf-8') as file:
        file.write(text)
    print("Текст успешно сохранен в файле:", filename)

if __name__ == "__main__":
    # URL адрес веб-страницы
    url = "http://stihi.ru/2024/05/09/1456"
   
    # Извлекаем текст из веб-страницы
    webpage_text = extract_text_from_webpage(url)
   
    if webpage_text:
        # Имя файла для сохранения
        filename = "веб_текст.txt"
       
        # Сохраняем текст в файл
        save_text_to_file(webpage_text, filename)







Программа извлекает текст с указанной веб страницы в файл веб_текст.txt
Однако это возможно только если на указанном сайте нет защиты от парсинга


Рецензии