Копируем текст с веб страницы
from bs4 import BeautifulSoup
def check_website_accessibility(url):
try:
response = requests.head(url, allow_redirects=True)
response.raise_for_status()
return True
except requests.exceptions.RequestException as e:
print("Ошибка при доступе к веб-сайту:", e)
return False
def extract_text_from_webpage(url):
# Проверяем доступность веб-сайта
if not check_website_accessibility(url):
return None
# Отправляем GET-запрос к веб-странице
response = requests.get(url)
# Проверяем успешность запроса
if response.status_code == 200:
# Используем BeautifulSoup для парсинга HTML
soup = BeautifulSoup(response.text, 'html.parser')
# Извлекаем текст из HTML
text = soup.get_text()
return text
else:
print("Ошибка при получении страницы:", response.status_code)
return None
def save_text_to_file(text, filename):
# Сохраняем текст в файл
with open(filename, 'w', encoding='utf-8') as file:
file.write(text)
print("Текст успешно сохранен в файле:", filename)
if __name__ == "__main__":
# URL адрес веб-страницы
url = "http://stihi.ru/2024/05/09/1456"
# Извлекаем текст из веб-страницы
webpage_text = extract_text_from_webpage(url)
if webpage_text:
# Имя файла для сохранения
filename = "веб_текст.txt"
# Сохраняем текст в файл
save_text_to_file(webpage_text, filename)
Программа извлекает текст с указанной веб страницы в файл веб_текст.txt
Однако это возможно только если на указанном сайте нет защиты от парсинга
Свидетельство о публикации №124050903174