Этот инструмент предназначен для технического обхода сайта и сбора
ключевых SEO-данных: title, description, h1–h3,
с одновременной генерацией sitemap.xml и отчётов.
Скрипт ориентирован на реальную работу с сайтами, а не на поверхностный парсинг.
robots.txt перед переходом по URLsitemap.xml
Это не «чёрный ящик» и не обёртка над API. На странице представлен весь исходный код, структура проекта и README-файл. Скрипт можно использовать как есть, адаптировать под свои задачи или встроить в собственный пайплайн аналитики.
# SEO Data Crawler для сайта
Этот скрипт на Python с использованием библиотеки Playwright предназначен для обхода сайта,
сбора SEO-данных (title, description, h1–h3) для каждой страницы,
генерации sitemap.xml и создания отчёта.
Основные возможности:
- Рекурсивный обход сайта
- Проверка robots.txt
- Генерация sitemap.xml
- SEO-отчёт в CSV
- Текстовый отчёт с ошибками
- Возможность автономного запуска
📁 seo-data-crawler
├── seo_data.py # Основной Python-скрипт
├── run_seo_data.bat # Скрипт запуска
├── sitemap.xml # Генерируемая карта сайта
├── seo_data.txt # SEO-отчёт (CSV)
├── report.txt # Отчёт об ошибках и обходе
└── README.md # Описание и инструкции
import asyncio
from playwright.async_api import async_playwright
from urllib.parse import urljoin, urlparse
import xml.etree.ElementTree as ET
import time
import csv
from pathlib import Path
import aiohttp
from robotexclusionrulesparser import RobotFileParserLookalike
...
(Код приведён полностью, без сокращений, и соответствует рабочей версии проекта.)
Архив содержит исходный код, README и вспомогательные файлы. Подходит для изучения, доработки и использования в проектах.
Скачать ZIP-архив