Сбор SEO-данных

Когда SEO начинается не с догадок, а с фактов

Этот инструмент предназначен для технического обхода сайта и сбора ключевых SEO-данных: title, description, h1–h3, с одновременной генерацией sitemap.xml и отчётов. Скрипт ориентирован на реальную работу с сайтами, а не на поверхностный парсинг.

Возможности и логика работы

Рекурсивный обход сайта по внутренним ссылкам
Проверка robots.txt перед переходом по URL
Фильтрация технических и нерелевантных ссылок
Сбор SEO-метаданных: title, description, h1, h2, h3
Автоматическая генерация sitemap.xml
Формирование SEO-отчёта в CSV-формате
Отдельный текстовый отчёт с ошибками и логикой обхода

Почему код открыт полностью

Это не «чёрный ящик» и не обёртка над API. На странице представлен весь исходный код, структура проекта и README-файл. Скрипт можно использовать как есть, адаптировать под свои задачи или встроить в собственный пайплайн аналитики.

README.md

# SEO Data Crawler для сайта

Этот скрипт на Python с использованием библиотеки Playwright предназначен для обхода сайта,
сбора SEO-данных (title, description, h1–h3) для каждой страницы,
генерации sitemap.xml и создания отчёта.

Основные возможности:
- Рекурсивный обход сайта
- Проверка robots.txt
- Генерация sitemap.xml
- SEO-отчёт в CSV
- Текстовый отчёт с ошибками
- Возможность автономного запуска

Структура проекта

📁 seo-data-crawler
├── seo_data.py        # Основной Python-скрипт
├── run_seo_data.bat   # Скрипт запуска
├── sitemap.xml        # Генерируемая карта сайта
├── seo_data.txt       # SEO-отчёт (CSV)
├── report.txt         # Отчёт об ошибках и обходе
└── README.md          # Описание и инструкции

Основной Python-скрипт (seo_data.py)


import asyncio
from playwright.async_api import async_playwright
from urllib.parse import urljoin, urlparse
import xml.etree.ElementTree as ET
import time
import csv
from pathlib import Path
import aiohttp
from robotexclusionrulesparser import RobotFileParserLookalike
...

(Код приведён полностью, без сокращений, и соответствует рабочей версии проекта.)

Скачать проект

Архив содержит исходный код, README и вспомогательные файлы. Подходит для изучения, доработки и использования в проектах.

Скачать ZIP-архив

SEO Data Crawler — сбор SEO-данных и генерация sitemap