Продолжение Парсер, Скрипт обхода, запись в СУБД.

  • Опубликовано 1 год назад
  • Просмотры 13
  • Закончить проект

Описание

К первому заданию добавить, что бы он парсил /robots.txt каждого сайта, доставал от туда sitemap сайтов и добавлял эти ссылки в таблицу, потом переходил по ним и парсил cсылки и тоже записывал их в другой столбил, если ничего нет, то что бы загружал, если уже есть то заменял (именно заменял) (что бы старых ссылок там не оставалось.). А если sitemap нет, то что бы парсил внутренние ссылки на этой странице и тоже записывал их в БД в отдельный столбик. Только что бы можно было задавать максимальное колличество внутренних ссылок на один сайт. Например указываешь 50, как он только набирает 50 внутренних ссылок на сайте он переходит к следующему заданию. ( Значение 0 без ограничений ). Дополнение: У некоторых сайтов sitemap лежит в виде архива с окончанием .tg их можно добавлять в отдельный столбик БД просто и всё.

Опубликовано 1 год назад