Продолжение Парсер, Скрипт обхода, запись в СУБД.
- Опубликовано 1 год назад
- Просмотры 13
- Закончить проект
50,00₽
Описание
К первому заданию добавить, что бы он парсил /robots.txt каждого сайта, доставал от туда sitemap сайтов и добавлял эти ссылки в таблицу, потом переходил по ним и парсил cсылки и тоже записывал их в другой столбил, если ничего нет, то что бы загружал, если уже есть то заменял (именно заменял) (что бы старых ссылок там не оставалось.). А если sitemap нет, то что бы парсил внутренние ссылки на этой странице и тоже записывал их в БД в отдельный столбик. Только что бы можно было задавать максимальное колличество внутренних ссылок на один сайт. Например указываешь 50, как он только набирает 50 внутренних ссылок на сайте он переходит к следующему заданию. ( Значение 0 без ограничений ). Дополнение: У некоторых сайтов sitemap лежит в виде архива с окончанием .tg их можно добавлять в отдельный столбик БД просто и всё.
Опубликовано 1 год назад
Информация
Посещаемость:
557
Дата регистрации:
12 лет назад