Анализ информации с сайтов в открытом доступе

  • Опубликовано 1 год назад
  • Просмотры 13
  • Закончить проект

Описание

Сбор списка учителей с общедоступных порталов Московских школ

Задача: необходимо собрать данные учителей школ с официальных сайтов образовательных организаций, и представить собранные данные в виде таблицы с столбцами: ФИО, Должность (например, “учитель английского языка”),Школа, Ссылка (например, sch1329.mskobr.ru/teacher..., Email (если будет – у основной части учителей Email не публикуется и поле можно оставить пустым).

Источник исходных данных docs.google.com/spreadshe...
В таблице названия и адреса сайтов московских школ (нужно только убрать дубликаты).
На сайте каждой школы (на основной странице) если раздел “Сведения об образовательной организации”, а по клику на нем появляется меню с одним из пунктов “Руководство. Педагогический (научно-педагогический) состав”. Скорее всего, эти названия везде одинаковые, т.к. утверждены приказом и школы не должны их менять.

По ссылке “Руководство. Педагогический (научно-педагогический) состав” появляется страница, на которой находится нужная информация. На странице должны быть перечислены все учителя. Обычно они скрыты под катом и появляются по клику. Необходимо извлечь открытые данные людей и поместить в таблицу, структура которой описана выше. Пример страницы sch1329.mskobr.ru/o-nas/p... Данные можно извлекать или прямо с этой страницы, или перейти в карточку работника и извлечь оттуда. На тех сайтах, которые были проверены вручную, в теле самой ссылки есть текст “teacher-card”, пример sch1329.mskobr.ru/teacher...
Часть людей формально не является учителями по должности, но это не имеет значения – они все равно могут быть помещены в таблице, мы потом отфильтруем.

Просьба прислать код самого парсера вместе с таблицей (не имеет значения, на чем он написан или качество/документирование кода – наш программист внутри организации разберется).

Опубликовано 1 год назад