Парсер на основе headless браузера

Требования к парсеру

  • Должен уметь ходить через прокси с авторизацией и без
  • Должен оперировать куками и прочими хранилищами как обычный браузер, т. е. запоминать между запусками (обычно headless браузеры стартуют пустыми, поэтому нужно применять определенные профили в зависимости от IP:PORT прокси)
  • Желательно уметь задавать разное окружение (плагины, разрешение, шрифты, юзерагент и т.д.) проверять можно тут http://www.fingerprint.pet-portal.eu/ чтобы в итоге можно было привязать один IP:PORT к одному окружению и чтобы между собой они были минимально похожи
Логика работы одного цикла

Парсер переходит на сервер очереди, забирает ссылку из очереди, применяет окружение в зависимости от ip:port и переходит по ссылке-заданию, собирает html и возвращает на сервер заданий (общение с сервером заданий простым http клиентом)

Если в процессе работы получил капчу нужно решить её через сервис антикапчи.

Есть полное ТЗ которое описывает формат данных между сервером заданий и парсером и прочие тонкости, после определения исполнителя.

7 лет назад
vlant
75 лет
7 лет в сервисе
Был
7 лет назад

Заявки фрилансеров

Нет заявок фрилансеров