Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

С заданной периодичностью необходимо парсить несколько сайтов, извлекая новую и обновляя ранее добытую информацию.

Варианты реализации:

  • “Скелет”, в который надо будет дописать классы парсеров, будет предоставлен на PHP-фреймворке Silex, с использованием библиотеки https://github.com/FriendsOfPHP/Goutte.
  • на Python с использованием PySpider (docs.pyspider.org)
  • Если удобен другой инструмент - готовы обсудить.
Контент на сайтах, который надо парсить:
  • доступен после авторизации
  • Иногда защищен CSRFToken
  • Иногда приходят фрагменты HTML
По каждому сайту будет предоставлена инструкция со скриншотами, обозначен каждый фрагмент, который необходимо спарсить. Информацию необходимо сохранить в СУБД (предпочтительно в PostgreSQL).

Какая информация должна быть извлечена:

  • Содержимое различных каталогов, поэлементно, с отслеживанием их изменений (хранить каждую извлеченную версию и анализировать изменения)
  • Текстовая информация в элементах каталогов: описание, цифры, гиперссылки, даты - около 15 полей
  • Файлы: картинки, архивы (без анализа/распознавания/парсинга, просто скачать)
Всего сайтов: 11

Примеры сайтов прикреплены (полноразмерные скриншоты будут предоставлены с инструкцией).

8 лет назад
rrascal
19 лет в сервисе
Был
8 лет назад

Заявки фрилансеров

Нет заявок фрилансеров
  • Похожие заказы

  • пишите стоимость за работу, без всяких от и до. Конкретную сумму.  Необходимо сверстать подвал в магазине на опенкарт. То, что должно получится –http://ipic.su/img/img7/fs/footer.1499663664.png "Программировать" формы (подписка, бронь) не нужно.  Нужна только сама верстка.  Сделать ...

    Завершен
    8 лет назад
  • Требуется сделать каталог организаций с отзывами. дизайн не важен, главное функциональность. 1. главная страница: на ней 3 варианта: поиск по городу - в поиске по городу список всех городов в которых есть добавленные организации. ...

    Закрыт
    8 лет назад
  • Всем доброго дня!   Требуется интеграция edostavka и интернет-магазина на wordpress. У этого сервиса есть много готовых модулей (http://www.edostavka.ru/clients/integrator.html), кроме wordpress. Поэтому очень желательно иметь опыт в данной интеграции.   Документацию ...

    Закрыт
    8 лет назад
  • Есть существующий сайт proekt-vols.ru он был выполнен по принципу: быстро выполнить технический ввод в эксплуатацию с полным отсутствием дизайна (сайт сделан на вордпресе)  В настоящий момент стоят задачи:  1. Видоизменить «главную страницу» по ...

    Закрыт
    8 лет назад
  • Доделать рабочий сайт- platinum.fit , макет прикреплен в джепег,( в psd макет тоже есть.)  1-адрес больше-.+владивосток.+ владивосток дописать на адрес в футер.  2.исправить надпись- "записаться на груповую тренировку,и с инструктором".  ...

    Завершен
    8 лет назад
  • Hужно cделaть чaт бота  c кoмандaми для aккаунтов вконтaктe.  Все еcть нa схемe.   https://drive.google.com/file/d/0Bx2JiUKDCKWGQTZwWjBDRzlrelk/view Открывать лучшe нa сaйте draw.io  Примeр – чaт бoт, кoтoрый cдeлaн с помoщью cepвисa robochat.io в ...

    Закрыт
    8 лет назад
  • Hужен плaгин (pаcшиpение, cкрипт для tampermonkey) для хрoма, кoторый пoдмeнял бы значения на cайтe, котopыe выдaёт javascript, пo заданным cцeнариям (дo 6 штук), и, при этом обязaтeльнo не меняя фунциoнальности сaйтa (толькo значения (так, нaпpимеp, ...

    Закрыт
    8 лет назад
  • Здравствуйте, необходимо сделать один модуль связанный с главной страницей и исправить ошибку с отображением языков, сайт на wordpress: http://afterlifegame.com Вот тз: https://docs.google.com/document/d/1t5OJ-cyV3FyermnBei9me2olH_aWsnU5yiDwrbJxD6g/edit?usp=sharing С уважением, Андрей

    Закрыт
    8 лет назад