Нужен perl специалист

Есть один буржуйский вебсайт, это директория компаний, что-то типа желтых страниц. там несколько десятков миллионов записей

ЦЕЛЬ - начиться выуживать из этого сайта НОВЫЕ КОМАНИИ

АЛГОРИТМ который я предлагаю

1) Прокроулить весь сайт и пропарсить все нормера в базу

2) Через неледю прокрулить сайт снова и пропарсить, при этом при парсинге выделить все новые номера которых еше нет в базе - это и будут свежедобавленные компании

Возможно для выполнения задания понадобится несколько компов - с этим проблем нет, есть прокси, если они будут блокировать по IP, возможно при крулинге притворяться кем-то другим.

Я попробовал кроулить сайт телепортом, но сайт определяет IP и ругается.

15 лет назад
xtrasns
49 лет
18 лет в сервисе
Был
4 месяца назад

Заявки фрилансеров

Нет заявок фрилансеров
  • Похожие заказы

  • Приветствую! Нужно сделать редирект страниц в Joomla 1.5. Включен SEF, то есть все ссылки имеют нормальный человекообразный вид! И нужно сделать редирект этих ссылок на новые с общим id. Вот мой htaccess ...

    Завершен
    15 лет назад
  • Привет. Я вам дам урл сайта, мне нужно чтобы человек определил какие там установлены модули и плагины. Нужно просто сделать функционально похожий сайт. Те кто разбирается в joomla - прошу помочь. Указывайте ...

    Закрыт
    15 лет назад
  • Срочно ищем опытного исполнителя на задачу. Предположительно, php+mysql на сервере и ajax на клиенте. Бриф-ТЗ: http://quality-lab.ru/files/tz.zip Пожалуйста, предложите сроки, стоиость и используемые инструменты. Заранее спасибо!

    Закрыт
    15 лет назад
  • Метапоисковая система, типо нигмы, которая будет искать по русским сайтам с поиском по картинкам, по видео, по новостям и по аудиозаписям с расширенным поиском, с формой на добавление сайта, с админкой и с сервисом вывода ...

    Закрыт
    15 лет назад
  • Во время работы Ип телефонии вся информация записывается в таблицу cdr Надо написать скрипт, который бы отправлял на почту каждый час информацию об неотвеченных вызовах за этот час, если они есть. ...

    Закрыт
    15 лет назад
  • Есть парсер текста по определеным сайтам... Но он плохо заносит в базу русские и арабские символы. А китайские вобще незаносит. Нужно исправить. Посути это поисковик парсится текст в базу, а потом ищется по нем. ...

    Закрыт
    15 лет назад
  • Здравствуйте нужен человек которые сделает качественные сателлиты на тему "Бизнес" Сателлиты нужну будут часто... Так что не разовая работа... По всем вопросам в ICQ 599 127 333

    Закрыт
    15 лет назад