Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Парсер можно сделать на основе каких-то существующих десктопных программ для парсинга или написать под командную строку линукс с нуля.

Парсер должен в течение дня проходить по урлам в виде:

http://www.realtor.com/realestateandhomes-search/91316/type-single-family-home,condo-townhome-row-home-co-op/price-170000-275000?pgsz=50&ml=2

http://www.realtor.com/realestateandhomes-search/90210/type-single-family-home,condo-townhome-row-home-co-op/price-170000-275000?pgsz=50&ml=2

http://www.realtor.com/realestateandhomes-search/90027/type-single-family-home,condo-townhome-row-home-co-op/price-170000-275000?pgsz=50&ml=2

и тп. Урлы будут отличаться индексом (90210, 90027, 91316), но могут меняться и некоторые параметры.

Скрипт будет запускаться каждый день. На указанных страницах нужно проходить по всем записям и парсить адреса как показано в скриншоте. Скрипт должен проходить по всем записям на странице и переходить на следующую страницу пейджинга если она есть. Проходить все записи нужно до тех пор, пока не встретится запись, которая уже была спарсена, либо пока не закончатся результаты на всех страницах пейджинга. Это нужно для того, чтобы мы парсили только новые записи в течение дня. Хорошим, уникальным идентификатором записи может служить урл дома.

В результате работы скрипта на сервере должен быть сохранен такой csv файл:

Street Address, City, State, Zip Code, Selling Price, URL, Date/time parsed, Parsed URL

"5460 White Oak Ave Unit E223","Encino","CA","91316","$259,900","http://www.realtor.com/realestateandhomes-detail/5460-White-Oak-Ave-Unit-E223_Encino_CA_91316_M20883-82948","2015-05-13 13:00","http://www.realtor.com/realestateandhomes-search/91316/type-single-family-home,condo-townhome-row-home-co-op/price-170000-275000?ml=2"

См. пример csv файла в приложении т.к. у веблансера не сложилось с разпознаванием ссылок.

Во время обращения к серверу скрипт должен использовать различные прокси, чтобы бороться с банами и сделать работу парсера не такой очевидной для realtor.com. Прокси будем скрипту давать в отдельном файле, в столбик.

Также в настройках мы должны иметь возможность задавать минимальное и максимальное время задержки между запросами к realtor.com. Скрипт должен самостоятельно задавать случайное время задержки между запросами в пределах минимального и максимального значений.

Прошу дать предварительную оценку такого скрипта или задать вопросы в личку если есть.

10 лет назад
anatlys
49 лет
16 лет в сервисе
Был
5 лет назад

Выбранный исполнитель

izimodo
Артем 
36 лет
15 лет в сервисе
Был
2 года назад
10 лет назад
$100
3 дня
Работа выполнена отлично. Все работает. Спасибо Артему за вдумчивый подход.
Все отлично!

Заявки фрилансеров

izimodo
Артем 
36 лет
15 лет в сервисе
Был
2 года назад
10 лет назад