Добрый день, который день возникают проблемы с доступностью сайта. Поменял хостинг, но все так же продолжается. Как только возрастает нагрузка на сайт, он начинает виснуть. Тех.поддержка ничего внятного сказать не может. Нужно понять ...
Парсер для realtor com
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.
Парсер можно сделать на основе каких-то существующих десктопных программ для парсинга или написать под командную строку линукс с нуля.
Парсер должен в течение дня проходить по урлам в виде:
и тп. Урлы будут отличаться индексом (90210, 90027, 91316), но могут меняться и некоторые параметры.
Скрипт будет запускаться каждый день. На указанных страницах нужно проходить по всем записям и парсить адреса как показано в скриншоте. Скрипт должен проходить по всем записям на странице и переходить на следующую страницу пейджинга если она есть. Проходить все записи нужно до тех пор, пока не встретится запись, которая уже была спарсена, либо пока не закончатся результаты на всех страницах пейджинга. Это нужно для того, чтобы мы парсили только новые записи в течение дня. Хорошим, уникальным идентификатором записи может служить урл дома.
В результате работы скрипта на сервере должен быть сохранен такой csv файл:
Street Address, City, State, Zip Code, Selling Price, URL, Date/time parsed, Parsed URL
"5460 White Oak Ave Unit E223","Encino","CA","91316","$259,900","http://www.realtor.com/realestateandhomes-detail/5460-White-Oak-Ave-Unit-E223_Encino_CA_91316_M20883-82948","2015-05-13 13:00","http://www.realtor.com/realestateandhomes-search/91316/type-single-family-home,condo-townhome-row-home-co-op/price-170000-275000?ml=2"
См. пример csv файла в приложении т.к. у веблансера не сложилось с разпознаванием ссылок.
Во время обращения к серверу скрипт должен использовать различные прокси, чтобы бороться с банами и сделать работу парсера не такой очевидной для realtor.com. Прокси будем скрипту давать в отдельном файле, в столбик.
Также в настройках мы должны иметь возможность задавать минимальное и максимальное время задержки между запросами к realtor.com. Скрипт должен самостоятельно задавать случайное время задержки между запросами в пределах минимального и максимального значений.
Прошу дать предварительную оценку такого скрипта или задать вопросы в личку если есть.
Выбранный исполнитель
Заявки фрилансеров
Похожие заказы
- Веб-программирование1 исполнительЗавершен10 лет назад
Необходимо внести несколько программных правок на сайт на Joomla 3. Задача срочная
Веб-программирование4 заявкиЗакрыт10 лет назадВ техподдержке написали следующее: Зафиксирована рассылка спама, в связи с чем заблокирована возможность отправки писем с сервера.Статистически, причину проблемы необходимо искать в уязвимости скриптов сайта. Мы рекомендуем вам обратиться к стороннему специалисту, который сможет ...
Веб-программирование4 заявкиЗакрыт10 лет назадНужно доработать сайт http://kalevala-d.ru/ Вот макет, как должно будет выглядеть: http://sites78.ru/kalevala5/ 1. Добавить соцсети в шапку 2. Добавить кнопку "Вниз" (при клике на кнопку экран проматывается вниз ...
Веб-программирование1 исполнительЗавершен10 лет назад- $750
У нас есть OpenX объявления я хочу, чтобы вы превратили это в полную взрослую сеть решения для рекламодателей которые могут покупать и управлять объявлениями.
Веб-программирование7 заявокЗакрыт10 лет назад 1. Убрать подпись с датой/автором сверху статей 2. Настроить расположение фото и текста в статьях, отображение символов нумерованного списка ( не отображаются) 3. Вставить код счетчика 4. Настроить Вебмастер Яндекс 5. В подкаталоге обозначить , что ...
Веб-программирование1 заявкаЗакрыт10 лет назадЕсть каталог с наименованиями zoo — у каждого цена. Необходимо сделать вывод цен в таком формате http://prntscr.com/72vll5 http://prntscr.com/72vls0 Необходимые поля есть, надо сделать вывод — выбираем категорию, наименование, кнопку «узнать цену» ...
Веб-программированиенет заявокЗакрыт10 лет назадВыкидывает ошибочку 500 (Внутренняя ошибка сервера) Кто может поправить, пожалуйста помогите! Сайт рабочий ссылка вот: http://www.ofekvisa.co.il/ Ошибка: http://www.ofekvisa.co.il/?page_id=988
Веб-программирование1 исполнительЗавершен10 лет назадСайт интернет магазина работает на CMS VAMSHOP. В связи с отказом хостера от поддержки PHP 5.2 необходимо перевести сайт на работу на PHP 5.3. В настоящее время обнаружена проблема в одном месте, на странице ...
Веб-программирование3 заявкиЗакрыт10 лет назад