Здравствуйте. Требуется разработка скрипта по обмену тизерным трафиком (по примеру портала nnn.ru) + шаблон.
Сделать парсер под Яндекс и Гугл
Необходимо сделать парсер под Яндекс и под Гугл, который будет прогонять урлы сайта с определенным префиксом с целью понять, какие страницы сайта присутствуют в индексе, а какие нет.
ЯНДЕКС.
Для Яндекса урл прогоняется с префиксом “url:”.
Т.е. для урла типа http://agrobazar.ru/ будет запрос url:http://agrobazar.ru/ .
Если в результатах поиска отображается искомая страница, то это означает, что страница в индексе есть. В этом случае в базе в списке урлов ставится «1». Если в индексе этой страницы нет, то ставится «0».
Собирать данные необходимо именно через поиск, а не XML, т.к. там отдаются некорректные данные.
Для гугла примерно то же самое, только префикс будет «cache». Запрос следующего вида: cache:http://agrobazar.ru/ .
Если страница по результатам поиска есть в кэше, то значит, что и в индексе она есть. В базе ставим «1». Если выдается 404-я ошибка, то странице в кэше и в индексе нет. В базе ставим «0».
В итоговой базе необходимо предусмотреть две вещи:
- суммирование значений для того, чтобы понимать, какое количество страниц в индексе;
- фильтрация по части значения в урл для того, чтобы отобразить, к примеру, все урлы по какой-то области или товару.
При вводе voronejskaya_oblast должны отобразиться все урлы, содержащие это значение. После применения фильтрации должна сохраняться возможность суммировать результаты, для вычисления количества страниц в индексе.
Разъяснение принципа работы парсера можно посмотреть вот тут: http://www.youtube.com/watch?v=vV7PttD51GE, начиная с 16-й минуты.
Итоговые данные можно представлять в эксель или cvs. По результатам работы от вас ожидаем результаты парсинга, а также сам парсер. Парсер необходимо выполнить так, чтобы была возможность им пользоваться самостоятельно.
В аттаче к тендеру примерный внешний вид базы с урлами. Полный список (всего около 2 500 000 урлов) будет предоставлен исполнителю.
Заявки фрилансеров
Похожие заказы
- Веб-программирование3 заявкиЗакрыт11 лет назад
Всем добрый день! Проблема взаимодействия сайта с api. Более подробно уже когда будем общаться о музыкальниках. Желательно решение проблемы как можно быстрее
Веб-программирование3 заявкиЗакрыт12 лет назадТехнические требования к баннеру- http://www.adriver.ru/doc/ban/spec/spec_570.html Пример баннера http://www.adriver.ru/doc/showcase/27/27_27.html Требуется сделать баннер-простую картинку, без анимации, но в соответствии с Техническими требованиями портала Картинку мы дадим Вес – до ...
Веб-программирование2 заявкиЗакрыт12 лет назад- $50
Необходимо доработать скрипт добавления новостей. 1. При добавлении новости есть возможность добавлять фотоматериалы в архиве (zip), нужно сделать чтоб можно было сразу создавать 5 типов миниатюр разного размера и помещать в разные ...
Веб-программирование9 заявокЗакрыт12 лет назад - $3
Столкнулся с проблемой установки кода биржи sape.ru на уникальный движок. Шаблон сайта состоит из .tpl файлов. Жду мастера, который быстро справится с этим делом.
Веб-программированиенет заявокЗакрыт12 лет назад - $50
Приветствую. Есть хостинг и домен (timeweb), нужно поставить WordPress, и установить плагин (wppage). Оплата ЯД
Веб-программирование1 исполнительЗавершен12 лет назад - $30
Задача: Отслеживание и уведомление по SMS о появлении товара на avito.ru, molotok.ru, irr.ru, meshok.ru 1. Система должна быть модульная, чтобы можно было добавить отслеживание на новом сайте не перестраивая всю систему, а ...
Веб-программированиенет заявокЗакрыт12 лет назад 1. В профиле пользователя введенное значение в поле WMID подтверждать на принадлежность через WM Keeper 2. Сделать поле WMID не редактируемым 3. Поле WMR, введенное значение проверять на принадлежность к полю WMID.
Веб-программирование3 заявкиЗакрыт12 лет назадПри регистрации через Community Builder не вызываются user-плагины. Нужно исправить эту ситуацию.
Веб-программированиенет заявокЗакрыт12 лет назад