Нужно взять работу над интересным проектом, предполагающим высокую нагрузку и работу с большим количеством данных, полнотекстовым поиском. Для успешных кандидатов обязательно: 1. Уверенное знание: Django 1.7 JavaScript (jQuery, желательно AngularJS) ...
PHP парсер выдачи Яндекса и подсчет вхождений фраз и слов
Нужен скрипт, который по заданным поисковым запросам будет собирать данные из топ 10 выдачи яндекса. Здесь важно выполнять поиск по региону "Москва". Скрипту подается два списка фраз. Парсить выдачу нужно только по первому списку.
Собрать нужно следующее:
- среднее значение размера текста без пробелов по каждой фразе из списка 1
- подсчитать среднее точное вхождение запросов в текст по каждой фразе из списка 1
- подсчитать среднее разбавочное вхождение запросов в текст по каждой фразе из списка 1
- подсчитать среднее точное вхождение запросов в текст по каждой фразе из списка 2
- подсчитать среднее разбавочное вхождение запросов в текст по каждой фразе из списка 2
- подсчитать среднее количество каждого слова из фраз, учитывая уже подсчитаные до этого фразы
- подсчитать среднее количество каждого слова с изменением окончания из фраз, учитывая уже подсчитаные до этого фразы
Разбавочные вхождения фраз - это фразы, в словах которых изменены окончания, или со вставкой дополнительных слов. Например есть фраза "аллергический дерматит у детей". Следующие найдены фразы будут считаться как разбавочные вхождения:
"аллергического дерматита у детей" - здесь изменены окончания у первых двух слов
"аллергический дерматит встречается у детей" - здесь добавлено слово "встречается"
"аллергический контактный дерматит у детей" - здесь добавлено слово "контактный"
Для себя я вижу примерно следующий алгоритм.
В HTML форму кидаем два списка запросов. Например список 1:
аллергический дерматит у детей
лечение аллергического дерматита у детей
аллергический дерматит у ребенка
лечение аллергического дерматита у детей
аллергический дерматит у детей симптомы
аллергический дерматит у грудных детей
чем лечить аллергический дерматит у детей
и список 2:
аллергический дерматит
дерматит у детей
дерматит у ребенка
лечить аллергический дерматит
1) Из наших запросов отдельно выдераем все слова, без повторов и сохраняем их в списке 3. Предлоги и союзы не нужны.
2) Скрипт парсит выдачу топ 10 из яндекса по каждому запросу только из списка 1.
3) Далее из полученых всех страниц (в даном случае - 70) нужно получить только текст, без символов заключенных между угловыми скобками ).
4) Далее из обработаных полученых текстов нужно получить:
- среднее количество символов без пробелов (из всех полученых текстов)
- среднее количество точных вхождений для каждой фразы из списка 1; затем удаляем эти фразы из текста, чтобы они потом не мешали при следующих подсчетах фраз и слов
- среднее количество разбавочных вхождений для каждой фразы из списка 1; затем удаляем эти фразы из текста
- среднее количество точных вхождений для каждой фразы из списка 2; затем удаляем эти фразы из текста
- среднее количество разбавочных вхождений для каждой фразы из списка 2; затем удаляем эти фразы из текста
- среднее количество каждого слова из списка 3
Скрипт должен поддерживать работу через список прокси. Если прокси не указаны в настройках, тогда использовать локальный ip.
При парсинке выдачи яндекса, возможно появление капчи. Нужно вводить ее вручную, либо через сервис antigate.com, если это указано в настройках скрипта.
Заявки фрилансеров
Похожие заказы
- Веб-программирование2 заявкиЗакрыт10 лет назад
Ищу адекватного PHP программиста для внесения пару поправок на интерфейс сайта. Движок сайта - самописный, но все понятно сделано. подробности при общения.
Веб-программирование10 заявокЗакрыт10 лет назад- $150
Работа над сайтом OpenCart, доработка модулей, перенос контента, работа срочная требуется сегодня закончить. Оплата 150$ по факту готовности, кого НЕ устраивает просьба не спамить.
Веб-программирование3 заявкиЗакрыт10 лет назад Добрый день! Есть сайт http://www.aquarai.ru/ После заполнения "Простой" формы заявки и нажатии на кнопку "Отправить" висит мелкая надпись "Отправляем..." и все http://joxi.ru/brR8PD1s7qGD21 И не понятно уходит заявка или нет. Можно ли ...
Веб-программирование1 исполнительЗавершен10 лет назад- $50
Движок VamShop - Интернет магазин. Нужно за место корзины поставить "оформить заявку" настроить кнопку и селект -(он будет дублироваться с поиска на сайте)
Веб-программирование2 заявкиЗакрыт10 лет назад Здравствуйте DLE 10.3 utf-8 возникла задача. есть большой список урл старого сайта, нужно сделать 301 редирект на новые страницы (точечно, т.е. 1 урл только на 1 другой урл, ...
Веб-программированиенет заявокЗакрыт10 лет назад- $25
Есть база данных городов, пример списка для Франции см. ниже Необходимо для каждого города достать топ3 картинки из images.google.com. По результатам скрипт сгенерирует простой html с названиями городов и картинками (с указанием ...
Веб-программирование2 заявкиЗакрыт10 лет назад - $700
Необходимо реализовать функцонал "Диеты" для сайта. Техническое задание во вложении Движок - основа ShopCMS, с API на YII. Требования по знаниям также во вложении. Обязателен богатый опыт(в том числе и ...
Веб-программирование4 заявкиЗакрыт10 лет назад Необходимо доработать уже почти сделанный сайт на вордпрессе (все программирование и верстка уже есть). Работы не очень много, но после установки этих обновлений сразу пойдет другая работа по этому сайту, так что хотелось бы найти ...
Веб-программирование8 заявокЗакрыт10 лет назадДоработки сделать по сайту самописанный сайт задание в приложение от вас жду сроки и бюджет реализаций проекта
Веб-программированиенет заявокЗакрыт10 лет назад