Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Необходимо сделать скрипт парсинга ключевых слов со страницы статистики поисковых запросов http://stat.go.mail.ru/

Результат, который пользователь получает при вводе интересующего его слова на странице http://stat.go.mail.ru/ - таблица, в первой колонке которой приведены все варианты запросов, содержащие это ключевое слово, а во второй - количество запросов в месяц.

Наш скрипт, должен делать следующее: последовательно брать каждую строку первого столбца вышеуказанной таблицы результатов, то есть - брать те ячейки таблицы, в которых содержатся возможные варианты запросов, и записывать все эти слова в отдельный текстовый файл.

Скрипт должен иметь два поля и одну кнопку с функцией "отправить". Первое поле - поле, в которое вводится интересующее ключевое слово, на основе которого сайт http://stat.go.mail.ru/ будет выдавать нам возможные варианты запросов, которые вводили пользователи в поисковик. Второе поле - поле для ввода "стоп-слов". Подробнее о "стоп-словах" - ниже.

Скрипт должен выбирать из результирующей таблицы запросов и записывать в отдельный файл только те слова, которые удовлетворяют определенным критериям, а именно:

- эти ключевые фразы должны состоять не более, чем из четырех слов, то есть - скрипт должен отбрасывать длинные ключевые слова, он должен проверить длину ключевой фразы, посчитав в ней количество пробелов, если количество пробелов между словами, входящими в ключевую фразу превышает 3 - такое слово "отбрасывается" и в базу не заносится.

- слова, которые можно записать в базу - не должны содержать "стоп-слов", которые вводятся в вышеупоминавшееся поле для "стоп-слов". То есть - если ключевая фраза содержит "стоп-слова", например, "порно, взлом, кряк, ключ, бесплатно, скачать" - она также "отбрасывается" и в базу не записывается.

Скрипт должен "обойти" все страницы, которые выдает в ответ на запрос пользователя сайт http://stat.go.mail.ru/. То есть скрипт сначала обрабатывает первые 100 слов, затем переходит по ссылке на вторую страницу и обрабатывает следующие сто слов и так далее - до самого конца. В качестве параметра ссылки, который определяет порядковый номер каждой следующей сотни слов выступает параметр sf. То есть - ссылка на первую страницу результатов выглядит так:

http://stat.go.mail.ru/stats?q=word#, где "word" - исходное слово. Ссылка на каждую их последующих страниц имеет вид: http://stat.go.mail.ru/stats?&q=word&sf=num, где "num" - число, кратное 100.

Пример работы скрипта: на странице скрипта есть поле для ввода ключевой фразы. Есть поле для "стоп-слов". Предположим, мы вводим в поле для ввода ключевой фразы слово "пипетки", в поле для "стоп-слов" вводим слово "порно, скачать бесплатно".

Допустим, на первой странице статистики http://stat.go.mail.ru, при вводе слова "пипетки", мы получили следующую таблицу (приведен исходный код) (скрипт автоматически, после того, как мы нажали на кнопку с функцией "отправить" зашел на страницу http://stat.go.mail.ru, ввел интересующее нас слово в соответствующее поле на странице http://stat.go.mail.ru и нажал кнопку "сабмит" на этой странице и получил следующую интересующую нас часть):

Слова

Запросы

пипетки

111

автоматическая пипетка

46

пипетки пастера

19

...................................................................

...................................................................

...........остальная часть кода - здесь не приведена в целях экономии места....................

...................................................................

...................................................................

 

· 1 ·

 2 

 3 

  Далее › 

Скрипт должен "взять" все, что содержится между теми тэгами, в которые заключены варианты запросов, полученные на основе исходного ключевого слова и записать эти варианты запросов в отдельный txt-файл.

Предположим, что возможные кандидаты на запись в базу, это следующие слова:

пипетки

автоматическая пипетка

пипетки пастера

пипетки пастера пластиковые

ранетки пипетки

пользование пипеткой в невесомости космического корабля

пипетки модернизированные с турбонаддувом и подушками безопасности

пипетки скачать бесплатно

пипетки порно

Скрипт должен проверить все слова-кандидаты на "проф-пригодность", а именно - проверить, есть ли среди них "длинные" слова и есть ли среди них фразы, содержащие "стоп-слова". То есть, скрипт должен "вытянуть" все ключевые фразы за исключением слишком длинных фраз (фраз, которые содержат более четырех слов, либо, что то же самое - более трех пробелов) и за исключением фраз, в состав которых входят "стоп-слова", то есть - с первой страницы нужно "вытянуть" следующие слова:

пипетки

автоматическая пипетка

пипетки пастера

пипетки пастера пластиковые

ранетки пипетки

Скрипт должен "отбросить", то есть - не заносить в базу следующие слова:

пользование пипеткой в невесомости космического корабля (потому что очень длинная фраза - более четырех слов)

пипетки модернизированные с турбонаддувом и подушками безопасности (причина - аналогичная, то есть - очень длинная фраза - более четырех слов)

пипетки скачать бесплатно (в состав фразы входит стоп-слово "скачать бесплатно")

пипетки порно (в состав фразы входит стоп-слово "порно")

Абсолютно аналогичные действия скрипт должен совершить над всеми страницами статистики, которые ему выдаст в ответ на запрос с интересующим нас ключевым словом сайт http://stat.go.mail.ru. То есть - скрипт последовательно должен обойти и обработать в соответствии с вышеизложенным алгоритмом, сначала первую страницу с первой сотней результатов, затем - вторую страницу - со второй сотней результатов, затем - третью - с третьей сотней слов-кандидатов на запись в базу и так далее - до тех пор, пока страницы не закончатся.

P.S. Возможны следующие варианты: скрипт можно реализовать в какой-либо другой среде программирования (абсолютно на Ваш выбор) - единственное, что обязательно - это вышеописанный функционал. Реализация - на Ваше усмотрение. Также обязательно - указывать сроки изготовления и стоимость.

P.P.S. В личку - не писать. Оставлять заявки здесь.

16 лет назад
Zakazchikk
Александр 
38 лет
17 лет в сервисе
Был
14 лет назад

Выбранный исполнитель

VadikV
56 лет
17 лет в сервисе
Был
3 года назад
16 лет назад
$10
1 день
Скрипт на PHP был написан очень-очень быстро - буквально за 1 час. Данный факт говорит, по моему мнению, о: - высокой квалификации Вадима - о высокой степени ответственности - об умении выполнять работу в очень сжатые сроки В то время, как другие фрилансеры называли сроки от 1-го до 3-х дней, Вадим, как я уже сказал, сделал его в гораздо меньшие сроки. Во-вторых - все сделано в точности с ТЗ. В-третьих - все было сделано практически без дополнительных уточнений с моей стороны - Вадим в точности понял и выполнил поставленную перед ним задачу. Рекомендую всем!
Действительно отлично поставленные ТЗ. Никаких дополнительных вопросов и сомнений. Очень рекомендую этого заказчика.

Заявки фрилансеров

VadikV
56 лет
17 лет в сервисе
Был
3 года назад
16 лет назад
  • Похожие заказы

  • Нужно анимировать несколько элементов со страницы (11 штук) нарезать и сверстать... добавить эффекты, добавить мышь все что есть прикрепил приостанавливаю проект, скорей всего буду редактировать этот проект либо ...

    Закрыт
    16 лет назад
  • http://www.tvoymarket.ru/47756-taras-bulba.html Титл страницы такой: Смотреть онлайн {title}, скачать {title} >> Смотреть фильмы онлайн и скачать и т.д. Нужно сделать в таком душе: Смотреть онлайн {title}, скачать {title} онлайн Касается только полной ...

    Завершен
    16 лет назад
  • Требуется: 1) при отправке формы на ящик должен также приходить уникальный номер заявки по порядку отправки формы. То есть если 1-ый посетитель отправил заявку на бронирование, то присваивается номер #1, если 27-ой посетитель, то ...

    Завершен
    16 лет назад
  • $250

    Нужно создать скрипт сбора инфы с моих сайтов + сделать сайт по типу одного моего + отдельно или вместе типа прокси списков пишите строго на е-мейл [email protected] на эл. ...

    Закрыт
    16 лет назад
  • Есть движок, который не совсем корректно работает. нужно дописать и нормализовать файлообменник. подробности, лично. ТЗ вышлю на почту.

    Закрыт
    16 лет назад
  • Ответившим большое спасибо за предложения! Исполнитель, к сожалению, может быть только один и он выбран:) Всем удачи! Требования. Парсер работает автоматически по разделу. Я ...

    Закрыт
    16 лет назад
  • $500

    Добрый день, Описание проекта 1: 1. Из базы магазина Melbis Shop выбрать заказы покупателей, передать данные во внешний скрипт. Настроить SMS оплату в магазине 2. Настроить и установить готовый или свой скрипт ...

    Закрыт
    16 лет назад