Исходные данные:

- есть пул ключевых слов, например "красоте, красоту, красоты, маска, маски, маску"

- есть исходный сайт, пусть будет site.ru (для тестов сайт есть готовый)

Требуется спарсить все ключевые фразы с сайта, которые содержат ключевые слова, в нашем случае "мечта о красоте, салон красоты, как навести красоту, маска для лица, какая лучшая маска, как сделать маску дома" и т.п., по определенным критериям.

Алгоритм работы скрипта.

Задаю:

- количество потоков

- адрес сайта

- ключевые слова через запятую

- количество слов справа от ключевика, от и до (например, от 1 до 7, ключевик находится слева), получится набор фраз №1

- количество слов слева от ключевика, от и до (например, от 2 до 5, ключевик находится справа), получится набор фраз №2

- количество слов от ключевика по обеим сторонам (например, от 1 до 3, ключевик находится в центре), получится набор фраз №3

- символы, при обнаружении которых во фразе, такая фраза игнорируется (например, слово "маска" явилось первым словом в предложении и слева от него находится точка, следовательно, при добавлении даже одного слова во фразу слева от ключевика появится точка во фразе, тогда такую фразу игнорируем. Такими символами могут быть ,.?!:; и прочие знаки препинания)

- регистр знаков в ключевике в контенте игнорируется

После задания исходных данных:

Скрипт в многопоточном режиме сканирует каждую страницу сайта между тегами , добавляя к каждому ключевику по заданному количеству слов справа, слева и от центра по очереди. При необходимости могу остановить работу скрипта, поставить на паузу, продолжить парсинг.

Сканируемая страница/страницы отображаются, чтобы я видел, что скрипт работает, а не завис или стоит.

Дубликаты фраз удаляются, но подсчитывается количество для выходного файла.

После завершения работы парсер информирует об окончании.

Выходные данные:

Файл xls с колонками "Ключевик/Фраза/Кол-во фраз на сайте/Положение ключевика":

- ключевик – ключ, по которому ведется парсинг

- фраза – фраза с этим ключевиком

- кол-во фраз на сайте – сколько раз эта фраза попалась за парсинг

- положение ключевика – где находился ключевик в составе фразы (слева/справа/центр)

Возможно как десктопное решение (в приоритете), так и серверный вариант с управлением через веб-интерфейс.

Готов выслушать и ответить на Ваши вопросы и предложения.

Если Вы готовы выполнить данное задание, то, пожалуйста, ОБЯЗАТЕЛЬНО, укажите срок и стоимость выполнения. Без этих данных заявка сразу идет в отказ.

10 лет назад
ekamenskiy
Каменский 
44 года
14 лет в сервисе
Был
год назад

Заявки фрилансеров

Нет заявок фрилансеров