Если в двух словах, есть необходимость сделать несколько модулей. Логика системы примерно следующая: 



1. Вбивается массив ключевых слов


2. Система делает запросы к Яндексу по XML, получает топ10 (готовый модуль есть)


3. Получает контент каждого сайта.


4. Убирает технические тэги, оставляет только текст.


5. Переводит каждое слово в значение массива. Приводит каждое из слов в инфинитив/единственное число.
 (готовая библиотека есть)

6. Определяет частотность каждого слова внутри текста


7. Определяет частые словосочетания (би, три, n-граммы), их частотность внутри текста


8. Выводит медиану значений по всем 10 сайтам. Таблицу с самыми частыми словами, словосочетаниями и количество их повторений.



Повторяет 2-8 по крону растянуто во времени в течение дня, чтобы снизить нагрузку на сервер.


9 лет назад
triadasite
Сергей 
36 лет
13 лет в сервисе
Был
8 лет назад
5 отзывов

Заявки фрилансеров

Нет заявок фрилансеров