Необходимо сделать скрипт поиска RSS лент для каталога RSS каналов.

Скрипт надо реализовать на PHP.

Скрипт должен работать следующим образом:

1. Загружаем базу кейвордов (текстовый файл, на новой строке - новый кейворд).

2. Для парсинга необходимы поисковики: яндекс, гугл и live.com

3. После выбора поисковика - скрипт начинает его парсить по базе кейвордов.

4. По каждому кейворду парсим первые 100 результатов выдачи (сделать эту цифру в настройках, чтоб можно было менять).

5. Скрипт переходит по каждому результату выдачи и ищет на данном сайте rss канал. Если канал не найден - переходим к следующему результату выдачи и анализируем его.

6. Если канал найден на сайте:

6.1. Выдираем полный путь к RSS каналу (http://****полный путь****).

6.2. Анализируем RSS канал. Нас интересуют только те каналы, которые регулярно обновляются. Поэтому при анализе канала смотрим - сколько было новых сообщений за последние 2 дня. Если новых сообщений за последние 2 дня больше 10 (можно менять в настройках), то записываем путь к RSS каналу в успешные. Если меньше 10 - в плохие.

7. Ведем лог парсинга. Лог должен иметь такой вид:

Дата Кейворд Сайт Наличие канала Сумма новых сообщений за последние 2 дня.

Скрипт можно реализовывать как с базой MySQL, так и без нее - как удобнее.

После обработки скрипт должен выдать 3 файла:

1. good.txt (каналы, которые имеют 10 или более собщений за последние 2 дня). Имеет вид:

Дата записи Адрес Кол-во новых сообщений за последние 2 дня

2. bad.txt (каналы, которые имеют 9 или менее собщений за последние 2 дня). Имеет вид:

Дата записи Адрес Кол-во новых сообщений за последние 2 дня

3. log.txt - файл лога, его вид описан выше.

Настройки скрипта:

1. Сколько парсить результатов выдачи. (в описании 100)

2. Давность сообщений в канале. (в описании 2 дня)

3. Кол-во новый сообщений в канале. (в описании 10)

4. Сколько результатов выдачи смотреть за 1 запуск скрипта. (в описании 30)

Реализовать скрипт надо при помощи крона. За каждый запуск он будет смотреть 30 результатов выдачи.

После отработки скрипт должен выдавать следующие данные:

1. Сколько сайтов проанализировано. На скольких нет канала. На скольких есть плохие каналы. На скольких есть хорошие каналы.

2. Если база кейвордов полностью проанализирована, пишем - "Кейворды закончились".

И последнее. Скрипт должен вести анализ кейвордов, которые уже парсились в данном поисковике, чтобы не было повторов.

Также необходимо вести анализ сайтов, на которых производился поиск RSS каналов - также, чтобы избежать повторов.

Все ссылки на RSS каналы в файлах good.txt и bad.txt не должны повторяться (то есть не должно быть 2-х одинаковых ссылок).

E-mail: [email protected]

ICQ: 442935824

16 лет назад
nilovA
Andrey Nilov 
125 лет
16 лет в сервисе
Был
16 лет назад

Заявки фрилансеров

Нет заявок фрилансеров
  • Похожие заказы

  • $50

    В ДЛЕ 7.2 необходимо следующее 1. В новости добавить строку, в которой только админ или модератор может заводить числовое значение как положительное, так и отрицательное. В профиле и там где коменты ...

    Закрыт
    16 лет назад
  • $150

    Здраствуйте !!! Уважаемые лансеры мне нужен скрипт почтового спонсара с аналогичными функцииями как http://zmailcasher.zcasher.info/ http://zmailcasher.zcasher.info/admin и чтобы не грузил сервер как этот скрипт и мог работать на обычном хостинге!!!! За ...

    Закрыт
    16 лет назад
  • День добрый ! Сайт HardOn.ru ищет команду способную в кратчайшие сроки доработать внешний вид сайта и связать отображаемое с соотвествующей SQL базой. При наличии положительных впечатлений дорабока части "заказов" так ...

    Закрыт
    16 лет назад
  • Требуется создание скрипта в котором бы могла быть возможноть загрузки на другие хостинги файлов. То есть пользователь заходит на сайт выбирает файл для заливки и его файл автоматически заливается на самые популярные хостинги файлов(ifolder,rapid ...

    Закрыт
    16 лет назад
  • Здравствуйте. И так мне нужно доделать/сделать/переделать (короче что угодно) следующие модули от OSCommerce для VaM Shop RBKmoney, вроде подходит модуль от бывшего RuPay (не проверял) Наложенный платеж ...

    Закрыт
    16 лет назад
  • Необходимо написать парсер одного из форумов mybb.ru, который бы складывал данные в базу в формате для форума vbulletin. Прямого доступа к базе mybb.ru нет, только через web interface.

    Закрыт
    16 лет назад
  • Есть сайт (видеогаллерея) на движке ClipShare, для него необходимо сделать граббер флэш-видео, то есть чтобы грабить с других видеогаллерей. О цене договоримся ICQ: 385 383 292

    Закрыт
    16 лет назад
  • $5

    1. wordpress отправляет почту только с помощью плагина wp-phpmailer. Он шлет письма корректно, но кракозябрит кодировку. Это надо исправить 2. плагин подписка на комментарии отправляет письмо без отправителя и темы письма

    Завершен
    16 лет назад