Многопоточный PHP парсер Интернет

Имеется 3 файла:

1. список нехороших URL'ов; (исключения для парсера)

2. списки хороших слов; (содержит списки ключевых слов на разные темы)

3. список нехороших слов; (исключения для парсера)

Словоформы использовать ненужно, проверка только на полное совпадение слов/фраз из списка.

Требуется парсировать все подряд Интернет-странички (включая подстранички) для накопления текстов в базе данных.

Должны парсироваться сайты (и их подстранички), которые успешно прошли через список нехороших URL'ов и нехороших слов.

С сайтов и их подстраничек должны собираться тексты, которые имеют длину 150 и более слов.

Если внутри найденного текста найдено несколько из слов какой-либо категории из списка хороших слов, то этот текст сохранятеся под id соответствующей категории.

Ведение лога.

Предложения типа "я всё могу, пишите мне в личку..." или "вот моё мыло, пишите мне..." - ОТКЛОНЯЮТСЯ СРАЗУ!

Резюме принимаются по Skype.

Мой ник: sabia-sd

15 лет назад
sabia
Антон 
43 года
19 лет в сервисе
Был
год назад

Заявки фрилансеров

Нет заявок фрилансеров