Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Парсер урлов страниц

Многопоточность

На входе задаем тхт док с урлами - их может быть дововльно много .. ну до 100к

- нужна возможность задавать макс. размер страницы (в КБ), если больше то игнорируем ее

- возмножность задавать количество потоков

- нужна возможнать задавать таймаут ответа страницы

- нужна возможность игнорирования скриптом 404 итд ошибок

- файл логов где бы было написано куда зашли, и что получили в таком формате:

урл который обрабатываем|размер|ошибка если была |количество найденых урлов удовлетвор. условию|найденая фраза\фразы, если есть|записано или нет в результаты|

- не надо никаких интерфейсов, кроме страницы где бы % выполнения отображался бы просто в пхп файле нужен выбор режима:

а) Режим при котором скрипт собирает все урлы на странице (в том числе и текстовые),

на котором собираються урлы. + опция собирать\не собирать урлы, которые содержат домен на котором они собираются

б) Режим при котором собираются урлы по масках (используя регулярные выражения)

+ опция собирать\не собирать урлы, которые содержат домен на котором они собираются

*add.php?tid=*

*add.php?mode=reply&f=*&t=*

*add.php?mode=reply&t=*

*add.php?mode=reply&t=*

( "*" я обозначил любое содержание, так как в регул. выраж пока не совсем ориентируюсь )

Результаты пишем в result.txt

В обоих режимах еще нужно добавить опцию поиска фраз: если фраза есть в коде страницы то урл пишем в результаты + в логи пишем

что была найдена фраза 1 sport или 2 фразы сразу, если фраз не указано - то ниче не искать

phrase1=sport

phrase2=music

phrase3=car

.

.

15 лет назад
sunford
Андрей 
40 лет
18 лет в сервисе
Был
3 года назад

Заявки фрилансеров

Нет заявок фрилансеров