Ищется опытный программист на С/С++ c постоянным онлайном (каждый день, преимущественно вечернее время), с вас знания на отлично windows(безопасность, сети). P.S. Разрабатывали ли вы собственный антивирус? Если есть примеры работ на С/С++ в области ...
Парсер-паук перелинкованных топиков форумов.
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.
Сроки - СРОЧНО!
Будет файл конфига (в нем софт будет определять движок форума и гулять по ссылкам)
ТЗ на примере PHPBB
Корм софту список ссылок, вида:
http://oceanica.brookscv.bget.ru/viewtopic.php?f=15&t=78865&p=341861#p341861
http://www.itforumas.puslapiai.lt/viewtopic.php?f=7&t=328154
и т.п.
Файл конфига софта, где будем указывать признак движка, config.sys
1. Задаем в конфиге регулярку, которые будут сопоставляться к движкам и номерам топиков\подфорумов.
---
MAIN
---
viewtopic|viewforum|viewthread|topic|thread|showthread|showtopic|showforum|board \\я регулярки не знаю, короче брать те ссылки (только исходящие с форума, в которых есть эти слова. Берем ТОЛЬКО исходящие ссылки других форумов. Ссылки донора - не берутся)
^https?://[^/]*?\.(?:ru|ua|by) \\ и вот это регулярка с другой программы, т.е. берем всё бурж форумы, кроме тех, где есть .ru, .by и .ua
Дальше в конфиге задаем признак движка, вот у нас были ссылки:
http://oceanica.brookscv.bget.ru/viewtopic.php?f=15&t=78865&p=341861#p341861
http://www.itforumas.puslapiai.lt/viewtopic.php?f=7&t=328154
---
PHPBB
---
viewtopic.php \\признак движка
?f=*cat* \\после = идёт номер категории. *cat* = номер категории донора
&t=*topic* \\номер темы
[host]/viewforum.php?f=*cat* \\ ссылка движка до категории
Все остальные параметры, если будут в ссылке - игнорируются.
--------
2. Задаем в скрипте количество тем, которые брать от последнего.
Брать тем: 5000
--
Это означает, что мы берем только 5000 последних тем.
Как узнать какое количество тем?
На примере PHPBB
http://oceanica.brookscv.bget.ru/viewtopic.php?f=15&t=78865&p=341861#p341861
у нас был определен номер категории = 15 (f=15)
Переходим по ссылке, http://oceanica.brookscv.bget.ru/viewforum.php?f=15 и смотрим несколько последних тем (бывает старые темы наверху подняты и номер будет меньшим последнего).
На данном примере последняя тема была: http://oceanica.brookscv.bget.ru/viewtopic.php?f=15&t=310397
t=310397
---
Теперь просто вычитаем из этих цифр 5000 (указывали в настройках), и долбим каждую тему. Нули в ссылке не объязательны.
http://oceanica.brookscv.bget.ru/viewtopic.php?f=15&t=310397
...
http://oceanica.brookscv.bget.ru/viewtopic.php?f=15&t=305399
http://oceanica.brookscv.bget.ru/viewtopic.php?f=15&t=305398
http://oceanica.brookscv.bget.ru/viewtopic.php?f=15&t=305397
Собираем ссылки перелинкованные. Я думаю, использовать может sql файловый (не помню точно), можно же проверять быстро на дубли? Какие дубли тоже в настройках указывать (по хосту или по номеру топика). Что бы одинаковые топики не собирались или одинаковые форумы).
И последнее в настройках указывать - Глубинный парсинг [] - тут писать 0,1,2,3, например поставили 2.
1. Зашли в топик текущего форума.
1.1. Собрали ссылки в этой топике уникальные (не по хосту, а по строчке), сразу же перешли по этим ссылкам на другие форумы. Собрали оттуда топики уникальные ещё раз. И ещё рза так же перешли на другие форумы и опять собрали (это глубина 2).
Ну и последним, указываем в настройках чекером:
Добавлять результат к основной базе [ ]
== Если добавлять, то те ссылки на топики другим форумов (уникальные), что мы собрали с первого форума, просто добавятся вниз файла. Но тут тоже как-то на уникальность проверять надо хоста. Что бы не было - что один форум пару раз парсился.
Вот пока всё, для остальных движков сделаем уже после этого - там всё по аналогии.
Заявки фрилансеров
Похожие заказы
- $2500Прикладное ПО4 заявкиЗакрыт11 лет назад
Нужно сделать приложение, чтобы пользователи могли себя снимать на зеленом фоне, который бы заменялся бы выбранным пользователем фоном. То есть пользователь выбирает различные фоны на экране, встает на фоне зеленого фона и видит на экране ...
Прикладное ПО3 заявкиЗакрыт11 лет назад- $5000
Нужна программа для ПК, анализирующая видео с входа (стандартный захват), делающих "снимок" с печатью результата на принтере и отображением на дополнительном большом мониторе (65”). Снимок сравнивается с неким эталоном, заранее сделанным на том же ...
Прикладное ПО1 заявкаЗакрыт11 лет назад - $250
В конечном итоге необходимо разработать/модифицировать опенсорс клиент для подключения его к сообщениям от redmine сервера, с возможностью: 0. просматривать сообщения от редмайна 1. быстрого ответа через мессенджер на поступающие комментарии 2. дополнительными ...
Прикладное ПО1 заявкаЗакрыт11 лет назад - $250
Необходимо разработать заготовку системы клиент-серверного взаимодействия, устроенную следующим образом. Потоки клиента (которых может быть от 1 до N) осуществляют запросы к серверу. Важный момент – поток, отправив запрос, не может продолжать свою работу, поскольку ему ...
Прикладное ПО2 заявкиЗакрыт11 лет назад Курсы валют. База данных. 1) Хранение курсов валют ($, €) ЦБ РФ по датам. 2) Загрузка новых значений курсов из интернет. 3) Вывод курса ЦБ РФ на выбранную ...
Прикладное ПО4 заявкиЗакрыт11 лет назадНеобходимо написать программу для верстки фотокниг: - Пользователь загружает в программу свои фотографии - используя имеющиеся в программе шаблоны с дизайном верстает развороты своей фотокниги - применяет к фотографиям имеющиеся в программе ...
Прикладное ПО3 заявкиЗакрыт11 лет назадСоздание аналогичного плеера в apps Facebook http://xmusic.me/ Cтоимость и сроки
Прикладное ПОнет заявокЗакрыт11 лет назад- $60
Нужно: уже готовый чит для игры steam counter-strike GO---закриптовать(сменить название процесса,добавить цифровую подпись,замаскировать) таким образом чтобы он не детектировался античит системой steam VAC. Приватные читы с комерческих сайтов чит систем прелогать не ...
Прикладное ПО1 заявкаЗакрыт11 лет назад - $1400
1.Программный комплекс по автоматизированному запуску приложений разных типов. А) Программный Комплекс должен состоять из клиентской части, в которой будут кнопки запуска приложений сгруппированных особым образом. Б) Приложение администрирования клиентской части комплекса. ...
Прикладное ПО1 заявкаЗакрыт11 лет назад