Необходима функция, которая парсит сайт и при этом сохраняет в базе данных его категориальную структуру. То есть записи БД будут иметь следующий формат:

ID URL страницы URL родительской страницы

Идентификация структуры может проходить либо по структурам URLов сайта - например:

site.ru/papka

site.ru/papka/doc1

В данном случае site.ru/papka/doc1 является подстраницей site.ru/papka.

Также должна быть возможность вместо использования структуры в качестве базиса идентификации категорий, использовать маркеры для определения родительских страниц (маркер - это кусок кода на странице, который может включать название категории). Например, на блоге на вордпресс с ЧПУ вида blog.ru/postname - это может быть код, в котором заключено название категории.

Также будут приветствоваться и поощряться любые советы в оптимизации алгоритма.

p.s. желательно сотрудничество с человеком, у которого уже есть готовые решения.

p.p.s. базовые функции для получения контента со страницы, а также сбора внутренних ссылок я предоставлю (просто функции уже отлажены, поэтому настаиваю именно на их использовании)

15 лет назад
lofti
38 лет
16 лет в сервисе
Был
8 лет назад
16 отзывов(-1)

Заявки фрилансеров

Нет заявок фрилансеров