Требуется парсер контента. Укажите стоиомость и сроки выполнения.

ТЗ:

Есть txt файл с списком urlов разбитых через \n.

Собераем массив проходим циклом, удаляем пройденный URL из файла после завершения каждого вхождения.

В цикле:

- проверяем есть ли url в бд;

если нету:

- по хосту получаем ip;

- проверяем пренадлежит ли домен USA; - функция гео таргетинга есть;

если пренадлежит:

- проверяем (курл) код 200;

если код 200:

- Создаем карту сайта(глубина карты с лимитом 3 вхождения и до 1000 страниц), то есть спарсил с главной внутр. ссылки, пошол по ним парсить,

и еще раз по полученным(естественно ссылки уники);

после полученой карты сайта:

- парсим title, keywords, description, чистый текст без тегов, внутренние ссылки, внешние ссылки, email адресса;

Собераем в массивы по отдельности;

Внешние ссылки, email адресса прогоняем через array_unique;

mysql

В бд по каждому полю отдельная таблица;

url - ссылка сайта; поля (id,url)

email - привязаны к индексу url(id), каждый email добавляеться в отдельную запись;

in_url - внутренние ссылки,привязаны к индексу url(id); Поля (in_url_id, in_url(значение внутреннея ссылки), url_id);

title - привязаны к in_url по индексу; перед добавление необходим лимит до 250 символов

description - привязаны к in_url по индексу; перед добавление необходим лимит до 300 символов

keywords - перед добавление ключевых слов необходим лимит до 250 символов, и разбить на массив через знак ","

и добавить каждое отдельное слово в отдельную запись из полученного массива, привящанное к индексу in_url, это же касаеться и добавления out_url

out_url - внешние ссылки,привязаны к in_url по индексу, добавляються в отдельные записи;

13 лет назад
mciit
38 лет
15 лет в сервисе
Был
12 лет назад

Заявки фрилансеров

Нет заявок фрилансеров