Здравствуйте.

Требуется приложение на PHP+mysql - многопоточный парсер внешних ссылок с сайтов.

Структура:

1. Админ.часть

- настройка скорости сканирования (количество потоков)

- настройка глубины сканирования (количество кликов от главной страницы)

- загрузка txt файла со списком урлов (хосты или полный адрес)

- загрузка списка урлов через форму

- индикация состояния сканирования (количество хостов в очереди, кол-во готовых хостов, общая статистика, по желанию трафик)

- блокировка хостов (черный список сканирования)

2.Парсер

- многопоточность

- приблизительная структура бд: id, host, datetime последнего сканирования, url страницы, sum_links количество на странице, anchors анкоры ссылок в формате url_acceptor::anchor;;url_acceptor::anchor, status ответ сервера (0 - ожидание), level количество кликов от главной (0,1,2 и т.п.), error код ошибки

- предположительный размер БД 10-20млн. страниц (или 50-100 тыс. хостов)

- последовательность сканирования страниц должна быть случайной, то есть страницы сканируются не сразу для всего хоста, а берутся из бд вразнобой, сначала главные страницы, потом по одной второго уровня, затем случайные страницы третьего уровня разных хостов и т.п.

- внешними ссылками считать не закрытые от поисковых систем тегами noindex и nofollow

- подмена юзер-агента, реферера

- возможность работать через прокси (админ часть)

3.Пользовательский интерфейс

- обращение через GET запрос - ?host=site.ru

вывод суммы полей sum_links , где host=$_GET[host] , естественно с защитой от инъекций.

- обращение через GET запрос - ?host=site.ru&mode=view

вывод списка всех ссылок с хоста: url_acceptor - anchor

Бюджет неизвестен, предпочтение будет отдаваться при наличии уже действующего аналога или при предложении дополнительных возможностей или особого быстродействия.

14 лет назад
Vitaliy83
Виталий 
42 года
14 лет в сервисе
Был
12 лет назад

Заявки фрилансеров

Нет заявок фрилансеров
  • Похожие заказы

  • $30

    Всем привет! Нужно написать софт для сбора мейлов, язык на ваше усмотрение. Примерный функционал: простой интерфейс многопоточность прокси Подробное ТЗ дам при личной переписке. Срок выполнения ...

    Завершен
    14 лет назад
  • Требуется создание формы для принятия онлайн заказов на сайте трансферно-такси тематики. Приблизительный пример формы http://www.elittransfer.ru/order/transfer/ Эту форму нужно доработать до требуемой. Или создать новую с необходимыми параметрами. Выбор да нет ...

    Завершен
    14 лет назад
  • $300

    Здравствуйте! Нужно сделать сайт на Joomla или Drupal аналог transmap точка ru. Функционал остается такой же + доработки по моему ТЗ (инфо для кондидатов у кого будет примерная цена за работу)! Пишите пожалуйста ...

    Закрыт
    14 лет назад
  • Есть шаблон на дле, нужно установить и настроить фото галерею, видео плеер. + мелкие доработки самого шаблона. Вообщем все довести до ума.Ваши цены и сроки? Без предоплаты.

    Завершен
    14 лет назад
  • Tinymce или fckeditor не подходят под конкретную задачу. Проблема слишком большие. Код который они делают не тот который мне нуден. Вариант 1. Пишем свой простой редактор, в котором есть такие функции: - Жирный, ...

    Закрыт
    14 лет назад
  • Здравствуйте, есть сайт онлайн кинотеатр, там хочу организовать онлайн тв хотя б 3 4 канала, есть поток смотрю через VLC все норма, сам попробовал делать через VLC показывает все норма но сервер грузит и отключается ...

    Закрыт
    14 лет назад
  • Требуется доработка функционала на js (jQuery, TinyMCE + ajax). Нужен специалист, который в этом разбирается. Кратко - требуется добиться работоспособности страницы с редактиром tinyMCE после замены контентной части ajax (не jQuery) Так же ...

    Закрыт
    14 лет назад