Необходимо разработать систему, которая будет построена на базе модульной архитектуры, что позволит быстро разрабатывать компоненты (модули).

Общие возможности системы:

- Запуск и остановка проектов по крону

- Запуск и остановка проектов вручную

- Периодическое обновление уже ранее сграббленных страниц - в зависимости от настройки проекта

- Контроль хода выполнения проекта - получение текущих и финальных отчетов о ходе

- Контроль ошибок работы модулей

- Создание последовательностей задач (проектов) - выстраивается из модулей - через админку

- Настраиваемое поведение в зависимости от статуса задачи

- Возможность автоматического возобновления работы после остановки без потери данных

- Ведется лог-журнал

Всего планируется создание 8 модулей: ядро граббинга, ядро парсинга, ядро экспорта, ядро полной информации, ядро скачивания, ядро конвертирования, ядро загрузки, ядро синхронизации БД

Также под модули: ядро граббинга, ядро парсинга, ядро полной информации, ядро скачивания, ядро загрузки планируется создание нескольких источников (настроек).

Для модулей: ядро конвертирования, ядро экспорта, ядро синхронизации БД планируется исспользовать один источник / один скрипт.

Необходимо написать именно ядра для модулей - то есть основной функционал, который не зависит от источника.

Сами источники должны добавляться легко - настройки источника в файлике заливается в определенную папку (.../Grabber/Source).

Для проверки работоспособности необходмо также написать по 1 источнику к каждому модулю - деталии далее.

Первый модуль - ядро для граббера - получение данных из источника

Основные функции ядра:

- Многопоточный – неограниченное количество параллельных запросов

- Сетевые протоколы: HTTP, HTTPS, FTP, POP3

- Получение данных с сайтов, из почты, из серверов БД, файловых серверов

- Граббинг из зон сайта, требующих авторизации, поддержка сессий, cookies, стандартной авторизации

- Автоматическое распознавание кодировок контента

- Использование сжатия трафика

- Избежание блокировки IP адреса - использование proxi – серверов

- Автоматическое тестирование списка proxi - серверов перед стартом задачи, ранжирование списка по времени отклика

- Автоматическая ротация используемого proxi – сервера при блокировке

- Использование сети tor, ротация точек подключения к сети

- Эмуляция USER-Agent и поисковых роботов

Создать файл источника для сайта http://www.***

Второй модуль - ядро парсера – разбор результатов граббинга

Основные функции ядра:

- Создание структурированного датасета

- Сохранение датасета во внутреннем формате системы

- Обновление изменившихся записей, добавление новых, гибкая настройка

- Работа с частями датасета, обновление только нужной информации

Третий модуль - ядро экспорта - производит экспорт данных из внутреннего формата в любой внешний формат или хранилище

Основные источники (настройки):

- сохранение в текстовой файл

- сохранение (распределение) в БД SQL

- вывод и сохранение в XML

- сохранение в CSV

Разъяснение: при создании проекта - выбирается источник для модуля Граббинга - выбирается настройка под источник граббинга для модуля парсера - выбирается требуемый исходящий формат.

Четвертый модуль - ядро полной информации - по заданным данным из результата граббинга ищется информация на определенном ресурсе и далее граббится, парсится и экспортируется - присоединяясь к имеющейся

Суть работы модуля:

на конкретном сайте ищется информация - производится переход по 1ому результата поиска - далее граббится вся необходимая информация в соответствии с настройками источника - парсинг информации (разбор), также скачивание графической и видео информации - экспорт (добавление к имеющимся данным)

Основные функции ядра:

- Получение информации для поиска из внутреннего датасета или из результатов экспорта - после модуля Экспорта

- Поддержка ручного ввода информации для поиска

- Поддержка загрузки txt, excel файлов с информацией для поиска

- Многопоточный – неограниченное количество параллельных запросов

- Сетевые протоколы: HTTP, HTTPS

- Поиск на сайтах, требующих авторизации, поддержка сессий, cookies, стандартной авторизации

- Вход по нескольким парам логин-пароль из настроек источников

- Ротация парлогин-пароль при блокировке аккаунта

- Скачивание и сохранение графических файлов в папку Images в папке с названием фразы для поиска на транслите

- Скачивание и сохранение видео файлов в папку Video в папке с названием фразы для поиска на транслите

- Избежание блокировки IP адреса - использование proxi – серверов

- Автоматическое тестирование списка proxi - серверов перед стартом задачи, ранжирование списка по времени отклика

- Автоматическая ротация используемого proxi – сервера при блокировке

- Использование сети tor, ротация точек подключения к сети

- Контроль хода выполнения модуля - получение текущих и финальных отчетов о ходе

- Возможность автоматического возобнавления работы после остановки без потери данных

Создать файл источника для сайта http://www.***

Пятый модуль - ядро скачивания - скачивание файлов с файлообменников и торрентов

Основные функции ядра:

- Получение ссылок из внутреннего датасета или из результатов экспорта - после модуля Экспорта

- Поддержка ввода ссылки для скачивания вручную

- Поддержка загрузки txt, excel файлов с файлами для скачивания

- Многопоточный – неограниченное количество параллельных скачиваний

- Поддержка докачки

- Сетевые протоколы: HTTP, HTTPS, FTP, Torrent

- Скачивание с сайтов, требующих авторизации, поддержка сессий, cookies, стандартной авторизации

- Вход по нескольким парам логин-пароль из настроек источников

- Контроль за количеством и объемом скаченной информации

- Ротация парлогин-пароль по определенным в источнике условиям

- Переименование скаченного файла в соответствии с настройками (по маске)

- Возможность объединения частей файла

- Возможность автоматической разархивации / архивации

- Избежание блокировки IP адреса - использование proxi – серверов

- Автоматическое тестирование списка proxi - серверов перед стартом задачи, ранжирование списка по времени отклика

- Автоматическая ротация используемого proxi – сервера при блокировке

- Использование сети tor, ротация точек подключения к сети

- Контроль хода выполнения модуля - получение текущих и финальных отчетов о ходе

- Возможность автоматического возобнавления работы после остановки без потери данных

Создать файл источника для сайта http://www.***

На данном этапе реализации - нет необходимости в модулях ядро конвертирования и ядро синхронизации БД

Следующий модуль - ядро загрузки - загрузка ранее скаченных файлов на файлообменники

Основные функции ядра:

- Получение файлов для загрузки из внутреннего датасета или из результатов экспорта - после модуля Экспорта

- Выбор файлов для загрузки вручную

- Поддержка загрузки txt, excel файлов с файлами для загрузки

- Многопоточный – неограниченное количество параллельных загрузок

- Сетевые протоколы: HTTP, HTTPS, FTP

- Загрузка на сайты, требующих авторизации, поддержка сессий, cookies, стандартной авторизации

- Вход по нескольким парам логин-пароль из настроек источников

- Контроль за количеством и объемом закаченной информации

- Ротация парлогин-пароль по определенным в источнике условиям

- Избежание блокировки IP адреса - использование proxi – серверов

- Автоматическое тестирование списка proxi - серверов перед стартом задачи, ранжирование списка по времени отклика

- Автоматическая ротация используемого proxi – сервера при блокировке

- Использование сети tor, ротация точек подключения к сети

- Контроль хода выполнения модуля - получение текущих и финальных отчетов о ходе

- Возможность автоматического возобнавления работы после остановки без потери данных

Создать файл источника для сайта http://www.***

Проще говоря: выбирается источник - грабится - парсится - эскпортируется - из полученных данных выбирается определённая ключевая фраза - ищется на определённом сайте - найденное граббится-парсится-скачивается-экспортируется к имеющейся информации - потом скачивается - потом загружается на другие ресурсы

Работа сдается помодульно!!!

Админка пока не нужна - но в планах и ее разработка.

При качественной реализации - постоянное сотрудничество с программистом - командой!

Более подробную информацию о системе и об источниках - в личной беседе по ICQ 462 218 6 7 8

Просьба не беспокоить новичков.

При размещении предложения - указывать реальный срок реализации - так как будут санкции при просрочке, а также указывать цену, которая будет в диапазоне +- 10% от конечного результата.

Также необходимо указывать работы, функционально похожие на проект.

Оплата

Возможна работа на 50% предоплате при наличии персонального аттестата ВебМани - если нет - предоплата 10%-20% - по договорённости.

Желательно указывать цену по каждому модулю - так как сдача и оплата происходит помодульно.

16 лет назад
PoMkaNik
Роман 
40 лет
17 лет в сервисе
Был
2 года назад

Выбранный исполнитель

SmartDesign
39 лет
19 лет в сервисе
Был
3 месяца назад
16 лет назад
$1230
30 дней

Заявки фрилансеров

SmartDesign
39 лет
19 лет в сервисе
Был
3 месяца назад
16 лет назад
  • Похожие заказы

  • Галерея конкурса красоты. Что должно быть: 1. возможность регистрироваться и добавлять свою фотографию на конкурс. 2. Возможность регистрироваться и голосовать. 3. Возможность голосовать с помощью отправки смскок. ...

    Закрыт
    16 лет назад
  • Сколько будет стоить написание качественного и безотказно работающего скрипта для экспорта гороскопа, включающих в себя ссылку на мой сайт? Интересует цена написания одного ежедневно обновляемого скрипта, и нескольких других видов - обновляемого раз в неделю ...

    Закрыт
    16 лет назад
  • Необходимо разработать доску объявлений . Только доску объявлений и поиск по ним включая расширенный . Пожалуйста сразу указывайте сроки и стоимость. Выберу исполнителя с наименшей ценой .

    Закрыт
    16 лет назад
  • Требуется программист C# с опытом работы с ASP.NET. Желателен опыт работы с CMS Битрикс.НЕТ или желание быстро ее освоить. Задача: - перевести существующий сайт на эту CMS, при этом натянув новое ...

    Закрыт
    16 лет назад
  • Хочу обновить сайт новым контентом. Надо создать несколько новых разделов. Это базы и парсинг контента. От программиста требуется умение работать с базами данных. Ищу фрилансера, студиям отвечать не буду. ...

    Закрыт
    16 лет назад
  • $1000

    Добрый день! Напишите, пожалуйста, сколько Вы возьмете за разработку сайта, похожего на 90% на этот: www.italonceramica.ru по паре вариантов (дизайн и верстка предоставляются): 1. все просто на флэш 2. все с админкой (соответственно ...

    Закрыт
    16 лет назад