Галерея конкурса красоты. Что должно быть: 1. возможность регистрироваться и добавлять свою фотографию на конкурс. 2. Возможность регистрироваться и голосовать. 3. Возможность голосовать с помощью отправки смскок. ...
Модульная система граббинга-парсинга-загрузки
Необходимо разработать систему, которая будет построена на базе модульной архитектуры, что позволит быстро разрабатывать компоненты (модули).
Общие возможности системы:
- Запуск и остановка проектов по крону
- Запуск и остановка проектов вручную
- Периодическое обновление уже ранее сграббленных страниц - в зависимости от настройки проекта
- Контроль хода выполнения проекта - получение текущих и финальных отчетов о ходе
- Контроль ошибок работы модулей
- Создание последовательностей задач (проектов) - выстраивается из модулей - через админку
- Настраиваемое поведение в зависимости от статуса задачи
- Возможность автоматического возобновления работы после остановки без потери данных
- Ведется лог-журнал
Всего планируется создание 8 модулей: ядро граббинга, ядро парсинга, ядро экспорта, ядро полной информации, ядро скачивания, ядро конвертирования, ядро загрузки, ядро синхронизации БД
Также под модули: ядро граббинга, ядро парсинга, ядро полной информации, ядро скачивания, ядро загрузки планируется создание нескольких источников (настроек).
Для модулей: ядро конвертирования, ядро экспорта, ядро синхронизации БД планируется исспользовать один источник / один скрипт.
Необходимо написать именно ядра для модулей - то есть основной функционал, который не зависит от источника.
Сами источники должны добавляться легко - настройки источника в файлике заливается в определенную папку (.../Grabber/Source).
Для проверки работоспособности необходмо также написать по 1 источнику к каждому модулю - деталии далее.
Первый модуль - ядро для граббера - получение данных из источника
Основные функции ядра:
- Многопоточный – неограниченное количество параллельных запросов
- Сетевые протоколы: HTTP, HTTPS, FTP, POP3
- Получение данных с сайтов, из почты, из серверов БД, файловых серверов
- Граббинг из зон сайта, требующих авторизации, поддержка сессий, cookies, стандартной авторизации
- Автоматическое распознавание кодировок контента
- Использование сжатия трафика
- Избежание блокировки IP адреса - использование proxi – серверов
- Автоматическое тестирование списка proxi - серверов перед стартом задачи, ранжирование списка по времени отклика
- Автоматическая ротация используемого proxi – сервера при блокировке
- Использование сети tor, ротация точек подключения к сети
- Эмуляция USER-Agent и поисковых роботов
Создать файл источника для сайта http://www.***
Второй модуль - ядро парсера – разбор результатов граббинга
Основные функции ядра:
- Создание структурированного датасета
- Сохранение датасета во внутреннем формате системы
- Обновление изменившихся записей, добавление новых, гибкая настройка
- Работа с частями датасета, обновление только нужной информации
Третий модуль - ядро экспорта - производит экспорт данных из внутреннего формата в любой внешний формат или хранилище
Основные источники (настройки):
- сохранение в текстовой файл
- сохранение (распределение) в БД SQL
- вывод и сохранение в XML
- сохранение в CSV
Разъяснение: при создании проекта - выбирается источник для модуля Граббинга - выбирается настройка под источник граббинга для модуля парсера - выбирается требуемый исходящий формат.
Четвертый модуль - ядро полной информации - по заданным данным из результата граббинга ищется информация на определенном ресурсе и далее граббится, парсится и экспортируется - присоединяясь к имеющейся
Суть работы модуля:
на конкретном сайте ищется информация - производится переход по 1ому результата поиска - далее граббится вся необходимая информация в соответствии с настройками источника - парсинг информации (разбор), также скачивание графической и видео информации - экспорт (добавление к имеющимся данным)
Основные функции ядра:
- Получение информации для поиска из внутреннего датасета или из результатов экспорта - после модуля Экспорта
- Поддержка ручного ввода информации для поиска
- Поддержка загрузки txt, excel файлов с информацией для поиска
- Многопоточный – неограниченное количество параллельных запросов
- Сетевые протоколы: HTTP, HTTPS
- Поиск на сайтах, требующих авторизации, поддержка сессий, cookies, стандартной авторизации
- Вход по нескольким парам логин-пароль из настроек источников
- Ротация парлогин-пароль при блокировке аккаунта
- Скачивание и сохранение графических файлов в папку Images в папке с названием фразы для поиска на транслите
- Скачивание и сохранение видео файлов в папку Video в папке с названием фразы для поиска на транслите
- Избежание блокировки IP адреса - использование proxi – серверов
- Автоматическое тестирование списка proxi - серверов перед стартом задачи, ранжирование списка по времени отклика
- Автоматическая ротация используемого proxi – сервера при блокировке
- Использование сети tor, ротация точек подключения к сети
- Контроль хода выполнения модуля - получение текущих и финальных отчетов о ходе
- Возможность автоматического возобнавления работы после остановки без потери данных
Создать файл источника для сайта http://www.***
Пятый модуль - ядро скачивания - скачивание файлов с файлообменников и торрентов
Основные функции ядра:
- Получение ссылок из внутреннего датасета или из результатов экспорта - после модуля Экспорта
- Поддержка ввода ссылки для скачивания вручную
- Поддержка загрузки txt, excel файлов с файлами для скачивания
- Многопоточный – неограниченное количество параллельных скачиваний
- Поддержка докачки
- Сетевые протоколы: HTTP, HTTPS, FTP, Torrent
- Скачивание с сайтов, требующих авторизации, поддержка сессий, cookies, стандартной авторизации
- Вход по нескольким парам логин-пароль из настроек источников
- Контроль за количеством и объемом скаченной информации
- Ротация парлогин-пароль по определенным в источнике условиям
- Переименование скаченного файла в соответствии с настройками (по маске)
- Возможность объединения частей файла
- Возможность автоматической разархивации / архивации
- Избежание блокировки IP адреса - использование proxi – серверов
- Автоматическое тестирование списка proxi - серверов перед стартом задачи, ранжирование списка по времени отклика
- Автоматическая ротация используемого proxi – сервера при блокировке
- Использование сети tor, ротация точек подключения к сети
- Контроль хода выполнения модуля - получение текущих и финальных отчетов о ходе
- Возможность автоматического возобнавления работы после остановки без потери данных
Создать файл источника для сайта http://www.***
На данном этапе реализации - нет необходимости в модулях ядро конвертирования и ядро синхронизации БД
Следующий модуль - ядро загрузки - загрузка ранее скаченных файлов на файлообменники
Основные функции ядра:
- Получение файлов для загрузки из внутреннего датасета или из результатов экспорта - после модуля Экспорта
- Выбор файлов для загрузки вручную
- Поддержка загрузки txt, excel файлов с файлами для загрузки
- Многопоточный – неограниченное количество параллельных загрузок
- Сетевые протоколы: HTTP, HTTPS, FTP
- Загрузка на сайты, требующих авторизации, поддержка сессий, cookies, стандартной авторизации
- Вход по нескольким парам логин-пароль из настроек источников
- Контроль за количеством и объемом закаченной информации
- Ротация парлогин-пароль по определенным в источнике условиям
- Избежание блокировки IP адреса - использование proxi – серверов
- Автоматическое тестирование списка proxi - серверов перед стартом задачи, ранжирование списка по времени отклика
- Автоматическая ротация используемого proxi – сервера при блокировке
- Использование сети tor, ротация точек подключения к сети
- Контроль хода выполнения модуля - получение текущих и финальных отчетов о ходе
- Возможность автоматического возобнавления работы после остановки без потери данных
Создать файл источника для сайта http://www.***
Проще говоря: выбирается источник - грабится - парсится - эскпортируется - из полученных данных выбирается определённая ключевая фраза - ищется на определённом сайте - найденное граббится-парсится-скачивается-экспортируется к имеющейся информации - потом скачивается - потом загружается на другие ресурсы
Работа сдается помодульно!!!
Админка пока не нужна - но в планах и ее разработка.
При качественной реализации - постоянное сотрудничество с программистом - командой!
Более подробную информацию о системе и об источниках - в личной беседе по ICQ 462 218 6 7 8
Просьба не беспокоить новичков.
При размещении предложения - указывать реальный срок реализации - так как будут санкции при просрочке, а также указывать цену, которая будет в диапазоне +- 10% от конечного результата.
Также необходимо указывать работы, функционально похожие на проект.
Оплата
Возможна работа на 50% предоплате при наличии персонального аттестата ВебМани - если нет - предоплата 10%-20% - по договорённости.
Желательно указывать цену по каждому модулю - так как сдача и оплата происходит помодульно.
Выбранный исполнитель
Заявки фрилансеров
Похожие заказы
- Веб-программирование1 исполнительЗакрыт16 лет назад
Добрый нужна копия сайта - www.meebo.com цены и сроки - сюда
Веб-программирование5 заявокЗакрыт16 лет назадСколько будет стоить написание качественного и безотказно работающего скрипта для экспорта гороскопа, включающих в себя ссылку на мой сайт? Интересует цена написания одного ежедневно обновляемого скрипта, и нескольких других видов - обновляемого раз в неделю ...
Веб-программирование2 исполнителяЗакрыт16 лет назадНеобходимо исправить несколько ошибок в движке сайта. Подробности при переписке.
Веб-программирование1 исполнительЗавершен16 лет назадНеобходимо разработать доску объявлений . Только доску объявлений и поиск по ним включая расширенный . Пожалуйста сразу указывайте сроки и стоимость. Выберу исполнителя с наименшей ценой .
Веб-программирование16 заявокЗакрыт16 лет назадТребуется программист C# с опытом работы с ASP.NET. Желателен опыт работы с CMS Битрикс.НЕТ или желание быстро ее освоить. Задача: - перевести существующий сайт на эту CMS, при этом натянув новое ...
Веб-программирование3 заявкиЗакрыт16 лет назадСобственно, требуется сайт аналог m-joy . ru или dzink . ru Т.е. суть в том, что все mp3 файлы берутся с соцсети Вконтакте.ру Сообщайте, пожалуйста, цену, за которую можете выполнить работу, ...
Веб-программирование5 заявокЗакрыт16 лет назадХочу обновить сайт новым контентом. Надо создать несколько новых разделов. Это базы и парсинг контента. От программиста требуется умение работать с базами данных. Ищу фрилансера, студиям отвечать не буду. ...
Веб-программирование1 исполнительЗакрыт16 лет назад- $10
Необходиомо настроить прием платежей через WM Мерчант на сайте с использованием не простых механимов для защиты. К примеру: ...
Веб-программирование1 исполнительЗавершен16 лет назад - $1000
Добрый день! Напишите, пожалуйста, сколько Вы возьмете за разработку сайта, похожего на 90% на этот: www.italonceramica.ru по паре вариантов (дизайн и верстка предоставляются): 1. все просто на флэш 2. все с админкой (соответственно ...
Веб-программирование23 заявкиЗакрыт16 лет назад