Для вебмастера: 1. сделать активной кнопку перехода с английского на русский и обратно при помощи флажков русский-английский 2. поменять несколько нарисованных названий. 3. не прописывается в заголовках русский текст, ...
Серверный парсер текст. запросов (PHP Python и тд)
Есть буржуйский сайт типа овертюры, который выдает результаты в виде заархивированного файла. ссылка на скачивание высылается на мыло.
Должен быть файл опций, файл списка запросов, в результате - текстовый файл результатов
Парсинг должен быть прогрессивный, т.е. результаты запроса подставляются в поиск снова и снова пока не кончатся результаты или не надоест ждать.
предполагаемый алгоритм:
1. Раздублить и если нужно разбить файл списка запросов на несколько (в опциях - размер блока запросов) и поместить в папку Requests. если последний файл меньше целого блока то перенести его в подпапку requests/small
2. зайти по ссылке одновременно через несколько прокси (если указано "использовать прокси" и список прокси не пуст и в правильном формате, в настройках - кол-во потоков) подождав время рандомно выбранное из интервала в настройках
3. ввести в поле запрос из текущего списка невыполненных запросов, поставить флаг адалт-опции (если так указано в настройках)
4. нажать search
5. ввести в другое поле рандомный e-mail моего почтового домена (на сервере стоит catch all на один адрес), нажать Send e-mail
6. повторить начиная с п.2 пока не кончатся запросы в очередном списке запросов
7. зайти на мыло, собрать со всех писем ссылки для скачивания, удалить все письма
8. скачать по всем ссылкам из п.6 все файлы в подпапку TEMP
9. распаковать все файлы, удалить архивы
10. Выдернуть из названий файлов исходные запросы и записать их в промежуточный файл успешных запросов.
11. почистить распакованные файлы (удалить несколько строк в начале и конце).
12. Объединить в один текстовый промежуточный файл результатов, удалить исходные файлы.
13. Удалить дубли из промежуточного файла результатов
14. пополнить файл (если первый раз то создать) выполненых запросов списком из промежуточного файла успешных запросов
15. очистить текущий файл запросов от содержащихся в промежуточном файле успешных запросов. если остался пустой - удалить, если не уменьшился оставить как есть, если уменьшился и не пустой перенести в подпапку requests/small
16. удалить промежуточный файл успешных запросов
17. скопировать промежуточный файл результатов. копию почистить (каждую строчку от последней запятой и цифр после нее), после почистить копию от запросов, содержащихся в файле выполненных запросов и в файлах невыполненных запросов.
18. составить из очищенной копии файлы блоков запросов. последний маленький - в папку requests/small. удалить очищенную копию
19. если в папке requests/small суммарное кол-во запросов во всех файлах не меньше блока запросов
то объединить их, разбить на целые блоки и остаток, целые перенести в папку requests в начало очереди.
20. если папка requests пуста то объединить все файлы из requests/small и переместить объединенный файл в requests
21. добавить промежуточный файл результатов к общему файлу результатов. удалить промежуточный файл.
22. повторить с п.2 пока папка requests не окажется пустой.
Скрипт должен работать быстро, поэтому возможно вместо записи файлов лучше использовать оперативную память. Какие-то процессы можно делать парралельно.
Скрипт должен быть как можно более "непотопляемым", чтобы работать в автономном режиме, т.е. не вылетать при возникновении каких-либо проблем, а пробовать сначала "пройти другим путем", а в крайнем случае возвращаться в последнее исходное состояние и снова и снова пытаться.
Адрес сайта в личку. Пишите ваши предложения.
Выбранный исполнитель
Заявки фрилансеров
Похожие заказы
- $20Веб-программирование1 исполнительЗакрыт15 лет назад
- $100
Требуется плагин для WordPress. Плагин должен создать таблицу в базе и давать возможность ее редактировать из админки... желательно редактировать красиво с использованием Ajax чтобы страница не перезагружалась и не мигала. ...
Веб-программирование3 заявкиЗавершен15 лет назад - $5
Задача: установка флeш cооkie
Веб-программированиенет заявокЗакрыт15 лет назад Привет, надо перенести игру из флеша на флекс (3 или 4) ее исходники можете скачать отсюда: http://oligarch.us/downloads/fillit_cs3.zip
Веб-программирование1 заявкаЗакрыт15 лет назадИмеется готовый скрипт раскрывающегося меню (jquery), который запоминает положение открытых-закрытых пунктов при перезагрузках страницы. Требуется небольшая доработка -- сделать, чтобы при раскрытии новых пунктов меню старые закрывались. Оставляйте, пожалуйста, аську.
Веб-программирование1 исполнительЗавершен15 лет назад- $300
Необходимо сделать модификацию Webasyst Shop Script для продажи цифровых товаров. Возможность добавлять к каждому продукту пин-коды построчно. Отображение в аккаунте пользователя купленные продукты и доп. информацию о продукте. Автоматизировать достаку купленного ...
Веб-программирование6 заявокЗакрыт15 лет назад - $500
Когда пользователь пытается приобрести книгу через систему оплаты заказа, они автоматически перенаправляются на экран платежа, который не интегрирован в нашу CSS и пользователь теряется в недоумении (см. screen shot в аттаче). Необходимо отработать систему продажи ...
Веб-программирование1 исполнительЗакрыт15 лет назад Ситуация следующая, используем счетчик в партнерской программе, то есть на сотнях сайтах, стоит наш счетчик. Нам НАДО анализировавь СТРАНИЦЫ по которым ходили юзверим, то есть страница типа index.php?a=b&c=d ...
Веб-программирование1 исполнительЗавершен15 лет назадДобрый день! Необходима небольшая доработка модуля регистрации DLE. Подробности напишу в личку. P.S. Требуется программист, хорошо знакомый с движком DLE.
Веб-программирование1 исполнительЗавершен15 лет назадНужно поставить на хостинг и настроить скрипт знакомств. И сделать/изменить для него дизайн. Предлагайте готовые CMS, сроки и стоимость отдельно за настройку скрипта и дизайн для него.
Веб-программирование2 заявкиЗакрыт15 лет назад