Многопоточный парсер Google на Perl или Python

Закрыт4 заявки350 просмотров

Входящая информация:

1. Список ключевых слов (keywords.txt)

2. Список прокси-серверов (proxy.txt)

На выходе

1. Результаты поиска 100 первых результатов поиска в Google в формате

date \t proxy \t keyword \t position \t url \t is_additional \n

на каждый keyword - 100 строк

2. Список proxy_bad.txt

Большинство прокси рабочие, но если не загрузился результат, то нужно пробовать загрузить тестовую страницу http://ya.ru. Если и она не загрузилась, то добавить в список плохих прокси; не использовать его больше; попробовать загрузить страницу с google с другим прокси.

Основное требование - многопоточность и работа с прокси (обычные, не SOCKS). Желательно на Perl или Python, но подходит любой язык, который можно установить на FreeBSD из портов.

Код на PHP, чтобы не думать о парсинге:

1. Скачивать sprintf('http://www.google.com/search?hl=en&as_q=%s&as_epq=&as_oq=&as_eq=&num=100&lr=&as_filetype=&ft=i&as_sitesearch=&as_qdr=all&as_rights=&as_occt=any&cr=&as_nlo=&as_nhi=&safe=images', urlencode($keyword))

2. preg_match_all('#

.*.*(.*).*.*

(.*)
#msiU', $s, $m, PREG_SET_ORDER)

3. $position = 1;

foreach ($m as $match) {

$url = $match[2];

//$title = $match[3];

//$snippet = $match[4];

$is_additional = (strpos($match[1], 'margin-left')!==false) ? 1:0;

// тут добавить куда-то

$position++;

}

PHP Python

17 лет назад

Владимир Лучанинов

125 лет

17 лет в сервисе

Был

17 лет назад

Заявки фрилансеров

Нет заявок фрилансеров

Похожие заказы
Адаптировать компонент Joomla 1.x для ArtioJoomSEF
$25
Есть: - Joomla 1.x - Artio JoomSEF 2.2.2 - Компонент Каталог Текстов Песен (весьма простенький) Нужно: Адаптировать компонент для Artio JoomSEF, т.е. ссылки вместо text/1 должны принять вид ...
Joomla
Веб-программирование1 исполнитель
Завершен
17 лет назад
Скрипт почтового спонсора по типу WMZONA.COM
$50
Поддержка 2-х языков(русский, английский) Авто-зачисления на Webmoney
Веб-программирование5 заявок
Закрыт
17 лет назад
Модули "Таможенный калькулятор" и "Месяц выпуска"
Нужно написать два модуля: 1) Таможенный калькулятор Вычисление таможенной пошлины на японские автом, с выделением более выгодного варианта. С условием, что данные по авто будут обновляться. Примеры: _http://autopatrul.ru/calc ...
Веб-программирование1 исполнитель
Завершен
17 лет назад
Написать лёгкий скрипт
Для сайта www.supermaiki.com требуется написать очень лёгкий скрипт на PHP. Суть следующая: Скрипт должен брать случайным образом из текстового файла строки и подставлять их на сайт. ...
PHP
Веб-программирование26 заявок
Закрыт
17 лет назад
Требуется парсер сайта.
http://www.yellow-pages.ru/rus/nd16915 Задача - собрать данные по всем разделам этого сайта и аккуратно разложить их по ячейкам MySQL с полным сохранением структуры каталога, краткого и полного описания предприятия, кроме этого нужно собрать e-mail, ...
MySQL
Веб-программирование7 заявок
Закрыт
17 лет назад
Простой сайт компании на основе CMS
Необходимо сделать сайт на основе вашей CMS. Необходимые модули: 1) Новости 2) Статьи 3) Форма обратной связи 4) Голосование 5) Внутренняя статистика Возможность легко добавить новый раздел или ...
Веб-программирование1 исполнитель
Завершен
17 лет назад
Парсер RSS лент, информации с них, публикация в WP
$100
Необходимо написать скрипт для работы с RSS лентами и WP. Необходимо иметь представление о: 1. работе rss 2. работе блогового движка WordPress (публикации новостей). Укажите свои работы с WordPress и/или RSS.
WordPress
Веб-программирование1 исполнитель
Завершен
17 лет назад
IP база
$10
Обновить IP базу адресов всех операторов России,СНГ, и некоторых стран зарубежья!
Веб-программирование1 исполнитель
Завершен
17 лет назад
Работа для PHP программиста, только Украина
Нужен срочно PHP программист из Украины, располагающий свободным для работы временем в объеме 1-2 дня, начиная с сегодняшнего дня. Требования простые - знания, ответственность. Из Украины, т.к. оъяснять задание буду на словах по телефону, ...
PHP
Веб-программирование1 заявка
Закрыт
17 лет назад
Доработка скрипта
$10
Дорабатать не большой скрипт,(суть: вывод данных статистики заработка партнера за текущую неделю)! Срочно!
Веб-программирование1 исполнитель
Завершен
17 лет назад