Есть: - Joomla 1.x - Artio JoomSEF 2.2.2 - Компонент Каталог Текстов Песен (весьма простенький) Нужно: Адаптировать компонент для Artio JoomSEF, т.е. ссылки вместо text/1 должны принять вид ...
Многопоточный парсер Google на Perl или Python
Входящая информация:
1. Список ключевых слов (keywords.txt)
2. Список прокси-серверов (proxy.txt)
На выходе
1. Результаты поиска 100 первых результатов поиска в Google в формате
date \t proxy \t keyword \t position \t url \t is_additional \n
на каждый keyword - 100 строк
2. Список proxy_bad.txt
Большинство прокси рабочие, но если не загрузился результат, то нужно пробовать загрузить тестовую страницу http://ya.ru. Если и она не загрузилась, то добавить в список плохих прокси; не использовать его больше; попробовать загрузить страницу с google с другим прокси.
Основное требование - многопоточность и работа с прокси (обычные, не SOCKS). Желательно на Perl или Python, но подходит любой язык, который можно установить на FreeBSD из портов.
Код на PHP, чтобы не думать о парсинге:
1. Скачивать sprintf('http://www.google.com/search?hl=en&as_q=%s&as_epq=&as_oq=&as_eq=&num=100&lr=&as_filetype=&ft=i&as_sitesearch=&as_qdr=all&as_rights=&as_occt=any&cr=&as_nlo=&as_nhi=&safe=images', urlencode($keyword))
2. preg_match_all('#
.*.*(.*).*.*
(.*)
#msiU', $s, $m, PREG_SET_ORDER)
3. $position = 1;
foreach ($m as $match) {
$url = $match[2];
//$title = $match[3];
//$snippet = $match[4];
$is_additional = (strpos($match[1], 'margin-left')!==false) ? 1:0;
// тут добавить куда-то
$position++;
}
Заявки фрилансеров
Похожие заказы
- $25Веб-программирование1 исполнительЗавершен17 лет назад
- $50
Поддержка 2-х языков(русский, английский) Авто-зачисления на Webmoney
Веб-программирование5 заявокЗакрыт17 лет назад Нужно написать два модуля: 1) Таможенный калькулятор Вычисление таможенной пошлины на японские автом, с выделением более выгодного варианта. С условием, что данные по авто будут обновляться. Примеры: _http://autopatrul.ru/calc ...
Веб-программирование1 исполнительЗавершен17 лет назадДля сайта www.supermaiki.com требуется написать очень лёгкий скрипт на PHP. Суть следующая: Скрипт должен брать случайным образом из текстового файла строки и подставлять их на сайт. ...
Веб-программирование26 заявокЗакрыт17 лет назадhttp://www.yellow-pages.ru/rus/nd16915 Задача - собрать данные по всем разделам этого сайта и аккуратно разложить их по ячейкам MySQL с полным сохранением структуры каталога, краткого и полного описания предприятия, кроме этого нужно собрать e-mail, ...
Веб-программирование7 заявокЗакрыт17 лет назадНеобходимо сделать сайт на основе вашей CMS. Необходимые модули: 1) Новости 2) Статьи 3) Форма обратной связи 4) Голосование 5) Внутренняя статистика Возможность легко добавить новый раздел или ...
Веб-программирование1 исполнительЗавершен17 лет назад- $100
Необходимо написать скрипт для работы с RSS лентами и WP. Необходимо иметь представление о: 1. работе rss 2. работе блогового движка WordPress (публикации новостей). Укажите свои работы с WordPress и/или RSS.
Веб-программирование1 исполнительЗавершен17 лет назад - $10
Обновить IP базу адресов всех операторов России,СНГ, и некоторых стран зарубежья!
Веб-программирование1 исполнительЗавершен17 лет назад Нужен срочно PHP программист из Украины, располагающий свободным для работы временем в объеме 1-2 дня, начиная с сегодняшнего дня. Требования простые - знания, ответственность. Из Украины, т.к. оъяснять задание буду на словах по телефону, ...
Веб-программирование1 заявкаЗакрыт17 лет назад- $10
Дорабатать не большой скрипт,(суть: вывод данных статистики заработка партнера за текущую неделю)! Срочно!
Веб-программирование1 исполнительЗавершен17 лет назад