Задача: написать парсер каталога блогов Technorati http://technorati.com/blogs/directory/overall/.

Итогом работы является таблица со следующими значениями:

- место в рейтинге technorati (числом)

- URL блога

- URL RSS-ленты блога (достаточно 1 шт, берется с самого сайта)

- название блога

- описание блога

полное описание берем на странице http://technorati.com/blogs/mashable.com

если нет полного описания как тут http://technorati.com/blogs/www.huffingtonpost.com

то берем краткое описание со страницы с блогами http://technorati.com/blogs/directory/overall/

- категория блога (technology, business, entertainment, lifestyle, sports, politics)

не обязательные поля, но очень желательные (не у всех получится собрать):

- имя владельца блога (из данных whois сервера)

- e-mail владельца блога (из данных whois сервера)

Всего должно получиться более 1 257 000 записей в таблице (http://technorati.com/blogs/directory/overall/page-50280/).

Формат таблицы любой, можно в формате mysql дампа.

Просьба писать стоимость и сроки.

14 лет назад
Andrew_G
Андрей 
44 года
14 лет в сервисе
Был
11 лет назад

Заявки фрилансеров

Нет заявок фрилансеров