Требуется разработка сайта, аналогичного 123people.com - "поисковик" по людям.

Базовая функциональность:

-----------

По запросу Имя+Фамилия (опционально - город/страна) необходимо собрать и отобразить следующую информацию:

- картинки (из google images)

- top N результатов из поисковиков (google)

- новости (будет предоставлен список новостных сайтов, в которых искать с помощью гугла)

- город, адрес, телефон, емейл и т.п. из публичных баз данных (addresses.com - nomer.org - local.ch - 118000.fr)

- профили в основных социальных сетях - поиск в жж, фейсбук, твиттер, одноклассники, вконтакте, linkedin

- биография (при нахождении в wikipedia или imdb парсить оттуда информацию по не сложному алгоритму)

Таким образом, для каждого запроса имя/фамилия, на сервере должны запуститься N параллельных процессов по парсингу различных сайтов.

Пользователь видит итоговую страницу, не дожидаясь окончания работы каждого параллельного процесса.

Результаты парсинга отображаются динамически по мере получения.

Важно, чтобы итоговая страница была google friendly - т.е. чтобы спайдер корректно мог ее индексировать.

Дополнительная функциональность:

-----------

На странице отображения результатов запроса можно оставить комментарий. Без регистрации, с использованием капчи recaptcha.net.

Админ панель для модерации комментариев - просмотр всех/последних комментариев, с возможностью редактирования и удаления.

Требования:

-----------

Платформа Linux

Использование стандартных средств разработки типа php/mysql, возможно C/C++ для наиболее нагруженных участков.

Плагины.

Простое подключения дополнительных источников контента - в виде плагинов

(например, в картинки добавлять результаты поиска не только по google, но и по yahoo или yandex

например, в биографию добавлять данные не только из wikipedia но и из imdb)

Технология подключения новых плагинов должна быть описана, с тем чтоб плагины могли делать сторонние разработчики.

Быстродействие, безотказность. Каждый запрос имя/фамилия может вызывать десятки серверных процессов (обращения к поисковикам), возможно значительная нагрузка на сервер.

Все серверные процессы должны быть построены оптимально с точки зрения быстродействия и использования ресурсов. Корректная обработка проблем со связью, таймаутов.

Парсинг внешних источников (google, yahoo etc) через серверные айпи или внешние прокси. Где возможно, использование API.

Необходимо кеширование на диске наиболее загруженных страниц, либо страниц, явным образом указанных для кеширования.

Для экономии места, результатом кеширования должен являться не html код страницы, а только информация на ней.

(отображение ранее закешированных страниц не должно вызывать обращения к поисковикам)

Ключевые поля хранить в базе, с возможностью дальнейшего поиска по ним (имя, фамилия, город, телефон). Прочие данные сохранять в файле (xml?)

Базовая защита от abuse. Необходим механизм ограничения количества запросов от одного пользователя в единицу времени (по ip, cookie).

Возможность использования нескольких сайтов на одном движке. Сайты могут отличаться дизайном, набором плагинов, картой сайта.

(Например, для русского сайта источником контента будет являться yandex а для американского сайта - google)

корректное отображение расширенных кодировок (русская, немецкая и пр)

Генерация карты сайта.

Есть готовый список имен и список фамилий. Далее отбираются только те комбинации имя/фамилия, для которых гугл дает более N результатов поиска.

Сама карта генерится вида A -> ABC -> список ссылок типа имя-фамилия, где либо имя либо фамилия начинаются с ABC. (результаты для каждой пары фамилия/имя из карты сайта необходимо предварительно закешировать)

Код и интерфейс разделены. Использовать любую стандартную библиотеку шаблонов.

15 лет назад
Boris73
Борис 
54 года
15 лет в сервисе
Был
15 лет назад

Выбранный исполнитель

ADI
39 лет
19 лет в сервисе
Был
2 часа назад
15 лет назад
$1200
45 дней
ТОП-10
Веб-программирование

Заявки фрилансеров

ADI
39 лет
19 лет в сервисе
Был
2 часа назад
15 лет назад
ТОП-10
Веб-программирование