Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Требуется сделать PHP cкрипт для поиска релевантных текстов к заданному тексту.

Поиск должен выполняться максимально быстро.

Рассмотрим также альтернативные против PHP решения.

Имеется примерно 450.000 текстов на различных языках, из различных блогов, в кодировке UTF8, каждый текст в среднем 1000 знаков.

Поиск релевантных текстов к заданному тексту должен выполняться в пределах каждого из языков по отдельности.

Например: 

взяли текст на английском языке, и под него ищем релевантные тексты также на английском языке;

взяли текст на итальянском языке, и под него ищем релевантные тексты также на итальянском языке;

...

и т.д.

Как выглядят тексты, среди которых нужно проводить поиск?

Наши парсеры собирают тексты по всему Интернету и на всех языках. Перед сохранением в базу каждый текст очищается от "мусора", и если "после очистки" длина текста превышает 500 знаков, то такой текст заносится в нашу базу, основаную на mongodb. Под "мусором" понимается всё, что не является простым текстом (стили, картинки, хтмл-тэги и т.д.).

Чтобы увидеть такой текст, откройте любой сайт блога или любой новоствной портал, и взгляните на текст полной новости.

Все тексты сохранены в mongodb базе данных.

Нет ограничений по оборудованию.

Если это необходимо, то можно прибегнуть к помощи сторонних программ/скриптов/приложений, если Вы опишите такую необходимость.

Ваше предложение будет принято, если Вы не только предложите свой разумный концепт/метод поиска, но также сможете его реализовать на практике.

Оплата сдельная, договорная.

Дальнейшая информация через скайп.

Ник скайп'а в профиле.

8 лет назад
sabia
Антон 
43 года
19 лет в сервисе
Был
год назад

Заявки фрилансеров

Нет заявок фрилансеров