Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Интернет-магазину требуется помощь серьезного разработчика с большим опытом работы с базами данных. Наши карточки товаров импортируются со стороннего ресурса, а затем проходят автоматическую прогонку через машинный перевод.

Чтобы улучшить качество текстов, мы хотим ввести новый скрипт, который позволял бы отфильтровывать текст на самые частотные словосочетания.. Для этого в первую очередь нужно, чтобы скрипт находил по заданным нами параметрам словосочетания. При повторном использовании скрипт должен исключать из поиска уже найденные в предыдущем поиске словосочетания.

В целом алгоритм требуемых действий должен выглядеть так :

1. Сканирование большого объема информации по частотности нахождения повторяющихся словосочетаний в тексте. Нужно, чтобы можно было задавать параметр фильтруемых словосочетаний по количеству включаемых при поиске слов. Например, от 2 до 5 слов или от 2 до 4, где 1 слово - идущие подряд буквенные или числовые значения без пробела.

2. Выгрузка найденных топ словосочетаний в Excel файл с ранжированием по частотности нахождения в тексте.

3. Учет списка слов или словосочетаний, которые не нужно учитывать при следующей фильтрации текста. Т.е. возможность добавления исключений для дальнейших сканирований.

Размеры обрабатываемых данных: очень большие, текстовый файл txt весит больше 50МБ

Формат скрипта: желательно PHP

Тип базы данных:MySQL

Сроки работы: 1-3 дня

Оплата: после выполнения и одобрения заказчиком, можно на карту банка или на электронный кошелек.

11 лет назад
Mirage2H
36 лет
11 лет в сервисе
Был
11 лет назад

Заявки фрилансеров

Нет заявок фрилансеров