Итак, на входе 2 csv файла с нным кол-вом столбцов, разделенные запятыми или точка с запятой,

1 input file — основной

2 input file — дополнительный

Программа берет поочередно, сначала первую фразу из 1 input file из столбца PhraseYD и плюс к ней ВЕСЬ набор фраз из 2 input file. Проверяет на морфологическое совпадение (слова, слову, словам). Если все остальные из 2 input file определены как морфологические дубли, то они помечаются как Yes в столбце csv DoubleYD, потом отправляет так же следующую фразу из 1 input file. И так далее.

Это функция поиска дублей между 2мя файлами. Вторая функция — поиск дублей внутри одного файла по этому же принципу, первая фраза сравнивается с последующими, потом вторая фраза с последующими.

Объем большой, скорость важна.

Нужно использовать морфологию Яндекс mystem http://company.yandex.ru/technologies/mystem

Плюс должен быть файл с минус словами в папке со программой, будет подгружаться при загрузке.

13 лет назад
rabotareferat
Сергей 
44 года
17 лет в сервисе
Был
12 лет назад
181 отзыв(-2)

Выбранный исполнитель

petdim
52 года
17 лет в сервисе
Был
4 года назад
13 лет назад
$20
1 день

Заявки фрилансеров

petdim
52 года
17 лет в сервисе
Был
4 года назад
13 лет назад