Программа/скрипт удаляет дубли с помощью http://direct.yandex.ru/registered/main.pl?cmd=ForecastByWords Директа.

Принцип: если вы отправите, например 3 слова слон, слона, слону в директ, то он примет только первое, т.к. остальные являются дублями.

Итак, на входе 2 csv файла с нным кол-вом столбцов, разделенные запятыми или точка с запятой,

1 input file - основной

2 input file - дополнительный

Программа берет поочередно, сначала первую фразу из 1 input file из столбца PhraseYD и плюс к ней поочередно с начала списка набор фраз из 2 input file (столько фраз сколько поместятся в ограничения на колво символов в Директе, обрезать фразы нельзя). Отправляется в директ, где 1ая по порядку фраза обязательна должна быть из 1 input file. Если все остальные из 2 input file были дублями, то они помечаются как Yes в столбце csv DoubleYD, потом эту же первую фразу отправляем со следующей по очереди пачкой фраз из 2 input file. И так далее.

Это функция поиска дублей между 2мя файлами. Вторая функция - поиск дублей внутри одного файла по этому же принципу, первая фраза сравнивается с последующими, потом вторая фраза с последующими.

Дополнительно но не обязательно: возможно ли сделать многопоточность используя прокси, чтобы ускорить процесс?

Объем большой, скорость важна.

13 лет назад
rabotareferat
Сергей 
44 года
17 лет в сервисе
Был
12 лет назад
181 отзыв(-2)

Выбранный исполнитель

Xandr01
38 лет
16 лет в сервисе
Был
10 лет назад
13 лет назад
$50
7 дней

Заявки фрилансеров

Xandr01
38 лет
16 лет в сервисе
Был
10 лет назад
13 лет назад