Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Задача похожая на эту http://stackoverflow.com/questions/4733537/comparing-40-million-lines-in-a-file-with-6-million-ist-items-in-python

Нужно сравнить два txt файла на наличие похожих строк и удалить их из одного из файлов, при этом удаляя также и строки где совпадают словосочетания при перестановке слов местами, например,

в первом файле слово1 слово2 слово 3

удаляем во втором строки

слово1 слово2 слово 3

слово1 слово 3 слово2

слово 3 слово2 слово1

Далее, нужно чтобы было возможность исключать не учитывать некоторые символы при этом, их подгружаем в txt файл, например, чтобы можно было добавить туда спецсимволы, предлоги.

Ну и самое главное и сложное то, что первый файл весит 12GB и строк в нем около 200млн, второй файл гораздо меньше 200-250мб.

Из второго удаляются строки, которые есть в первом.

Среда Windows XP. Скорость обработки желательно не более 5 часов.

Предварительно нужно будет Вам протестировать у себя, создав файл с размером в 12Gb, например копипастом txt файла а потом объединить его в Total Commander.

Нужно будет добавить функцию фильтрпции, то есть вывод в output файл только тех строк из 12GB файла которые содержат указанное слово без учета регистра

13 лет назад
rabotareferat
Сергей 
44 года
17 лет в сервисе
Был
12 лет назад
181 отзыв(-2)

Заявки фрилансеров

Нет заявок фрилансеров
  • Похожие заказы

  • $33

    Нужна програмка которая по шаблону подставляет вместо макросов слова из списков, построчно. Нужна поддержка 5-10 макросов. (можно с добавлением) Как это должно выглядеть: Пользователь выбирает значения ...

    Прикладное ПО1 исполнитель
    Закрыт
    13 лет назад
  • Нужно создать обложку для zippro на delphi. Обложка для одной игры. Подробнее можете ознакомиться на самом сайте zippro.ru Оставляйте цены и сроки.

    Прикладное ПОнет заявок
    Закрыт
    13 лет назад
  • $250

    Платформа: Delphi 7 + MS SQL Server 2005/2008 Express Edition. На сервере есть хранимка, текст хранимки предоставляется Заказчиком. Для справки: хранимка выполняет синхронизацию данных с удаленной базой. Задачи: 1. Нужна возможность ...

    Закрыт
    13 лет назад
  • Нужно создать десктопную программу-ускоритель Интернета. Понятно что Интернет особо ускорить нельзя, но кое-что сделать можно. Как минимум программа должна уметь установить настройки в браузере которые немножко ускоряют Интернет: Блокировка флеша и рекламы, увеличение кеша ...

    Закрыт
    13 лет назад
  • Требуется написание программы для сбора заданий в игре аллоды онлайн для сайта базы данных по игре. Цель вытащить квесты из игры для сайта, дать возможность, другим игрокам играя собирать квесты для сайта ...

    Прикладное ПОнет заявок
    Закрыт
    13 лет назад
  • $500

    Требуется специалист по распознаванию образов на изображениях, желательно с опытом работы под OpenCV. Задача такова: - Имеется фрагмент фотографии с человеческим глазом (может быть и правый, и левый) - Исходная ...

    Закрыт
    13 лет назад
  • Требуется программка для обновления истории в MT4 В файлах истории, которые лежат тут: ...MT4\history\1233\USDJPY240.hst хранится история катировок, которая записывается в данный файл не потоком, а после того, как мы открыли график инструмента ...

    Прикладное ПОнет заявок
    Закрыт
    13 лет назад