Программа должна получать на вход файл .doc или .docx, распознавать в

нем текст вместе с логической структурой:

- основной текст, абзацы

- заголовки (до 3-го уровня, в том числе распознавать заголовки,

заданные форматированием, а не стилем заголовка)

- стили шрифтов (жирный, курсив)

- сноски

- эпиграфы

- стихотворные строфы

Входные файлы имеют сильно различающееся форматирование, нужно

определять логическую структуру как по специальным стилям (например,

заголовок) в блоках, так по паттернам форматирования. Распознанный текст

необходимо переводить в формат markdown и сохранять в кодировке UTF-8.

Интерфейс - текстовый posix, программа должна работать в ОС Linux.

При отклике, будем признательны за ответы на следующие вопросы:

На какой платформе собираетесь делать?

Какое решение планируете использовать?

Как давно с данной платформой/языком работаете?

Какие есть наработки по близкой теме/на этом языке/этой платформе?

Для каких ОС писали системные программы?

Спасибо!

9 лет назад
nppgran
44 года
9 лет в сервисе
Была
9 лет назад

Заявки фрилансеров

Нет заявок фрилансеров
  • Похожие заказы

  • $70

    необходимо разработать или доработать модуль загрузки данных с контактной формы сайта в 1с.  поточнее: человек на сайте вбивает данные для регистрации фирмы, данные отправляются на сервер компании в 1с, определенный адрес. с контактной формы ...

    Закрыт
    9 лет назад
  • Настроить новую конфигурацию, загрузить данные фирмы, справочники работ, марок машин. Настроить учетные записи и формы печати. Если есть готовая конфигурация, готов купить. Очень жду предложений помочь, хотим работать)

    Прикладное ПОнет заявок
    Закрыт
    9 лет назад
  • Есть ряд задач:  1. Выгрузка с 2gis  2. Парсинг яндекс карт с сохранением контактов с НОВОЙ версии карт  3. Парсинг контактов из выдачи по запросу(чтобы парсер переходил на страницы конкретных сайтов и ...

    Закрыт
    9 лет назад
  • Наладить корректный экспорт из XLS в XML формат файла на основании В приложении пример формата XML и XLS. Задача: создать приложения для корректного сохранения файлов из XML в XLS в требуемом формате ...

    Закрыт
    9 лет назад
  • $50

    Добрый день, есть небольшая задача разобрать html страницу используя C# и HtmlAgilityPack(обязательное условие).  Вкратце суть: страница содержит перечисление арбитражных дел, у каждого из которых есть список истцов и исполнителей. В качестве вводных данных(считайте это ...

    Прикладное ПО1 исполнитель
    Завершен
    9 лет назад
  • Имеется opensource проект https://github.com/ObdDiag-Net/allpro Необходимо портировать исходники данного проекта под нашу конфигурацию железа (используем процессор STM32, вся остальная обвязка подобная к оригинальному проекту). Работу можно разбить на два независимо этапа. На первом этапе интересует портирование всех поддерживаемых ...

    Прикладное ПОнет заявок
    Закрыт
    9 лет назад