Техническое задание на разработку скрипта для автоматической проверки фактов (Fact-Checking)

 

Общие положения

  • Название проекта: Скрипт автоматической проверки фактов (Fact-Checking) с использованием локальных и онлайн-источников.

  • Цель проекта: Создать скрипт, который извлекает утверждения из пользовательского текста, проверяет их достоверность с использованием интернет-источников и загруженных локальных файлов.

  • Базовый функционал: Опирается на функционал скрипта Libr-AI/OpenFactVerification с доработками.


Основные задачи

1.    Добавление поддержки локальных источников:

·       Возможность загружать локальные файлы (например, .pdf, .docx, .txt .ppt) в систему.

·       Индексирование содержимого локальных файлов для проверки утверждений.

·       Хранение и управление загруженными документами.

2.    Проверка утверждений:

·       Извлечение утверждений из пользовательского текста (клеймов).

·       Проверка утверждений на валидность:

·       Поиск информации в интернете (включая использование Google Search API для анализа результатов, Answer Box).

·       Сравнение с локальными файлами.

3.    Интеграция технологий:

·       Использовать LlamaIndex и LlamaParse для загрузки, обработки и индексирования локальных документов.

·       Реализовать хранение данных через Pinecone для эффективного управления чанками и быстрого доступа.

4.    Реализация интерфейса (Опирается на функционал скрипта Libr-AI/OpenFactVerification):

·       Нужно добавить пользовательский интерфейс (по возможности на Django), который позволяет дополнительно к тому, что уже реализовано в скрипте Libr-AI/OpenFactVerification:

·       Загружать локальные файлы в базу знаний и удалять их.

·       Создавать и удалять папки из групп файлов по разным базам знаний.

·       Просматривать результаты проверки клеймов с указанием источника из базы знаний.

·       Включать / выключать направление проверки (только по источникам в интернете, только по локальной базе знаний, по обоим путям).


Технические требования

1.    Основной стек технологий:

·       Язык программирования: Python.

·       Фреймворк: Django.

·       Библиотеки и инструменты:

·       LlamaIndex и LlamaParse для индексирования документов.

·       Pinecone для хранения и поиска по чанкам.

·       Google Search API для получения данных из интернета.

·       PyPDF2, python-docx python-pptx для работы с файлами.

2.    Форматы загружаемых файлов:

·       Текстовые файлы: .txt, .csv.

·       Документы: .pdf, .docx .pptx

·       Возможность масштабирования для работы с другими форматами.


Порядок разработки

1.    Этап 1: Исследование и проектирование

·       Ознакомление и установка скрипта локально у вас [Libr-AI/OpenFactVerification]. (API openAI мы предоставим)

2.    Этап 2: Реализация базового функционала

·       Интеграция LlamaIndex и LlamaParse для работы с локальными файлами.

·       Настройка Pinecone для хранения чанков и быстрого поиска (у нас есть API).

3.    Этап 4: Разработка интерфейса

·       Пользовательский интерфейс (на Django - загрузка файлов и распределение по папкам, добавление и удаление файлов и папок).

4.    Этап 5: Тестирование



Критерии завершенности

1.    Скрипт корректно извлекает утверждения из текста и проверяет их достоверность

1.    по интернет-источникам

2.    по локальным файлам.

3.    по интернет-источникам и локальным файлам.

2.    Интерфейс удобен для загрузки файлов и анализа результатов.

3.    Система стабильно работает.

 

3 месяца назад
guest_1734597867052
3 месяца в сервисе
Был
3 месяца назад

Заявки фрилансеров

Нет заявок фрилансеров