### Промпт: Разработка двух версий скрипта для агента на Google Meet

Общее описание задачи:

Необходимо разработать два варианта скрипта для создания агента, который будет работать на платформе Google Meet (или аналогичной системе видеоконференций). Обе версии предназначены для анализа встреч и взаимодействия с участниками, но различаются по уровню автоматизации и функциональности. Первая версия — базовая, с использованием нейросети ChatGPT для анализа и вывода ответов в консоль. Вторая версия — полностью автоматизированный агент с имитацией присутствия человека (школьника), копированием голоса, лица, стиля общения и возможностью демонстрации объектов через камеру по запросу.

Текущая дата: 13 марта 2025 года.

Требование: Использовать актуальные технологии и учитывать современные возможности ИИ и автоматизации.

---

#### Версия 1: Базовый анализирующий агент с ChatGPT

Назначение:

Скрипт создаёт агента, который подключается к встрече на Google Meet, анализирует происходящее в реальном времени (участников, чат, презентацию, речь) и использует нейросеть ChatGPT для обнаружения вопросов и генерации ответов. Ответы выводятся исключительно в консоль, без прямого взаимодействия с участниками.

Функциональные требования:

1. Анализ участников встречи:

- Скрипт извлекает список участников из интерфейса Google Meet (имена, статус микрофона и камеры).

- Отслеживает активность участников (кто говорит или пишет в чате).

- Данные об участниках сохраняются в лог для контекста.

2. Анализ чата:

- Считывает сообщения в чате в реальном времени.

- ChatGPT анализирует текст и определяет, содержит ли сообщение вопрос (например, "Что такое…?", "Как работает…?" или фразы с вопросительным знаком).

- При обнаружении вопроса генерирует ответ и выводит его в консоль.

3. Анализ презентации:

- Если используется функция "Поделиться экраном", скрипт захватывает изображение с экрана.

- Применяет OCR (распознавание текста) для извлечения текста со слайдов.

- ChatGPT проверяет текст на наличие вопросов или заданий (например, "Ответьте: …", "Что это значит?").

- Ответы на вопросы из презентации выводятся в консоль.

4. Анализ речи:

- Использует Speech-to-Text для преобразования устной речи участников в текст.

- ChatGPT анализирует текст на наличие вопросов (например, "Кто знает…?", "Почему так?").

- Ответы на голосовые вопросы выводятся в консоль.

5. Формат вывода в консоль:

- Для каждого вопроса указывается источник (чат, речь, презентация), текст вопроса и сгенерированный ChatGPT ответ.

- Пример:

```

[Источник: Чат] Вопрос: "Что такое API?"

Ответ: "API (Application Programming Interface) — это программный интерфейс, который позволяет разным приложениям взаимодействовать друг с другом, обмениваясь данными и функциями."

[Источник: Речь] Вопрос: "Как подключиться к серверу?"

Ответ: "Для подключения к серверу нужно использовать протокол, например SSH, указав IP-адрес и порт, а также аутентификационные данные (логин и пароль или ключ)."

[Источник: Презентация] Вопрос: "Какой язык программирования самый популярный?"

Ответ: "На март 2025 года Python остаётся одним из самых популярных языков программирования благодаря своей универсальности и простоте."

```

Технические требования:

- Язык программирования: Python (или JavaScript для работы в браузере).

- Библиотеки:

- openai — для интеграции с API ChatGPT.

- speech_recognition — для распознавания речи.

- pytesseract — для OCR анализа презентаций.

- selenium или puppeteer — для управления браузером и взаимодействия с Google Meet.

- API: Ключ доступа к OpenAI для работы с ChatGPT.

- Интерфейс: Вывод данных только в консоль (терминал или консоль разработчика браузера).

- Ограничения: Агент не взаимодействует с участниками (не пишет в чат, не говорит).

Ожидаемый результат:

Агент пассивно анализирует встречу и предоставляет ответы на все обнаруженные вопросы в консоли, обеспечивая пользователя полной информацией о происходящем.

---

#### Версия 2: Полностью автоматизированный агент с имитацией школьника

Назначение:

Скрипт создаёт продвинутого агента, который полностью имитирует присутствие человека (школьника) на встрече Google Meet. Агент выполняет все функции первой версии (анализ и генерация ответов), а также активно участвует во встрече: копирует голос и лицо заданного человека, поднимает руку, отвечает голосом, ведёт диалог, соответствует стилю школьника и демонстрирует объекты через камеру по запросу участников.

Функциональные требования:

1. Все функции первой версии:

- Анализ участников, чата, презентации и речи с использованием ChatGPT.

- Обнаружение вопросов и генерация ответов с выводом в консоль.

2. Имитация присутствия:

- Копирование голоса:

- Пользователь загружает аудиофайл (5-10 минут речи) для создания голосовой модели с помощью технологий синтеза (например, ElevenLabs).

- Агент использует синтезированный голос для ответов и диалогов через микрофон Google Meet.

- Копирование лица:

- Пользователь загружает фото или видео человека.

- Скрипт генерирует видеопоток с лицом этого человека в реальном времени с помощью Deepfake (например, DeepFaceLab), синхронизируя движения губ с речью.

- Камера агента показывает синтезированное лицо.

- Периоды активности камеры:

- Камера работает постоянно или включается с заданными интервалами (например, каждые 10 минут на 2 минуты) для имитации естественного поведения.

3. Интерактивное поведение:

- Поднятие руки:

- При обнаружении вопроса агент автоматически поднимает руку через интерфейс Google Meet.

- После получения слова отвечает синтезированным голосом.

- Ответы и диалог:

- ChatGPT генерирует ответы в стиле школьника (простая лексика, сленг, неформальный тон, если указано).

- Агент поддерживает диалог: отвечает на уточнения, задаёт встречные вопросы (например, "А можно подробнее?"), комментирует (например, "Круто, не знал!").

- Копирование стиля общения:

- Пользователь может загрузить примеры текста (например, сообщения из мессенджера).

- ChatGPT адаптирует ответы под этот стиль (фразы, манера, интонация).

4. Соответствие образу школьника:

- Ответы упрощены до уровня школьных знаний (без сложных терминов, если не требуется).

- Поведение: паузы перед ответами, лёгкая неуверенность ("Эээ, ну…"), фразы вроде "Я думаю, это так".

- Внешность и голос соответствуют подростку (на основе загруженных данных).

5. Демонстрация через камеру по запросу:

- Распознавание запроса:

- Агент отслеживает чат и речь на наличие фраз вроде "Покажи свою тетрадь", "Покажи, что на столе", "Покажи, как делаешь".

- ChatGPT определяет, что именно нужно показать.

- Генерация или использование контента:

- Используются заранее загруженные материалы (изображения/видео тетрадей, столов и т.д.) или генерируются новые с помощью ИИ (например, Stable Diffusion для статичных объектов, Deepfake для действий).

- Примеры: тетрадь с записями, стол с учебниками, рука, рисующая на листе.

- Процесс демонстрации:

- Камера переключается с лица на синтезированный контент.

- Агент комментирует голосом: "Вот моя тетрадь, ща покажу" или "Смотрите, это мой стол".

- После показа камера возвращается к лицу.

- Пример сценария:

- Участник: "Покажи, как рисуешь".

- Агент:

1. Говорит: "Ща, секунду, покажу!"

2. Камера показывает синтезированное видео руки, рисующей круг.

3. Говорит: "Вот, типа так рисую, нормально?"

6. Вывод в консоль:

- Все вопросы, ответы и действия (включая демонстрации) фиксируются в консоли.

- Пример:

```

[Источник: Чат] Запрос: "Покажи свою тетрадь"

Действие: Показана синтезированная тетрадь с записями

Ответ: "Вот моя тетрадь, я тут формулы записал."

```

- Оборудование: Мощный процессор и GPU для обработки видео/изображений в реальном времени.

- Дополнительно: Папка с материалами (голос, лицо, примеры объектов).

Ожидаемый результат:

Агент полностью имитирует школьника: отвечает на вопросы голосом, участвует в диалоге, демонстрирует объекты через камеру и ведёт себя естественно, сохраняя при этом контроль через консоль.

---

Примечания для разработчика:

- Обеспечить модульность кода для легкого добавления функций.

18 дней назад
Альберт
23 дня в сервисе
Был
8 дней назад

Заявки фрилансеров

Марк
 
39 лет
2 года в сервисе
Был
2 часа назад
15 дней назад
Александр
 
46 лет
2 года в сервисе
Был
2 дня назад
4 отзыва
17 дней назад
Сергей
 
30 лет
7 лет в сервисе
Был
11 часов назад
1 отзыв
17 дней назад
Коля
 
39 лет
3 года в сервисе
Был
5 часов назад
48 отзывов
18 дней назад
Альнияз
 
24 года
2 месяца в сервисе
Был
4 дня назад
18 дней назад
Адиль
 
25 лет
3 месяца в сервисе
Был
день назад
18 дней назад
Евгений
 
27 лет
2 года в сервисе
Был
2 часа назад
1 отзыв
18 дней назад
Рома
 
24 года
6 лет в сервисе
Был
11 часов назад
1 отзыв(-1)
18 дней назад