Автоматизация протоколирования встреч: NLP и ASR
Разработка системы автоматического распознавания речи и формирования протоколов совещаний для госсектора с помощью NLP технологий.
Отчет о научно-исследовательской работе докторанта 1-го года обучения
Тема: Разработка автоматизированной системы распознавания речи и формирования протоколов совещаний (NLP)
Докторант: Асқар Әділет | ОП: 8D06101 – Software Engineering
Период: 08.09.2025 – 20.12.2025
Выполненные работы за отчетный период
Утверждена тема диссертации и направлен запрос зарубежному научному руководителю.
Проведен глубокий литературный обзор по теме ASR и Meeting Summarization.
Выполнен анализ рынка существующих решений (Granola AI, Otter.ai и аналоги).
Сформулированы цель исследования, научная проблема и область применения.
Цель исследования
Разработка и экспериментальная апробация автоматизированного desktop-приложения для распознавания устной речи и интеллектуальной обработки деловых коммуникаций в государственных структурах. Система обеспечивает преобразование аудиозаписей в структурированные протоколы (выделение задач, решений, итогов) с использованием методов NLP.
Область и методы исследований
Исследование охватывает технологии Automatic Speech Recognition (ASR), Natural Language Processing (NLP) и Text Mining. Особое внимание уделяется прикладной разработке защищенного ПО для desktop-устройств, ориентированного на акиматы и министерства, где важна информационная безопасность и специфическая структура протоколов.
В настоящее время отсутствуют решения, адаптированные к условиям госслужбы, обеспечивающие не просто транскрипцию, но и интеллектуальное формирование структурированных протоколов с учетом требований безопасности.
Научная проблема
Литературный обзор: Ключевые источники
<b>Sun et al. (2024):</b> Гибридная модель суммаризации встреч с классификацией актов диалога (Information Processing & Management).
<b>Urdu Meeting Benchmark (2024):</b> Ресурс для тренировки моделей в многозадачных языковых средах.
<b>Surveys on Auto Summarization:</b> Анализ методов extractive/abstractive подходов и глубокого обучения для NLP-протоколирования.
Анализ аналогов: Granola AI
Granola AI позиционируется как интеллектуальный блокнот для macOS/Windows/iPhone. Основные возможности: транскрибация Zoom/Meet в реальном времени, выделение задач и ключевых фраз, работа без ботов-участников. Однако сервис не сохраняет аудио (только текст) и не имеет русскоязычного интерфейса.
Сравнительный анализ: Бесплатные лимиты
Сравнение объема бесплатных минут транскрибации у ключевых конкурентов. Fireflies.ai предлагает наибольший объем (800 мин), тогда как Notta ограничивает пользователей 120 минутами. Granola AI лимитирует по количеству встреч (25 шт., ~750 мин оценочно).
Сравнение: Плюсы и Минусы Granola AI
✅ <b>Преимущества:</b> Нативное приложение (macOS/Win), интеграция с календарем, выделение ключевых задач, встроенный AI-чат для поиска по заметкам.
❌ <b>Недостатки:</b> Отсутствие веб-версии, интерфейс только на английском, не сохраняет исходное аудио, ограничение в 25 встреч на старте.
⚠️ <b>Вывод для проекта:</b> Granola фокусируется на персональной продуктивности, но не годится для строгого протоколирования в госсекторе из-за языковых барьеров и отсутствия архивации аудио.
Заключение и Планы
На текущем этапе определена научная новизна и проанализированы аналоги. Следующий этап: сбор корпуса данных и прототипирование системы.
Спасибо за внимание!
- nlp
- asr
- машинное-обучение
- автоматизация
- протоколирование
- speech-recognition
- software-engineering


