Описание
В данном документе представлена система автоматического распознавания диспетчерских переговоров «Enbisys.Поток». Основная задача системы – автоматизация процесса стенографирования диспетчерских переговоров, что существенно сокращает время на ручную расшифровку.
Система использует предварительно обученные нейросетевые модели для надежного распознавания речи и транскрипции на русском языке. Для взаимодействия с системой и управления ею пользователя потребуется лишь минимальное редактирование полученных текстов, в случае необходимости.
Уникальность системы заключается в поддержке распознавания переговорах с участием двух, трех или четырех диспетчеров, а также в возможности определения говорящего из заданного пользователем набора диспетчеров. Удобный веб-интерфейс обеспечивает простоту и комфорт работы пользователей.
Ключевые функции системы включают:
• Автоматическое распознавание текста реплик на русском языке;
• Определение говорящего диспетчера;
• Ручная корректировка результатов распознавания;
• Объединение записей в единый эпизод;
• Доступ и распределение загруженных записей среди пользователей группы;
• Формирование резюме переговоров;
• Возможность прослушивания аудиофайлов в популярных форматах (WAV, MP3, MP4, M4A, OGG, OGA);
• Экспорт расшифрованных текстов в .txt, .doc, .pdf форматах.
Система поддерживает платформы на базе операционной системы Astra Linux (common edition Orel или новее и Server), с установленной подсистемой контейнеризации Docker (версии не ниже 18 для Docker и 1.21.0 для Docker-Compose). Он требует аппаратную платформу x86-64, с поддержкой инструкций AVX для ускорения нейросетевых вычислений. Рекомендуемые конфигурации включают процессоры Intel Xeon Gold 6240R и Desktop процессоры Intel Core i5-10600K. Для серверной части необходим объем оперативной памяти не менее 24 ГБ и рекомендуемый объем дискового пространства в 500 ГБ.
Клиентская часть реализована на современных веб-технологиях, работающей на браузерах Google Chrome и Яндекс Браузер, обеспечивая доступ с различного оборудование. Для клиентского взаимодействия достаточно минимальной конфигурации ПК с процессором Intel Core i3-5005U, 4 ГБ оперативной памяти и экраном с разрешением 1920×1080 пикселей. Также необходимо обеспечить минимальную скорость передачи данных в 1 Мбит/с для комфортной работы.
Система имеет четкие роли пользователей, включая администраторов и проверяющих, с различными правами и функциональностью. Администраторы могут управлять пользователями и системными записями, в то время как проверяющие могут загружать аудиозаписи для распознавания, корректировать результаты и генерировать резюме.
Файлы для загрузки должны соответствовать форматам WAV, MP3, MP4, M4A, OGG и OGA, не превышая 90 минут длительности и 300 Мб по размеру. Пользователи могут традиционно загружать файлы через файловый браузер, либо перетаскивая нужные документы в интерфейс системы.
Поддержка метаданных для аудиофайлов, таких как название записи, дата диалога и время начала, позволяет пользователю эффективно организовать свои записи и облегчает процесс работы с системой.
Если вы обнаружили ошибку, пожалуйста, уведомите нас — выделите текст с ошибкой и нажмите клавиши Ctrl+Enter. Отключите блокировщик рекламы, если после нажатия комбинации кнопок не срабатывает всплывающее окно.