Описание
Комплекс «Ланграф-СКРИНС» представляет собой набор специализированных программных модулей, предназначенных для распознавания слитно-рукописного и печатного текста. Основные области применения данного программного комплекса включают обработку рукописей, автоматизацию процессов анкетирования и тестирования, сортировку рукописных документов, а также обработку различных бланков и документооборот.
В состав «Ланграф-СКРИНС» входят следующие базовые модули:
— DRV-SKRINS-BIN — отвечает за бинаризацию входных изображений, выравнивание и устранение шумов и артефактов.
— DRV-SKRINS-SEG — осуществляет выделение сегментов на форме.
— DRV-SKRINS-DIG — предназначен для распознавания цифр.
— DRV-SKRINS-TXT — позволяет распознавать текстовые строки.
— DRV-SKRINS-BIN — модуль для интеллектуальной обработки графической информации, улучшения читаемости текста и программной обработки текстовой информации.
Каждый модуль обладает следующими функциональными возможностями:
1. Бинаризация сложных входных изображений с детальной классификацией пикселей указывающей на содержание текста.
2. Анализ и выделение необходимых участков изображения, исключая ненужные фрагменты (изображения, фоновые элементы и т.д.).
3. Устранение различных шумов и артефактов, которые могут мешать бинаризации, с отсеиванием дефектов изображения.
4. Выравнивание изображения относительно расположения строк текста, что позволяет повысить точность распознавания.
Модуль DRV-SKRINS-SEG предлагает две основных методики выделения информационных областей:
— Выделение по геометрическим признакам, актуальное для сильно структурированной графической информации (например, таблицы, формы).
— Использование машинного обучения для выделения слабо структурированной информации без четких геометрических разделителей.
Модуль DRV-SKRINS-DIG отвечает за распознавание как рукописных, так и машинописных цифр. Это достигается через:
— Выделение строк с интересующими цифрами и их предобработку.
— Сегментацию отобранных областей и нормализацию выделенных символов.
— Применение глубокого машинного обучения, что позволяет распознавать нестандартные варианты написания цифр.
Модуль DRV-SKRINS-TXT применяется для распознавания рукописных строк. Он включает:
— Полное выделение обработанного изображения и предобработку выделенных областей (увеличение контрастности, удаление искажений).
— Современные подходы глубокого обучения для полного анализа строки с использованием нейросетей, что обеспечивается через энд-то-энд модель.
— Построение текстовой фразы с использованием словаря на основе распределения вероятностей из нейросети.
Программный комплекс «Ланграф-СКРИНС» демонстрирует значительные преимущества в области автоматизации обработки текстовой и графической информации, что делает его подходящим для использования в таких сферах, как образование, финансы, государственные учреждения и другие области, требующие высокой точности работы с документами и данными.
Если вы обнаружили ошибку, пожалуйста, уведомите нас — выделите текст с ошибкой и нажмите клавиши Ctrl+Enter. Отключите блокировщик рекламы, если после нажатия комбинации кнопок не срабатывает всплывающее окно.