Автоматизированное извлечение и структурирование меню из PDF-файлов с использованием методов машинного обучения и обработки естественного языка (NLP)


Просмотры: 103 / Загрузок PDF: 36

Авторы

DOI:

https://doi.org/10.32523/2616-7263-2025-153-4-257-267

Ключевые слова:

Обработка PDF-документов, автоматизация текстового анализа, слабо структурированные данные, ресторанные меню, обработка естественного языка (NLP), машинное обучение, извлечение данных, семантический анализ, цифровизация сферы общественного питания

Аннотация

Это исследование рассматривает современные подходы к автоматизированной обработке PDF-документов, с особым акцентом на анализ слабо структурированных ресторанных меню. Актуальность автоматизации обработки текстовых данных анализируется в контексте цифровой трансформации различных отраслей. Проводится сравнительный анализ структурных особенностей различных типов PDF-документов, включая нормативно-правовые акты и научные публикации. Основное внимание в работе уделяется разработке интегрированного методологического подхода, сочетающего технологии обработки естественного языка (NLP) и методы машинного обучения для решения задач автоматического извлечения данных, их структурирования и семантического анализа.

Предлагаемое решение направлено на преодоление ограничений,
связанных с обработкой слабо структурированных PDF-документов, характерных для ресторанных меню.

Загрузки

Опубликован

2025-12-22

Как цитировать

Машканов A. ., Ахаева Z., & Закирова A. (2025). Автоматизированное извлечение и структурирование меню из PDF-файлов с использованием методов машинного обучения и обработки естественного языка (NLP). ВЕСТНИК ЕВРАЗИЙСКОГО НАЦИОНАЛЬНОГО УНИВЕРСИТЕТА ИМЕНИ Л.Н. ГУМИЛЕВА СЕРИЯ: ТЕХНИЧЕСКИЕ НАУКИ И ТЕХНОЛОГИИ, 153(4), 257–267. https://doi.org/10.32523/2616-7263-2025-153-4-257-267

Выпуск

Раздел

Статья

Категории

Наиболее читаемые статьи этого автора (авторов)