Автоматизированное извлечение и структурирование меню из PDF-файлов с использованием методов машинного обучения и обработки естественного языка (NLP)
Просмотры: 103 / Загрузок PDF: 36
DOI:
https://doi.org/10.32523/2616-7263-2025-153-4-257-267Ключевые слова:
Обработка PDF-документов, автоматизация текстового анализа, слабо структурированные данные, ресторанные меню, обработка естественного языка (NLP), машинное обучение, извлечение данных, семантический анализ, цифровизация сферы общественного питанияАннотация
Это исследование рассматривает современные подходы к автоматизированной обработке PDF-документов, с особым акцентом на анализ слабо структурированных ресторанных меню. Актуальность автоматизации обработки текстовых данных анализируется в контексте цифровой трансформации различных отраслей. Проводится сравнительный анализ структурных особенностей различных типов PDF-документов, включая нормативно-правовые акты и научные публикации. Основное внимание в работе уделяется разработке интегрированного методологического подхода, сочетающего технологии обработки естественного языка (NLP) и методы машинного обучения для решения задач автоматического извлечения данных, их структурирования и семантического анализа.
Предлагаемое решение направлено на преодоление ограничений,
связанных с обработкой слабо структурированных PDF-документов, характерных для ресторанных меню.






