Топологический анализ невыровненных аудио- и текстовых данных
Просмотры: 108 / Загрузок PDF: 178
DOI:
https://doi.org/10.32523/2616-7263-2022-141-4-116-126Ключевые слова:
неконтролируемая обработка речи, вариационные автокодировщики, встраивание слов, топологический анализ данных, постоянная гомология и диаграммыАннотация
Авторами выполнена предварительная работа по топологическому анализу аудио- и текстовых данных для неконтролируемой обработки речи. Работа основана на предположении, что частоты фонем и контекстуальные отношения схожи в акустической и текстовой областях одного и того же языка. Соответственно, это позволило создать отображение между этими пространствами, учитывающее их геометрическую структуру. В качестве первого шага были выбраны генеративные методы, основанные на вариационных автоэнкодерах, для отображения аудио- и текстовых данных в два скрытых векторных пространства. На следующем этапе методы персистентной гомологии используются для анализа топологической структуры двух пространств. Хотя полученные результаты подтверждают идею сходства двух пространств, необходимы дальнейшие исследования для корректного отображения акустического и текстового пространств, а также для оценки реального эффекта от включения топологической информации в процесс обучения автоэнкодера.