Топологический анализ невыровненных аудио- и текстовых данных

Авторы

  • Ж.М. Кожирбаев National Laboratory Astana
  • Ж.А. Есенбаев National Laboratory Astana

Ключевые слова:

неконтролируемая обработка речи, вариационные автокодировщики, встраивание слов, топологический анализ данных, постоянная гомология и диаграммы

Аннотация

Авторами выполнена предварительная работа по топологическому анализу аудио- и текстовых данных для неконтролируемой обработки речи. Работа основана на предположении, что частоты фонем и контекстуальные отношения схожи в акустической и текстовой областях одного и того же языка. Соответственно, это позволило создать отображение между этими пространствами, учитывающее их геометрическую структуру. В качестве первого шага были выбраны генеративные методы, основанные на вариационных автоэнкодерах, для отображения аудио- и текстовых данных в два скрытых векторных пространства. На следующем этапе методы персистентной гомологии используются для анализа топологической структуры двух пространств. Хотя полученные результаты подтверждают идею сходства двух пространств, необходимы дальнейшие исследования для корректного отображения акустического и текстового пространств, а также для оценки реального эффекта от включения топологической информации в процесс обучения автоэнкодера.

Загрузки

Опубликован

2022-12-30