Ученые из России и Китая обучили нейросеть распознавать эмоции в речи, используя принципы слуховой системы человека

Распознавание эмоций, которые возникают в процессе речи человека, как ключевая технология в области взаимодействия человека с машиной, напрямую определяет способность интеллектуальных систем понимать эмоциональное состояние пользователя и предоставлять персонализированные услуги. В настоящее время данная технология демонстрирует широкие перспективы применения в дистанционном обучении, поддержке психического здоровья, интеллектуальных службах поддержки клиентов и других областях.

Однако, когда эти системы покидают лабораторные условия и оказываются в реальном мире, обнаруживается фундаментальная проблема: сложный акустический шум окружающей среды серьезно разрушает ключевые акустические признаки, несущие эмоциональную информацию в речевом сигнале, что приводит к резкому снижению точности существующих моделей. Хотя методы шумоподавления на основе глубокого обучения нейросетей демонстрируют значительный прогресс, задача полного сохранения эмоциональной информации в речи при одновременном подавлении шума по-прежнему остается актуальной проблемой, требующей создания новых подходов.

Ученые кафедры систем автоматизированного проектирования (САПР) СПбГЭТУ «ЛЭТИ» совместно с коллегами из Цзянсийского аграрного университета (г. Наньчан, Китай) разработали систему для анализа речевых эмоций в сложных акустических условиях.

«Мы вдохновлялись способностями человеческого мозга: слуховая система человека обладает значительной шумоустойчивостью и высокоэффективным механизмом декодирования эмоций, которые мозг надежно различает даже в сложной шумовой обстановке. На основе принципов биологических систем построена и наша нейросетевая модель SONANCE, которая системно моделирует четыре ключевых этапа обработки информации в слуховых центрах мозга и формирует сквозную биомиметическую архитектуру «шумоподавление – слияние – классификация», нацеленную на принципиальное повышение качества анализа речевых эмоций в сложной акустической среде».

Доцент кафедры САПР СПбГЭТУ «ЛЭТИ» Сергей Алексеевич Кузьмин

Ученые создавали действующую структуру обработки звука в мозге человека, которая способна иерархически обрабатывать звуковую информацию при помощи центральной слуховой системы, отделяя полезную информацию от шума, сохраняя при этом эмоциональную составляющую речи. На этапе построения нейросетевой модели специалисты преобразовали вышеуказанные биологические механизмы в три вычислительных модуля. Первый совершает прием сигнала и предобработку шумоподавления с достижением динамического баланса между шумоподавлением и сохранением эмоциональных признаков. Второй модуль захватывает семантическую информацию на уровне высказывания, а третий помогает различать схожие эмоциональные категории. В целом SONANCE способна распознавать восемь основных типов эмоций в речи: отвращение, счастье, страх, удивление, спокойствие, грусть, гнев и безэмоциональное состояние.

В ходе экспериментов ученые испробовали нейросеть на двух стандартных наборах данных – RAVDESS и IEMOCAP, которые были сформированы путем смешивания речи и реальных шумов окружающей среды. Модель продемонстрировала точность распознавания на уровне 86,17%, что на 2,5% выше, чем у ведущего на сегодня метода SeeNet. Среди других интересных результатов экспериментов – оказалось, что высокоактивные эмоции, такие как гнев, демонстрируют более высокую шумоустойчивость: точность их распознавания составляет 71,52%.

«В будущем мы планируем развернуть нейросетевую модель SONANCE в реальных приложениях – интеллектуальных кабинах транспортных средств, онлайн-образовании, мониторинге психического здоровья, интеллектуальных службах поддержки клиентов и других сферах, — собирать в реальных условиях разнообразные данные, непрерывно верифицировать и повышать способность модели к генерализации, с тем чтобы данная биомиметическая технология действительно вышла на практический уровень и служила более широкому кругу приложений взаимодействия человека с машиной».

Доцент, и.о. декана факультета программного обеспечения (факультета сельскохозяйственного искусственного интеллекта) Цзянсийского аграрного университета, выпускник ЛЭТИ И Вэньлун

Результаты исследования опубликованы в научном журнале Knowledge-Based Systems.

	Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»
	197022, г. Санкт-Петербург, ул. Профессора Попова, д. 5
	+7 812 234-46-51
	info@etu.ru

Ученые из России и Китая обучили нейросеть распознавать эмоции в речи, используя принципы слуховой системы человека

Контакты