Метод відображення мовних сигналів у задачі розпізнавання мовця

Корнієнко, О. О.

IRChNUT Home
→
ПЕРІОДИЧНІ ВИДАННЯ НУ «Чернігівська політехніка»
→
Технічні науки та технології: науковий журнал
→
2017
→
№3 (9)
→
View Item

dc.contributor.author	Корнієнко, О. О.
dc.date.accessioned	2015-09-22T12:38:53Z
dc.date.accessioned	2018-02-25T01:31:44Z
dc.date.available	2015-09-22T12:38:53Z
dc.date.available	2018-02-25T01:31:44Z
dc.date.issued	2017
dc.identifier.uri	http://ir.stu.cn.ua/123456789/15794
dc.description	Корнієнко, О. О. Метод відображення мовних сигналів у задачі розпізнавання мовця / О. О. Корнієнко // Технічні науки та технології. – 2017. – № 3 (9). – C. 129-137.	en_US
dc.description.abstract	Актуальність теми дослідження. Більшість когнітивних сервісів використовують мовні сигнали як джерело інформації, а саме: розпізнавання емоцій, мови та ідентифікація мовця. Актуальною проблемою є створення загального підходу до відображення мовних сигналів, позбавленого недоліків існуючих методів класифікації у задачі розпізнавання мовця. Постановка проблеми. Більшість сучасних методів розпізнавання мовця є чутливими до тривалості мовних сигналів і, відповідно, це накладає істотні обмеження на їх застосування. Аналіз останніх досліджень і публікацій. Метод зрівняння фундаментальних частот голосів та ймовірнісні підходи часто застосовують для розпізнавання мовця. Предметом більшості робіт, пов’язаних із розпізнаванням мовця, є пошук метрик зрівняння статистичних моделей голосових трактів мовців для забезпечення найвищої точності розпізнавання. Формування цих моделей (метод i-vector) здійснюється на основі статистичних розподілів короткочасних спектральних ознак. Основним недоліком такого підходу є необхідність великої кількості тренувальних даних (записів мовних сигналів великої тривалості), з метою розрахунку статистичних розподілів ознак та побудови текстонезалежної моделі мовця. Виділення не вирішених раніше частин загальної проблеми. Створення загального методу виділення закономірностей у спектральних ознаках мовних сигналів короткої тривалості та характер їх зміни у часі є відкритим завданням. Постановка завдання. У роботі запропоновано новий підхід до відображення мовних сигналів, як векторів ознак розподілених у часі, з використанням рекурентної нейронної мережі. Виклад основного матеріалу. Розпізнавання мовця включає ідентифікацію та верифікацію людини за голосом та полягає у пошуці оптимальної пари функції відображення набору ознак мовного сигналу в багатовимірний вектор, та функції оцінки схожості таких відображень. Для пошуку альтернативної функції відображення ознак мовного сигналу в роботі використано рекурентну нейронну мережу, що складається з ланцюга двонаправлених довгих короткочасних пам’ятей. Використано евклідову відстань для спрощення процесу зрівняння зразків мовних сигналів. Для налаштування ваг рекурентної нейронної мережі використано підхід триплет втрат, що успішно використовується для розпізнавання облич. Висновки. Експериментально показано, що використання запропонованого підходу дозволило зменшити помилку розпізнавання мовця EER на 7,5 % порівняно із сучасним підходом i-vector при розмірності векторів відображень 16 та 100, відповідно, для мовних сигналів тривалістю 2 с.	en_US
dc.language.iso	uk	en_US
dc.publisher	Чернігів: ЧНТУ	en_US
dc.relation.ispartofseries	Технічні науки та технології; № 3 (9)
dc.subject	розпізнавання мовця	en_US
dc.subject	довга короткочасна пам’ять	en_US
dc.subject	рекурентна нейронна мережа	en_US
dc.subject	підхід триплет втрат	en_US
dc.subject	speaker recognition	en_US
dc.subject	long short-term memory	en_US
dc.subject	reccurent neural network	en_US
dc.subject	triplet loss function	en_US
dc.subject	распознавание говорящего	en_US
dc.subject	длинная кратковременная память	en_US
dc.subject	рекуррентная нейронная сеть; подход триплет потерь	en_US
dc.title	Метод відображення мовних сигналів у задачі розпізнавання мовця	en_US
dc.title.alternative	The method of displaying speech signals in the speech recognition task	en_US
dc.title.alternative	Метод отображения речевых сигналов в задаче распознавания говорящего	en_US
dc.type	Article	en_US
dc.description.abstractalt1	Urgency of the research. Most cognitive services deal with voice understanding of emotions, speech and speaker recognition. Thus, the actual problem is creating of general approach for speech embedding, such as speaker recognition. Target setting. The state-of-art speaker recognition methods have significant restrictions on their use because these methods are sensitive to durations of the speech signals. Actual scientific researches and issues analysis. The method of comparison fundamental frequency and probabilistic approaches are often used for speaker recognition. The subject of the majority of speaker recognition researches is searching the metrics for similarity scoring of voice statistical models. The main goal of these researches is to ensure the highest accuracy of the recognition. Researches propose to generate voice models using the probability distributions of short-term spectral features. This method is called i-vector. The main disadvantages of statistical models are that they must have large training speech corpus to calculate the statistical distributions of features and construct a text-independent model of speaker. Uninvestigated parts of general matters defining. Creating a general method for patterns extraction from time-distributed short-term spectral features is required. The research objective. In this paper we proposed a new approach to the speech signals embedding using a recurrent neural network, which can be used for speaker, speech and emotion recognition. The statement of basic materials. Speaker recognition involves the identification of a person and verification by the voice and boils down to find the optimal pairs of speech signal representing function, and scoring function for evaluating the similarity between given and known speech signals. In order to find an alternative function of speech signal embedding, a bidirectional long short-term memory is used. The euclidean distance is used to simplify the process of measuring the similarity between speech signals. The triplet loss function is minimized for adjust the weights of the recurrent neural network. This is because the optimization approach is successfully used for face recognition. Conclusions. It has been shown experimentally that the use of the proposed approach allowed to reduce the speaker recognition error equal rate by 7.5 % compared with the state-of-art i-vector approach with voice models vector dimension 16 and 100, respectively, for 2 sec. speech signals.	en_US
dc.description.abstractalt2	Большинство когнитивных сервисов используют речевые сигналы как источник информации, а именно: распознавание эмоций, речи и идентификация говорящего. Актуальной проблемой является создание общего подхода к отражению речевых сигналов, лишенного недостатков существующих методов классификации в задаче распознавания говорящего. В работе предложен новый подход к отражению языковых сигналов, как векторов признаков распределенных во времени, с использованием рекуррентной нейронной сети. Для поиска альтернативной функции отображения признаков речевого сигнала в работе использовано рекуррентную нейронную сеть, состоящую из цепи двунаправленных долгих кратковременных памятей. Использовано эвклидово расстояние для упрощения процесса уравнивания образцов речевых сигналов. Для настройки весов рекуррентной нейронной сети использован подход триплет потерь, что успешно используется для распознавания лиц. Экспериментально показано, что использование предложенного подхода позволило уменьшить ошибку распознавания говорящего EER на 7,5 % по сравнению с современным подходом i-vector при размерности векторов отображений 16 и 100, соответственно, для речевых сигналов длительностью 2 с.	en_US