IRCPNU
Institutional Repository of Chernihiv Polytechnic National University

Метод відображення мовних сигналів у задачі розпізнавання мовця

ISSN 2415-363X

Show simple item record

dc.contributor.author Корнієнко, О. О.
dc.date.accessioned 2015-09-22T12:38:53Z
dc.date.accessioned 2018-02-25T01:31:44Z
dc.date.available 2015-09-22T12:38:53Z
dc.date.available 2018-02-25T01:31:44Z
dc.date.issued 2017
dc.identifier.uri http://ir.stu.cn.ua/123456789/15794
dc.description Корнієнко, О. О. Метод відображення мовних сигналів у задачі розпізнавання мовця / О. О. Корнієнко // Технічні науки та технології. – 2017. – № 3 (9). – C. 129-137. en_US
dc.description.abstract Актуальність теми дослідження. Більшість когнітивних сервісів використовують мовні сигнали як джерело інформації, а саме: розпізнавання емоцій, мови та ідентифікація мовця. Актуальною проблемою є створення загального підходу до відображення мовних сигналів, позбавленого недоліків існуючих методів класифікації у задачі розпізнавання мовця. Постановка проблеми. Більшість сучасних методів розпізнавання мовця є чутливими до тривалості мовних сигналів і, відповідно, це накладає істотні обмеження на їх застосування. Аналіз останніх досліджень і публікацій. Метод зрівняння фундаментальних частот голосів та ймовірнісні підходи часто застосовують для розпізнавання мовця. Предметом більшості робіт, пов’язаних із розпізнаванням мовця, є пошук метрик зрівняння статистичних моделей голосових трактів мовців для забезпечення найвищої точності розпізнавання. Формування цих моделей (метод i-vector) здійснюється на основі статистичних розподілів короткочасних спектральних ознак. Основним недоліком такого підходу є необхідність великої кількості тренувальних даних (записів мовних сигналів великої тривалості), з метою розрахунку статистичних розподілів ознак та побудови текстонезалежної моделі мовця. Виділення не вирішених раніше частин загальної проблеми. Створення загального методу виділення закономірностей у спектральних ознаках мовних сигналів короткої тривалості та характер їх зміни у часі є відкритим завданням. Постановка завдання. У роботі запропоновано новий підхід до відображення мовних сигналів, як векторів ознак розподілених у часі, з використанням рекурентної нейронної мережі. Виклад основного матеріалу. Розпізнавання мовця включає ідентифікацію та верифікацію людини за голосом та полягає у пошуці оптимальної пари функції відображення набору ознак мовного сигналу в багатовимірний вектор, та функції оцінки схожості таких відображень. Для пошуку альтернативної функції відображення ознак мовного сигналу в роботі використано рекурентну нейронну мережу, що складається з ланцюга двонаправлених довгих короткочасних пам’ятей. Використано евклідову відстань для спрощення процесу зрівняння зразків мовних сигналів. Для налаштування ваг рекурентної нейронної мережі використано підхід триплет втрат, що успішно використовується для розпізнавання облич. Висновки. Експериментально показано, що використання запропонованого підходу дозволило зменшити помилку розпізнавання мовця EER на 7,5 % порівняно із сучасним підходом i-vector при розмірності векторів відображень 16 та 100, відповідно, для мовних сигналів тривалістю 2 с. en_US
dc.language.iso uk en_US
dc.publisher Чернігів: ЧНТУ en_US
dc.relation.ispartofseries Технічні науки та технології; № 3 (9)
dc.subject розпізнавання мовця en_US
dc.subject довга короткочасна пам’ять en_US
dc.subject рекурентна нейронна мережа en_US
dc.subject підхід триплет втрат en_US
dc.subject speaker recognition en_US
dc.subject long short-term memory en_US
dc.subject reccurent neural network en_US
dc.subject triplet loss function en_US
dc.subject распознавание говорящего en_US
dc.subject длинная кратковременная память en_US
dc.subject рекуррентная нейронная сеть; подход триплет потерь en_US
dc.title Метод відображення мовних сигналів у задачі розпізнавання мовця en_US
dc.title.alternative The method of displaying speech signals in the speech recognition task en_US
dc.title.alternative Метод отображения речевых сигналов в задаче распознавания говорящего en_US
dc.type Article en_US
dc.description.abstractalt1 Urgency of the research. Most cognitive services deal with voice understanding of emotions, speech and speaker recognition. Thus, the actual problem is creating of general approach for speech embedding, such as speaker recognition. Target setting. The state-of-art speaker recognition methods have significant restrictions on their use because these methods are sensitive to durations of the speech signals. Actual scientific researches and issues analysis. The method of comparison fundamental frequency and probabilistic approaches are often used for speaker recognition. The subject of the majority of speaker recognition researches is searching the metrics for similarity scoring of voice statistical models. The main goal of these researches is to ensure the highest accuracy of the recognition. Researches propose to generate voice models using the probability distributions of short-term spectral features. This method is called i-vector. The main disadvantages of statistical models are that they must have large training speech corpus to calculate the statistical distributions of features and construct a text-independent model of speaker. Uninvestigated parts of general matters defining. Creating a general method for patterns extraction from time-distributed short-term spectral features is required. The research objective. In this paper we proposed a new approach to the speech signals embedding using a recurrent neural network, which can be used for speaker, speech and emotion recognition. The statement of basic materials. Speaker recognition involves the identification of a person and verification by the voice and boils down to find the optimal pairs of speech signal representing function, and scoring function for evaluating the similarity between given and known speech signals. In order to find an alternative function of speech signal embedding, a bidirectional long short-term memory is used. The euclidean distance is used to simplify the process of measuring the similarity between speech signals. The triplet loss function is minimized for adjust the weights of the recurrent neural network. This is because the optimization approach is successfully used for face recognition. Conclusions. It has been shown experimentally that the use of the proposed approach allowed to reduce the speaker recognition error equal rate by 7.5 % compared with the state-of-art i-vector approach with voice models vector dimension 16 and 100, respectively, for 2 sec. speech signals. en_US
dc.description.abstractalt2 Большинство когнитивных сервисов используют речевые сигналы как источник информации, а именно: распознавание эмоций, речи и идентификация говорящего. Актуальной проблемой является создание общего подхода к отражению речевых сигналов, лишенного недостатков существующих методов классификации в задаче распознавания говорящего. В работе предложен новый подход к отражению языковых сигналов, как векторов признаков распределенных во времени, с использованием рекуррентной нейронной сети. Для поиска альтернативной функции отображения признаков речевого сигнала в работе использовано рекуррентную нейронную сеть, состоящую из цепи двунаправленных долгих кратковременных памятей. Использовано эвклидово расстояние для упрощения процесса уравнивания образцов речевых сигналов. Для настройки весов рекуррентной нейронной сети использован подход триплет потерь, что успешно используется для распознавания лиц. Экспериментально показано, что использование предложенного подхода позволило уменьшить ошибку распознавания говорящего EER на 7,5 % по сравнению с современным подходом i-vector при размерности векторов отображений 16 и 100, соответственно, для речевых сигналов длительностью 2 с. en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record