Reconhecimento de emoções através da fala aplicado a robôs de assistência doméstica
Descripción
Por meio da fala, que privilegia a natureza funcional e interativa do texto, é possível averiguar as circunstâncias espaço-temporais, as condições de produção e recepção do discurso, os propósitos explícitos como informar, explicar, convencer etc. Condições essas que permitem aproximar a interação entre humanos à interação entre humanos e robôs tomando-a natural e sensível às informações. No entanto, não basta compreender o que é falado, faz-se necessário o reconhecimento de emoções para a interação desejada. Verificou-se a validez do uso de redes neurais para seleção de características e para o reconhecimento de emoções. Para isso propõe-se o uso de Redes Neurais e comparação de modelos, como redes neurais recorrentes e redes neurais profundas, com intuito de realizar a classificação das emoções através dos sinais de fala para verificar a qualidade do reconhecimento. Espera-se possibilitar a implementação em robôs de um ambiente doméstico, como o robô HERA da equipe RoboFEI@Home, que tem como foco robôs de serviço autônomos para o ambiente doméstico. Foram realizados testes utilizando-se apenas os Coeficientes Cepstrais da Frequência-Mel, bem como testes com diversas características do Delta-MFCC, contraste espectral e o espectrograma-Mel. Para realizar o treinamento, validação e testes das redes neurais, usufruiu-se a base de dados eNTERFACE'05, que possui 42 locutores de 14 nacionalidades diferentes falando o idioma inglês. Os dados da base escolhida são vídeos que, para o uso nas redes neurais, foram convertidos em áudios. Constatou-se como resultado uma classificação de 52% de acertos quando empregada a rede neural profunda, quando verificado o uso da rede neural recorrente, sendo a classificação com acurácia igual 44%. Os resultados apresentam maior acurácia quando apenas os Coeficientes Cepstrais da Frequência-Mel são usados para a classificação, utilizando o classificador com a Rede Neural Profunda e em apenas um caso é possível observar um maior acerto por parte da Rede Neural Recorrente, que se dá no uso de diversas características e na configuração de 73 para o tamanho do Batch e 100 épocas de treinamentoThrough speech, which privileges the functional and interactive nature of the text, it is possible to ascertain the spatio-temporal circumstances, the conditions of production and reception of the discourse, the explicit purposes such as informing, explaining, convincing etc. These conditions allow bringing the interaction between humans closer to the Human-Robot interaction, making it natural and sensitive to information. However, it is not enough to understand what is said, it is necessary to recognize emotions for the desired interaction. The validity of the use of neural networks for feature selection and emotion recognition was verified. For this purpose, it is proposed the use of Neural Networks and comparison of models, such as recurrent neural networks and deep neural networks, in arder to carry out the classification of emotions through speech signals to verify the quality of recognition. It is expected to enable the implementation in robots in a domestic environment, such as the HERA robot from the RoboFEI@Home team, which focuses on autonomous service robots for the domestic environment. Tests were performed using only the Mel-Frequency Cepstral Coefficients, as well as tests with severa! characteristics of Delta-MFCC, spectral contrast and the melspectrogram. To carry out the training, validation and testing of the neural networks, the eNTERFACE'05 database was used, which has 42 speakers from 14 different nationalities speaking the English language. The data from the chosen database are vídeos that, for use in neural networks, were converted into audios. It was found as a resulta classification of 52% of correct answers when using the deep neural network, when the use of the recurrent neural network was verified, with the classification with accuracy equal to 44%. The results are more accurate when only the Mel-Frequency Cepstral Coefficients are used for the classification, using the classifier with the Deep Neural Network and in only one case it is possible to observe a greater accuracy by the Recurrent Neural Network, which occurs in the use of various features and setting 73 for Batch size and 100 training epochs