[en] DATA SELECTION FOR LVQ

RODRIGO TOSTA PERES

[pt] SELEÇÃO DE DADOS EM LVQ

Author

RODRIGO TOSTA PERES

Metadata

Description

[pt] Nesta dissertação, propomos uma metodologia para seleção de dados em modelos de Aprendizado por Quantização Vetorial, referenciado amplamente na literatura pela sigla em inglês LVQ. Treinar um modelo (ajuste dentro-daamostra) com um subconjunto selecionado a partir do conjunto de dados disponíveis para o aprendizado pode trazer grandes benefícios no resultado de generalização (fora-da-amostra). Neste sentido, é muito importante realizar uma busca para selecionar dados que, além de serem representativos de suas distribuições originais, não sejam ruído (no sentido definido ao longo desta dissertação). O método proposto procura encontrar os pontos relevantes do conjunto de entrada, tendo como base a correlação do erro de cada ponto com o erro do restante da distribuição. Procura-se, em geral, eliminar considerável parte do ruído mantendo os pontos que são relevantes para o ajuste do modelo (aprendizado). Assim, especificamente em LVQ, a atualização dos protótipos durante o aprendizado é realizada com um subconjunto do conjunto de treinamento originalmente disponível. Experimentos numéricos foram realizados com dados simulados e reais, e os resultados obtidos foram muito interessantes, mostrando claramente a potencialidade do método proposto.
[en] In this dissertation, we consider a methodology for selection of data in models of Learning Vector Quantization (LVQ). The generalization can be improved by using a subgroup selected from the available data set. We search the original distribution to select relevant data that aren't noise. The search aims at relevant points in the training set based on the correlation between the error of each point and the average of error of the remaining data. In general, it is desired to eliminate a considerable part of the noise, keeping the points that are relevant for the learning model. Thus, specifically in LVQ, the method updates the prototypes with a subgroup of the originally available training set. Numerical experiments have been done with simulated and real data. The results were very interesting and clearly indicated the potential of the method.

Collections

Documentos - PUC-RIO