Uso de aprendizado por reforço para otimização do controle de caminhada de um robô móvel humanóide
Descripción
Os atuais robôs humanoides ainda possuem instabilidade no andar dinâmico comparado com o andar humano. Apesar de existirem robôs móveis com rodas que possuem uma boa estabilidade, a busca pelo desenvolvimento dos robôs humanoides se dá pelo fato de que a locomoção com pernas é a melhor forma de locomoção em ambientes com descontinuidades no piso. Existem várias técnicas de geração de caminhada que vêm sendo desenvolvidas para robôs humanoides, porém, até o momento, nenhuma delas apresentou resultados satisfatórios se comparados com o andar humano. No entanto, sabe-se que há restrições construtivas, porque os robôs humanoides atuais, para se assemelharem aos seres humanos, precisam ser construídos com dispositivos e preceitos análogos a estrutura física do corpo humano. No robô humanoide se usa metais ao invés de ossos, motores no lugar de músculos, fios no lugar dos nervos e microprocessadores no lugar do cérebro, com isso, o resultado operacional acaba sendo diferente se comparado ao ser humano. Ao longo dos anos, várias propostas vêm sendo apresentadas para solucionar a questão da estabilidade dos robôs humanoides durante a caminhada. Algumas propostas apresentaram o aprendizado por reforço como solução, entretanto cada uma delas apresentou diferentes formas de implementação do aprendizado com diversos algoritmos. Seguindo essa linha de pesquisa, este trabalho propõe um algoritmo de aprendizado por reforço com generalizações temporais para otimizar os valores dos parâmetros do sistema de controle do andar em um robô humanoide, buscando um andar rápido e estável. Foram realizados experimentos simulado. Os resultados experimentais permitiram concluir que o algoritmo proposto foi capaz de aprender quais são os melhores valores de parâmetros do gerador de caminhada, através da observação do desempenho da caminhada executada pelo robô humanoide.The current humanoid robots still have instability in the dynamic walking if compared to human walking. Although there are wheeled mobile robots that have a good stability, the search for the development of humanoid robots, is given by the fact that the locomotion with legs is the best form of locomotion in environments with discontinuities on the floor. There are several gait generation techniques that have been developed for humanoid robots, but so far none of them had satisfactory results if compared to the human gait, however it is known that there is constructive restrictions, this because the current humanoid robots, in order to be similar to the humans, must be constructed of similar materials and devices to the human, such as metal instead of bones and muscles instead of engines. Over the years, several proposals have been presented to resolve the issue of stability of humanoid robots while walking. Some of the proposals presented reinforcement learning as a solution, each presenting different ways of implementing the learning with various algorithms. Following this same line of research, this work proposes a learning reinforcement algorithm with temporal generalizations to optimize the values of the parameters of the gait control system in a humanoid robot, seeking a fast and stable gait. Gait generation experiments were performed in the real robot and experiments with the algorithm proposed in a simulated environment. Experimental results allowed to conclude that the proposed algorithm can learn what are the best values of the gait generator parameters, by observing the walk performance executed by the robot humanoid.