Aprendizado por reforço profundo multiagente aplicado a negociação de ativos de mercado financeiro
Descripción
O presente trabalho tem como motivação principal o estudo de modelos de aprendizado por reforço multi-agent, comumente utilizados quando o problema é episódico e a dinâmica do sistema é complexa de ser descrita analiticamente, aplicado à negociação de ações na bolsa de valores, desenvolvendo um sistema cooperativo composto por um agente que representa a força de compra dos ativos, e outro agente a força de venda. Os agentes devem interagir para decidir quanto será comprado ou vendido, de modo a optimizar o lucro obtido, criando o que foi denominado de: “gestor de carteira de investimentos”. Ao término do desenvolvimento foram feitas análises do modelo single-agent e multi-agent, avaliações do impacto da modelagem do ator-crítico utilizando redes recorrentes e propostas de melhoria do projeto desenvolvido. O modelo multi-agent obteve resultados positivos, em sua maioria, sendo superiores ao buy-andhold em mais de 88% no experimento executado com o ativo ITSA4, porém os resultados de forma geral não são suficientes para a construção de um modelo comercial. Ao término do projeto foram propostas melhorias e possíveis trabalhos futuros com o intuito de auxiliar o desenvolvimento da área.The main motivation of the present academic work is the study of multi-agent reinforcement learning models, commonly used when the problem is episodic and the dynamic of the system is complex to be described analytically, applied to stock trading on the stock exchange, developing a cooperative system composed of one agent who represents the buying force of the stocks, and the other agent the sale force. The agents must interact to decide how much will be bought or sold, in order to optimize the profit obtained, creating what was called: investment portfolio manager”. At the end of the development, analyzes of the single-agent and multi-agent model were made, evaluations of the impact of using recurrent networks in the actor-critic model and proposals for improvement of the developed project. The multi-agent model achieved positive results, mostly, being better then buy-and-hold by more than 88% in the experiment performed with the stock ITSA4, however the results in general are not enough to build a business model. At the end of the project, improvements and possible future work were proposed in order to assist the development of the area