dc.contributor.advisor | Bianchi, Reinaldo Augusto da Costa | |
dc.contributor.author | Meneghetti, D. R. | |
dc.date.accessioned | 2021-11-09T14:13:35Z | |
dc.date.available | 2021-11-09T14:13:35Z | |
dc.date.issued | 2021 | |
dc.identifier.citation | MENEGHETTI, D. R.; BIANCHI, Reinaldo Augusto da Costa. <b> Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos. </b> 2021. 136 p. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2021 Disponível em: https://doi.org/10.31414/EE.2021.T.131375. | |
dc.identifier.uri | https://repositorio.fei.edu.br/handle/FEI/3447 | |
dc.description.abstract | Esta tese apresenta uma arquitetura de rede neural voltada ao aprendizado de políticas
em sistemas multi-agentes totalmente cooperativos, compostos de agentes heterogêneos e
comunicativos. O ambiente é formalizado como um Processo de Decisão de Markov Parcialmente
Observável Descentralizado e os estados transformados em grafos direcionados rotulados
atribuídos de agentes e entidades. Vértices representam agentes e entidades; os rótulos dos
vértices, suas classes, sendo todos os agentes dentro de uma mesma classe considerados
homogêneos entre si; arcos direcionados representam a capacidade dos agentes de adquirir
informação de outras entidades; e vetores armazenados nos vértices representam as características
que descrevem agentes e entidades, ou as observações dos agentes.
A topologia de rede neural proposta usa camadas totalmente conectadas para codificar
as observações dos agentes; convoluções relacionais em grafos para aprender mecanismos de
comunicação específicos para diferentes pares de classes; e diferentes redes neurais treinadas
utilizando aprendizado por reforço para modelar as políticas das classes de agentes.
A tese apresenta dois métodos. No primeiro, os módulos de codificação e aprendizado de
funções valor-ação são modelados como redes neurais distintas para cada classe de entidade e
agente, e o treinamento do modelo é feito utilizando uma memória de repetição de transições. O
segundo método usa compartilhamento de parâmetros entre as classes de agentes para obter uma
rede neural com menos parâmetros, assim como emprega camadas recorrentes e treinamento
com amostras de uma memória de repetição de episódios.
A comunicação relacional é comparada à comunicação realizada através de mecanismos
de atenção e à ausência de comunicação entre os agentes. Também é testada a compatibilidade
do método com outras contribuições disponíveis na literatura, como a regularização por relações
temporais e o mixing aditivo.
Testes realizados no ambiente do StarCraft Multi-Agent Challenge demonstram que o
emprego de camadas de convolução relacionais para a especialização da comunicação entre
agentes viabiliza desempenho comparável ou superior aos outros métodos em todos os cenários
testados, principalmente naqueles com maior número de classes de agentes. Já a combinação da
comunicação relacional com o mixing aditivo apresentou, geralmente, os melhores resultados | |
dc.description.abstract | This thesis presents a neural network architecture specialized in learning policies for
agents in fully cooperative multi-agent systems, composed by heterogeneous, communicative
agents. The environment is formalized as a Decentralized Partially Observable Markov Decision
Process and states are transformed into directed labeled attributed graphs of agents and entities,
in which vertex labels represent agent/entity classes. Agents that share a single class are
considered homogeneous among themselves; directed arcs represent an agent’s capacity of
acquiring information from other entities; and vectors stored in vertices represent the features
that describe the agents and entities, or agents’ observations.
The proposed neural network topology uses fully connected layers to encode agent features
and observations; relational graph convolutions to learn specific communication protocols for
different pairs of agent classes; and different neural networks, trained using reinforcement
learning, to model agent class policies.
The thesis presents two methods. The first one uses separate neural networks to encode
and learn policies for each agent/entity class and training is realized through a replay buffer of
state transitions. The second version employs parameter sharing between agent classes to attain a
neural network with fewer parameters, as well as recurrent layers and training via a replay buffer
of complete episodes.
Relational communication is compared to communication via an attention mechanism
and no communication. Compatibility with other contributions provided in the literature is also
tested, such as temporal relation regularization and additive mixing.
Tests performed in the StarCraft Multi-Agent Challenge environment demonstrate that
employing relational graph convolutions with specialization of communication protocols attains
comparable or superior performance in all the tested scenarios, specially in the ones with higher
number of agent classes. Furthermore, the combination of relational communication with additive
mixing achieved, in general, the best results | |
dc.language | por | |
dc.language.iso | pt_BR | |
dc.publisher | Centro Universitário FEI, São Bernardo do Campo | |
dc.subject | sistemas multi-agentes | |
dc.subject | aprendizado por reforço | |
dc.subject | agentes heterogêneos | |
dc.subject | redes neurais de grafos | |
dc.title | Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos | pt_BR |
dc.type | Tese | pt_BR |