Descripción
O congestionamento no tráfego tem impactos na economia, na sustentabilidade das cidades e no bem-estar dos cidadãos. Este problema pode ser reduzido usando estratégias de controle de tráfego inteligentes para promover um uso mais eficiente da rede rodoviária. Controladores de semáforo baseados na técnica de Aprendizado por Reforço oferecem muitos benefícios em relação à outras técnicas, e um deles é ser capaz de ajustar as ações do controlador customizando a função de recompensa utilizada. Neste artigo, funções de recompensa são avaliadas sob diferentes condições de demanda e propomos uma função de recompensa adaptativa, que adapta seu objetivo dinamicamente de acordo com os níveis de saturação das vias