Descrição
El auge de los Transformers y los modelos de lenguaje autorregresivos ha impulsado su uso en diversos campos, pero también ha expuesto sus limitaciones, como la incapacidad de resolver problemas simples que se encuentren fuera de los datos de su entrenamiento, lo que refleja deficiencias en comprensión, razonamiento y planificación. Estas habilidades son esenciales para aplicaciones críticas, autos autónomos o aplicaciones médicas, donde se requiere adaptabilidad a situaciones imprevistas.
Esta tesis propone un modelo que combina un Transformers con codificador visual modificado (ViT) y aprendizaje por refuerzo (RL) para abordar estas limitaciones. La evaluación se realiza con el Abstraction and Reasoning Corpus (ARC), un benchmark creado para medir habilidades cognitivas en IA, que hasta ahora no ha sido superado por otros modelos.