Este documento se presenta una herramienta computacional para el control en un tanque de aireación de los lodos activados, el cual se basa en el concepto de aprendizaje por refuerzo, donde un agente recorre un ambiente desconocido y realizando acciones para alcanzar un objetivo especifico. El control se ejecuta, al buscar un caudal de aire inyectado a un reactor aeróbico y el caudal de recirculación de lodos, para obtener un sustrato inferior a 100 mg/| y las concentraciones del oxígeno disuelto esté entre 1 y 2 mg/| de OD. De esta implementación se encontró que se alcanzaron reducciones entre el 20 y 45 % de caudal de aire.