Estimar el número de personas en una escena determinada puede proporcionar información relevante para la toma de decisiones. En el sistema de Transmilenio existen inconvenientes por la falta de información para el despacho de los buses y la planeación de las rutas; actualmente en el mundo se utilizan métodos manuales para contar pasajeros y también diferentes métodos de conteo automático de pasajeros. En este proyecto se presenta un método de visión por computador que estima el número de personas en imágenes de puertas de buses y estaciones de Transmilenio utilizando técnicas de aprendizaje profundo. Partiendo de imágenes de la base de datos Transmilenio-Javeriana, se generaron mapas de densidad para ellas y a partir de esto se entrenó un modelo basado en redes neuronales que puede obtener estos mapas por sí mismo. Sobre los mapas se realizó la estimación para conocer el número de personas en cada imagen. Se evaluó el desempeño del modelo obteniendo un error absoluto medio de 1.45 y se presentaron los resultados visualmente entregando videos que muestran los resultados del modelo en diferentes escenas. El método implementado es el inicio de la investigación en modelos que pueden ser aplicados en tiempo real en el sistema Transmilenio en el campo de visión por computador.