La detección de objetos es una técnica de visión por computadora que permite localizar objetos en fotografías o videos digitales. A diferencia de la clasificación de objetos, la detección no solo permite saber si el objeto pertenece a una clase, además, permite identificar la posición del objeto dentro de la escena.
Para determinar la posición, la detección de objetos encierra el objeto u objetos con un cuadro delimitador, para esto, muchos algoritmos de detección de objetos usan la regresión de caja envolvente. Este tipo de regresión usa redes neuronales entrenadas sobre un conjunto de imágenes etiquetadas con la posición de los objetos a identificar, a partir de esta información, la red neuronal entrenada es capaz de identificar el objeto y la posición dentro de la imagen.
Además de la detección del objeto, existe información implícita dentro del proceso de delimitación de los objetos con cuadros envolventes como el tamaño aproximado del objeto en la imagen a partir del cuadro que lo encierra.
En este artículo, se propone una técnica para calcular las dimensiones aproximadas de objetos (cajas), a partir de la identificación de dichos objetos en imágenes monoculares usando regresión de caja envolvente.