El propósito de este trabajo es determinar si la ventaja de las características aprendidas mediante Deep Learning sobre las elaboradas a mano, que se evidencia en el estado de la técnica, todavía se mantiene para las acciones que se llevan a cabo en un entorno similar. La comparación se realiza utilizando un conjunto de datos creado específicamente para el estudio, en el que las acciones que se llevan a cabo son muy similares y con un entorno común y ruidoso. El estudio muestra que para una base de datos con un número limitado de videos y un entorno común, es mejor considerar las características hechas a mano que una arquitectura CNN superficial como extractor de funciones.