Temporal Action Segmentation in videos via open vocabulary
Descrição
Este Trabalho de Conclusão de Curso foi também orientado pela Dr.-Ing. Kunyu Peng do Karlsruhe Institute of Technology, Alemanha.Temporal Action Segmentation (TAS) involves labeling each frame in a video to identify sequences of human actions. Existing approaches typically require a fixed and predefined set of action classes known during training, limiting generalization to novel actions. Our work aims to address this limitation by introducing open-vocabulary learning techniques to TAS. We propose adapting the state-of-the-art Frame-Action Cross-Attention Temporal Modeling (FACT) temporal segmentation model by integrating Contrastive Language-Image Pre-training (CLIP) textual embeddings. Specifically, we introduce a Vision-Language Alignment Branch that projects refined frame-level features into a shared semantic space, supervised by fixed text anchors derived from the CLIP text encoder. This allows the model to align visual temporal representations with natural language descriptions. Experiments involve training and evaluating the vanilla FACT architecture on the Human Assembly Video Dataset (HA-ViD). We find that it achieves state-of-the-art performance, outperforming previous models by nearly 5 percentage points across most metrics. We also experimented with our proposed FACT-CLIP architecture on this same dataset, employing class masking to simulate open-vocabulary scenarios. Results demonstrate that our method not only maintains competitive performance on seen classes, but also achieves good zero-shot generalization capabilities on unseen actions, establishing a promising way forward for open-vocabulary techniques on Temporal Action Segmentation models.
A Segmentação Temporal de Ações (TAS, sigla em inglês) consiste em rotular cada quadro de um vídeo para identificar sequências de ações humanas. Abordagens existentes normalmente exigem um conjunto fixo e pré-definido de classes de ação conhecido durante o treinamento, o que limita a capacidade de generalizar para novas ações. Nosso trabalho busca abordar essa limitação ao introduzir técnicas de vocabulário aberto (open-vocabulary, em inglês) na TAS. Propomos adaptar o modelo Frame-Action Cross-Attention Temporal Modeling (FACT), referência no estado da arte, integrando embeddings textuais baseados no Contrastive Language-Image Pre-training (CLIP). Especificamente, introduzimos um Ramo de Alinhamento Visão-Linguagem, que projeta frame-level features para um espaço semântico compartilhado, supervisionado por text anchors fixos derivados do codificador textual do CLIP. Isso permite que o modelo alinhe representações visuais temporais com descrições em linguagem textual. Os experimentos envolvem treinar e avaliar a arquitetura FACT vanilla no Human Assembly Video Dataset (HA-ViD). Constatamos que ela alcança desempenho de estado da arte, superando modelos anteriores por quase 5 pontos percentuais na maioria das métricas. Também realizamos experimentos com nossa arquitetura proposta, FACT-CLIP, nesse mesmo dataset, mascarando classes para simular cenários de open-vocabulary. Os resultados demonstram que nosso método não apenas mantém desempenho competitivo em classes vistas, mas também apresenta boas capacidades de generalização zero-shot para ações não vistas, demonstrando um caminho promissor para técnicas de open-vocabulary em modelos de segmentação temporal de ações.
Bolsa de estudos FEI (CCT)
São Bernardo
