https://repositorio.ufba.br/handle/ri/42029| Tipo: | Tese |
| Título: | Sistemas de estimação visual-temporal de biossinais e assinaturas de movimento em vídeos para interação humano-robô |
| Título(s) alternativo(s): | Spatiotemporal estimation systems of biosignals and motion signatures in videos for human-robot interaction |
| Autor(es): | Souza, João Marcelo Silva |
| Primeiro Orientador: | Cerqueira, Jés de Jesus Fiais |
| metadata.dc.contributor.advisor-co1: | Oliveira, Wagner Luiz Alves de |
| metadata.dc.contributor.referee1: | Fernandes Júnior, Antônio Carlos Lopes |
| metadata.dc.contributor.referee2: | Simas Filho, Eduardo Furtado de |
| metadata.dc.contributor.referee3: | Santos Júnior, Fernando Alberto Correia dos |
| metadata.dc.contributor.referee4: | Melo, Thamiles Rodrigues de |
| metadata.dc.contributor.referee5: | Oliveira, Wagner Luiz Alves de |
| Resumo: | Na Interação Humano-Robô (IHR), a estimação visual de biossinais ao longo do tempo é fundamental para a extração de características humanas, a interpretação de comportamentos e o fornecimento de feedback e estímulos ciberfísicos diversos. Nesse contexto, sistemas de Facial Expression Recognition (FER) vêm sendo desenvolvidos para automatizar a análise computacional do comportamento humano, um processo que exige observação minuciosa e tratamento complexo de correlações espaço-temporais de forma integrada. Apesar dos avanços, os sistemas e datasets de FER ainda priorizam informações espaciais e instantâneas, o que limita a exploração das alterações musculares faciais e dos movimentos contínuos em situações do mundo real. Para superar essa limitação, este trabalho propõe uma abordagem alternativa ao domínio convencional de imagens, conectando a representação visual de pontos de interesse a descritores temporais. Para isso, os pontos são referenciados ao longo do tempo, normalizados de forma espaço-temporal e transformados em medidas que geram assinaturas de movimento representadas por meio de séries temporais multivariadas. Este trabalho apresenta: a proposta de metodologia denominada Visual-Temporal FER (VT-FER) e seu respectivo framework; as 22 medidas da face padronizadas baseadas nos fundamentos do Facial Action Coding System (FACS); a arquitetura do pipeline para sistemas computacionais; e um novo dataset, o Facial Biosignals Time-Series (FBioT), composto por mais de 21 mil segundos de vídeos de situações reais, gerados em ambiente não controlado e oriundos de bases públicas. Os resultados dos protótipos permitiram validar as hipóteses temporais da proposta, atingindo patamares de acurácia compatíveis com benchmarks da comunidade científica: 94% na rede neural treinada com dados de referência do dataset Extended Cohn-Kanade (CK+) para detecção de emoções em ambiente controlado; e 72% para detecção de arousal em ambiente não controlado, com base na referência Acted Facial Expressions In The Wild – Valence and Arousal (AFEW-VA). Além disso, com o dataset FBioT foi possível explorar o potencial da metodologia no desenvolvimento de redes neurais, atingindo 80% de acurácia na detecção visual-temporal de emoções embutidas em conversação e 88% na identificação visual de palavras a partir da observação temporal da boca. |
| Abstract: | In Human-Robot Interaction (HRI), the visual estimation of biosignals over time is essential for extracting human features, interpreting behaviors, and providing various forms of cyber-physical feedback and stimuli. In this context, Facial Expression Recognition (FER) systems have been developed to automate the computational analysis of human behavior, a process which requires meticulous observation and complex and integrated processing of spatiotemporal correlations. However, current FER systems and datasets predominantly explore spatial, static, or instantaneous aspects, which limits investigations of facial muscle deformations and motion over time in real-world situations. To overcome this limitation, this work proposes an alternative approach to the conventional image domain, connecting the visual representation of points of interest to temporal descriptors. To achieve this, the points are tracked over time, normalized spatiotemporally, and converted into metrics that generate motion signatures represented through multivariate time series. This work presents: the proposed methodology, termed Visual-Temporal FER (VT-FER), along with its corresponding framework; 22 standardized face measurements based on the principles of Facial Action Coding System (FACS); the pipeline architecture for computational systems; and a new dataset, the Facial Biosignals Time-Series (FBioT), comprising more than 21,000 seconds of real-world footage collected in uncontrolled environments from public sources. The prototype results validated the temporal hypotheses of the proposed approach, achieving accuracy levels compatible with benchmarks from the scientific community: 94% accuracy in the neural network trained with the Extended Cohn-Kanade (CK+) dataset reference data for emotion detection in controlled environments, and 72% for arousal detection in uncontrolled environments, using the Acted Facial Expressions In The Wild - Valence and Arousal (AFEW-VA) dataset as reference. Additionally, the FBioT dataset enabled the exploration of the methodology’s potential in the development of neural networks, reaching 80% accuracy in the visual-temporal detection of emotions during conversations, and 88% in visual word identification from mouth movement analysis over time. |
| Palavras-chave: | biossinais visual-temporal expressões faciais normalização espaço-temporal séries temporais |
| CNPq: | CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::MEDIDAS ELETRICAS, MAGNETICAS E ELETRONICAS INSTRUMENTACAO::INSTRUMENTACAO ELETRONICA CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::ARQUITETURA DE SISTEMAS DE COMPUTACAO |
| Idioma: | por |
| País: | Brasil |
| Editora / Evento / Instituição: | Universidade Federal da Bahia |
| Sigla da Instituição: | UFBA |
| metadata.dc.publisher.department: | Escola Politécnica |
| metadata.dc.publisher.program: | Programa de Pós-Graduação em Engenharia Elétrica (PPGEE) |
| Tipo de Acesso: | Acesso Aberto |
| URI: | https://repositorio.ufba.br/handle/ri/42029 |
| Data do documento: | Mar-2025 |
| Aparece nas coleções: | Tese (PPGEE) |
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| Joao Marcelo. Tese doutorado.pdf | Tese Versao Final Joao Marcelo Silva Souza PPGEE | 6,19 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.