https://repositorio.ufba.br/handle/ri/41964| Tipo: | Dissertação |
| Título: | MT-DWL ViT-KAN: estimação simultânea de sexo e idade a partir de radiografias panorâmicas. |
| Título(s) alternativo(s): | MT-DWL ViT-KAN: simultaneous estimation of sex and age from panoramic radiographs. |
| Autor(es): | Liang, Julian Santana |
| Primeiro Orientador: | Oliveira, Luciano Rebouças de |
| metadata.dc.contributor.referee1: | Oliveira, Luciano Rebouças de |
| metadata.dc.contributor.referee2: | Cury, Patrícia Ramos |
| metadata.dc.contributor.referee3: | Silva, Jefferson Fontinele da |
| Resumo: | A odontologia forense é uma área que aplica conhecimentos científicos para analisar elementos dentários, como dentes e arcadas dentárias, com o objetivo de identificar indivíduos. Essa análise é especialmente valiosa em situações como desastres em massa, investigações criminais e casos de pessoas desaparecidas. Tradicionalmente, a determinação do sexo e da idade é feita por meio de análises morfológicas e métricas de estruturas dentárias e ósseas. No entanto, essas abordagens têm limitações, como a variabilidade dos dados e a subjetividade das análises. Com os avanços no aprendizado profundo, tornou-se possível aplicar visão computacional para analisar radiografias dentárias, utilizando técnicas de classificação e regressão. Esta dissertação propõe uma abordagem Multitask-Dynamic Weighted Loss Vision Transformer-Kolmogorov-Arnold Networks (MT-DWL ViT-KAN) que combina aprendizado multitarefa com pré-treinamento autossupervisionado utilizando Mask Autoencoders, permitindo ao modelo aprender representações latentes robustas de grandes volumes de dados não rotulados. Além disso, as redes Kolmogorov-Arnold são empregadas para decompor relações complexas entre as características dentárias e os rótulos de sexo e idade, melhorando a precisão do modelo. A metodologia também incorpora uma função de perda com ponderação logarítmica dinâmica, que ajusta automaticamente os pesos das tarefas durante o treinamento, garantindo um equilíbrio otimizado entre a classificação do sexo e a estimativa da idade. Em nossos experimentos, a incorporação da estratégia de Mask Autoencoders, que utiliza a arquitetura Vision Transformer, resultou em uma melhoria significativa no desempenho do modelo em comparação com o modelo EfficientNetV2-L pré-treinado na ImageNet. Além disso, ao integrar a rede Kolmogorov-Arnold na camada final multitarefa, obtivemos os melhores resultados entre todas as configurações testadas. O MT-DWL ViT-KAN alcançou um erro absoluto médio de 3,39 anos na estimativa de idade e um F1-score de 94.2\% na classificação de sexo. Esses resultados evidenciam o potencial do modelo proposto em extrair características relevantes de radiografias dentárias e em realizar previsões multitarefa no cenário da odontologia forense. |
| Abstract: | Forensic dentistry is a field that applies scientific knowledge to analyze dental elements, such as teeth and dental arches, with the aim of identifying individuals. This analysis is especially valuable in situations such as mass disasters, criminal investigations, and missing persons cases. Traditionally, sex and age determination is done through morphological and metric analyses of dental and bone structures. However, these approaches have limitations, such as data variability and subjectivity of the analyses. With advances in deep learning, it has become possible to apply computer vision to analyze dental radiographs, using classification and regression techniques. This dissertation proposes a Multitask-Dynamic Weighted Loss Vision Transformer-Kolmogorov-Arnold Networks (MT-DWL ViT-KAN) approach that combines multitask learning with self-supervised pre-training using Mask Autoencoders, allowing the model to learn robust latent representations from large volumes of unlabeled data. Furthermore, Kolmogorov-Arnold networks are employed to decompose complex relationships between dental features and sex and age labels, improving model accuracy. The methodology also incorporates a dynamic logarithmic weighted loss function, which automatically adjusts task weights during training, ensuring an optimized balance between sex classification and age estimation. In our experiments, incorporating the Mask Autoencoders strategy, which uses the Vision Transformer architecture, resulted in a significant improvement in model performance compared to the EfficientNetV2-L model pre-trained on ImageNet. Furthermore, by integrating the Kolmogorov-Arnold network into the final multi-task layer, we obtained the best results among all tested configurations. MT-DWL ViT-KAN achieved a mean absolute error of 3.39 years in age estimation and an F1-score of 94.2\% in sex classification. These results highlight the potential of the proposed model in extracting relevant features from dental radiographs and in performing multitask predictions in the forensic dentistry scenario. |
| Palavras-chave: | Visão computacional Aprendizado profundo Vision transformer Odontologia forense Estimativa de idade Classificação do sexo Multitarefa Mask autoencoder Rede Kolmogorov-Arnold |
| CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO CNPQ::CIENCIAS DA SAUDE::ODONTOLOGIA |
| Idioma: | por |
| País: | Brasil |
| Editora / Evento / Instituição: | Universidade Federal da Bahia |
| Sigla da Instituição: | UFBA |
| metadata.dc.publisher.department: | Instituto de Computação - IC |
| metadata.dc.publisher.program: | Programa de Pós-Graduação em Ciência da Computação (PGCOMP) |
| Citação: | LIANG, Julian Santana. MT-DWL ViT-KAN: estimação simultânea de sexo e idade a partir de radiografias panorâmicas. 2024. 77 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024. |
| Tipo de Acesso: | Acesso Aberto |
| URI: | https://repositorio.ufba.br/handle/ri/41964 |
| Data do documento: | 13-Dez-2024 |
| Aparece nas coleções: | Dissertação (PGCOMP) |
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| Dissertação_completa.pdf | 5,72 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.