MT-DWL ViT-KAN: estimação simultânea de sexo e idade a partir de radiografias panorâmicas.

Liang, Julian Santana

Campo DC

Valor

Idioma

dc.creator

Liang, Julian Santana

dc.date.accessioned

2025-05-09T12:06:56Z

dc.date.available

2025-05-09T12:06:56Z

dc.date.issued

2024-12-13

dc.identifier.citation

LIANG, Julian Santana. MT-DWL ViT-KAN: estimação simultânea de sexo e idade a partir de radiografias panorâmicas. 2024. 77 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024.

pt_BR

dc.identifier.uri

https://repositorio.ufba.br/handle/ri/41964

dc.description.abstract

Forensic dentistry is a field that applies scientific knowledge to analyze dental elements, such as teeth and dental arches, with the aim of identifying individuals. This analysis is especially valuable in situations such as mass disasters, criminal investigations, and missing persons cases. Traditionally, sex and age determination is done through morphological and metric analyses of dental and bone structures. However, these approaches have limitations, such as data variability and subjectivity of the analyses. With advances in deep learning, it has become possible to apply computer vision to analyze dental radiographs, using classification and regression techniques. This dissertation proposes a Multitask-Dynamic Weighted Loss Vision Transformer-Kolmogorov-Arnold Networks (MT-DWL ViT-KAN) approach that combines multitask learning with self-supervised pre-training using Mask Autoencoders, allowing the model to learn robust latent representations from large volumes of unlabeled data. Furthermore, Kolmogorov-Arnold networks are employed to decompose complex relationships between dental features and sex and age labels, improving model accuracy. The methodology also incorporates a dynamic logarithmic weighted loss function, which automatically adjusts task weights during training, ensuring an optimized balance between sex classification and age estimation. In our experiments, incorporating the Mask Autoencoders strategy, which uses the Vision Transformer architecture, resulted in a significant improvement in model performance compared to the EfficientNetV2-L model pre-trained on ImageNet. Furthermore, by integrating the Kolmogorov-Arnold network into the final multi-task layer, we obtained the best results among all tested configurations. MT-DWL ViT-KAN achieved a mean absolute error of 3.39 years in age estimation and an F1-score of 94.2\% in sex classification. These results highlight the potential of the proposed model in extracting relevant features from dental radiographs and in performing multitask predictions in the forensic dentistry scenario.

pt_BR

dc.language

por

pt_BR

dc.publisher

Universidade Federal da Bahia

pt_BR

dc.rights

Acesso Aberto

pt_BR

dc.subject

Visão computacional

pt_BR

dc.subject

Aprendizado profundo

pt_BR

dc.subject

Vision transformer

pt_BR

dc.subject

Odontologia forense

pt_BR

dc.subject

Estimativa de idade

pt_BR

dc.subject

Classificação do sexo

pt_BR

dc.subject

Multitarefa

pt_BR

dc.subject

Mask autoencoder

pt_BR

dc.subject

Rede Kolmogorov-Arnold

pt_BR

dc.subject.other

Computer vision

pt_BR

dc.subject.other

Deep learning

pt_BR

dc.subject.other

Vision transformer

pt_BR

dc.subject.other

Forensic dentistry

pt_BR

dc.subject.other

Age estimation

pt_BR

dc.subject.other

Sex classification

pt_BR

dc.subject.other

Multitasking

pt_BR

dc.subject.other

Mask autoencoder

pt_BR

dc.subject.other

Kolmogorov-Arnold network

pt_BR

dc.title

MT-DWL ViT-KAN: estimação simultânea de sexo e idade a partir de radiografias panorâmicas.

pt_BR

dc.title.alternative

MT-DWL ViT-KAN: simultaneous estimation of sex and age from panoramic radiographs.

pt_BR

dc.type

Dissertação

pt_BR

dc.publisher.program

Programa de Pós-Graduação em Ciência da Computação (PGCOMP)

pt_BR

dc.publisher.initials

UFBA

pt_BR

dc.publisher.country

Brasil

pt_BR

dc.subject.cnpq

CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO

pt_BR

dc.subject.cnpq

CNPQ::CIENCIAS DA SAUDE::ODONTOLOGIA

pt_BR

dc.contributor.advisor1

Oliveira, Luciano Rebouças de

dc.contributor.advisor1Lattes

http://lattes.cnpq.br/0372650483087124

pt_BR

dc.contributor.referee1

Oliveira, Luciano Rebouças de

dc.contributor.referee1Lattes

http://lattes.cnpq.br/0372650483087124

pt_BR

dc.contributor.referee2

Cury, Patrícia Ramos

dc.contributor.referee2Lattes

http://lattes.cnpq.br/0714090324773908

pt_BR

dc.contributor.referee3

Silva, Jefferson Fontinele da

dc.contributor.referee3Lattes

http://lattes.cnpq.br/4592887904839028

pt_BR

dc.creator.Lattes

http://lattes.cnpq.br/8216830875309343

pt_BR

dc.description.resumo

A odontologia forense é uma área que aplica conhecimentos científicos para analisar elementos dentários, como dentes e arcadas dentárias, com o objetivo de identificar indivíduos. Essa análise é especialmente valiosa em situações como desastres em massa, investigações criminais e casos de pessoas desaparecidas. Tradicionalmente, a determinação do sexo e da idade é feita por meio de análises morfológicas e métricas de estruturas dentárias e ósseas. No entanto, essas abordagens têm limitações, como a variabilidade dos dados e a subjetividade das análises. Com os avanços no aprendizado profundo, tornou-se possível aplicar visão computacional para analisar radiografias dentárias, utilizando técnicas de classificação e regressão. Esta dissertação propõe uma abordagem Multitask-Dynamic Weighted Loss Vision Transformer-Kolmogorov-Arnold Networks (MT-DWL ViT-KAN) que combina aprendizado multitarefa com pré-treinamento autossupervisionado utilizando Mask Autoencoders, permitindo ao modelo aprender representações latentes robustas de grandes volumes de dados não rotulados. Além disso, as redes Kolmogorov-Arnold são empregadas para decompor relações complexas entre as características dentárias e os rótulos de sexo e idade, melhorando a precisão do modelo. A metodologia também incorpora uma função de perda com ponderação logarítmica dinâmica, que ajusta automaticamente os pesos das tarefas durante o treinamento, garantindo um equilíbrio otimizado entre a classificação do sexo e a estimativa da idade. Em nossos experimentos, a incorporação da estratégia de Mask Autoencoders, que utiliza a arquitetura Vision Transformer, resultou em uma melhoria significativa no desempenho do modelo em comparação com o modelo EfficientNetV2-L pré-treinado na ImageNet. Além disso, ao integrar a rede Kolmogorov-Arnold na camada final multitarefa, obtivemos os melhores resultados entre todas as configurações testadas. O MT-DWL ViT-KAN alcançou um erro absoluto médio de 3,39 anos na estimativa de idade e um F1-score de 94.2\% na classificação de sexo. Esses resultados evidenciam o potencial do modelo proposto em extrair características relevantes de radiografias dentárias e em realizar previsões multitarefa no cenário da odontologia forense.

pt_BR

dc.publisher.department

Instituto de Computação - IC

pt_BR

dc.type.degree

Mestrado Acadêmico

pt_BR

Aparece nas coleções:

Dissertação (PGCOMP)

Arquivo

Descrição

Tamanho

Formato

Dissertação_completa.pdf

5,72 MB

Adobe PDF

Visualizar/Abrir

Sistema Universitário de Bibliotecas UFBA
Rua Barão de Jeremoabo, s/n, Campus Ondina, Salvador-BA, CEP: 40170-290