Exploiting lod-based similarity personalization strategies for recommender systems

Silva, Gabriela Oliveira Mota da

Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/39279

Tipo:	Tese
Título:	Exploiting lod-based similarity personalization strategies for recommender systems
Título(s) alternativo(s):	Explorando estratégias de personalização de similaridade baseadas em lod para sistemas de recomendação
Autor(es):	Silva, Gabriela Oliveira Mota da
Primeiro Orientador:	Durão, Frederico Araújo
metadata.dc.contributor.referee1:	Durão, Frederico Araújo
metadata.dc.contributor.referee2:	Lino, Natasha Correia Queiroz
metadata.dc.contributor.referee3:	Oliveira Neto, Rosalvo Ferreira de
metadata.dc.contributor.referee4:	Claro, Daniela Barreiro
metadata.dc.contributor.referee5:	Salvador, Laís do Nascimento
Resumo:	Dados Abertos Conectados (Linked Open Data - LOD, em Inglês) é uma nuvem de bancos de dados interconectados, de livre acesso e legíveis por máquina, pois estão disponíveis em padrões abertos da Web Semântica, como RDF e SPARQL. Um exemplo relevante de banco LOD é a DBpedia, uma iniciativa comunitária para extrair informações estruturadas da Wikipedia e disponibilizá-las abertamente na Web. O conteúdo semântico disponibilizado pelos dados abertos conectados e os recursos avançados da linguagem SPARQL permitiram o desenvolvimento de aplicativos sensíveis à semântica. Os sistemas de recomendação (em Inglês: Recommender Systems - RS) baseados em LOD geralmente aproveitam os dados de bancos LOD, e.g. DBpedia, para recomendar itens como filmes, lugares, livros e músicas aos usuários finais. Esses sistemas usam um algoritmo de similaridade semântica que calcula o grau de correspondência entre pares de recursos do grafo RDF, contando o número de links diretos e indiretos entre eles, o comprimento do caminho entre eles ou analisando a hierarquia de suas classes. Por outro lado, calcular a similaridade em grafos RDF pode ser difícil porque cada recurso pode ter centenas de links para outros nós e nem todos eles são semanticamente relevantes ou podem ser aplicados a todos os recursos do grafo. Isso pode levar ao conhecido problema de esparsidade da matriz. No entanto, é possível selecionar subconjuntos de características que são mais úteis para calcular a semelhança entre itens de um grafo, reduzindo a dimensão da matriz. Apesar de vários estudos nesse campo, ainda faltam soluções aplicadas à personalização da etapa de seleção de características (Feature Selection - FS, em Inglês). Nesse contexto, propomos estratégias personalizadas para melhorar a precisão da similaridade semântica em sistemas de recomendação baseados em LOD, incluindo i) a aplicação de uma abordagem de seleção de características para filtrar as melhores propriedades para um usuário específico; ii) a personalização do grafo RDF adicionando pesos às arestas, de acordo com as preferências anteriores do usuário; e iii) a exploração da similaridade das propriedades literais do modelo do usuário. Os experimentos de avaliação usaram dados combinados dos bancos de dados MovieLens e LastFM com os dados semânticos da DBpedia. Os resultados indicam aumentos estatisticamente significativos nas recomendações top-n em todas as métricas testadas: Precision@K (K=5, 10), Map e NDCG, em relação aos métodos de similaridade de referência não personalizados, como Linked Data Semantic Distance (LDSD) e Resource Similarity (ReSim). Os resultados mostram que as estratégias propostas neste trabalho podem ser eficientes para aprimorar sistemas de recomendação semânticos em diversos domínios do conhecimento, pois a solução é escalável para quaisquer bancos de dados baseados em LOD.
Abstract:	Linked Open Data (LOD) is a cloud of freely accessible and interconnected datasets encompass machine-readable data. These data are available under open Semantic Web standards, such as Resource Description Framework (RDF) and SPARQL Protocol and RDF Query Language (SPARQL). One notable example of a LOD set is DBpedia, a crowd-sourced community effort to extract structured information from Wikipedia and make this information openly available on the Web. The semantic content of LOD and the advanced features of SPARQL has opened unprecedented opportunities for enabling semantic-aware applications. LOD-based Recommender Systems Recommender Systems usually leverage the data available within LOD datasets such as DBpedia to recommend items such as movies, places, books, and music to end-users. These systems use a semantic similarity algorithm that calculates the degree of matching between pairs of resources in the RDF graph, by counting the number of direct and indirect links between them, the length of the path between them, or the hierarchy of classes. Conversely, calculating similarity in RDF graphs could be difficult because each resource can have hundreds of links to other nodes. Not all of them are semantically relevant or can be applied to all resources in the graph. This can lead to the well-known matrix sparsity problem. Nevertheless, some effort has been made to select subsets of features, i.e., links, which are more helpful to computing similarity between items of a graph dataset, reducing the matrix dimension. Despite several studies in this field, there is still a lack of solutions applied to the personalization of feature selection tasks. In this context, we propose personalized strategies to improve semantic similarity precision in LOD-based Recommender Systems, including i) applying a feature selection approach to filter the best features for a particular user; ii) personalizing the RDF graph by adding weights to the edges, according to the user’s previous preferences; and iii) exploiting the similarity of literal properties as well as the links from the user model. The evaluation experiments used combined data from DBpedia and MovieLens and DBpedia and LastFM datasets. Results indicate significant increases in top-n recommendation tasks in Precision@K (K=5, 10), Map, and NDCG over non-personalized baseline similarities methods such as Linked Data Semantic Distance (LDSD) and Resource Similarity (ReSim). The results show that the strategies proposed in this work can be effective in improving semantic recommendation systems in various knowledge domains, as the solution is scalable to any LOD-based databases.
Palavras-chave:	Sistemas de recomendação Dados abertos conectados Similaridade semântica Personalização Seleção de características
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
Idioma:	eng
País:	Brasil
Editora / Evento / Instituição:	Universidade Federal da Bahia
Sigla da Instituição:	UFBA
metadata.dc.publisher.department:	Instituto de Computação - IC
metadata.dc.publisher.program:	Programa de Pós-Graduação em Ciência da Computação (PGCOMP)
Citação:	SILVA, Gabriela Oliveira Mota da. Exploiting lod-based Ssmilarity personalization strategies for recommender systems. 2023. 99 f. Tese (Doutorado em Ciência da Computação) Instituto de Computação, Universidade Federal da Bahia, Salvador, BA, 2023.
Tipo de Acesso:	Acesso Aberto
URI:	https://repositorio.ufba.br/handle/ri/39279
Data do documento:	28-Set-2023
Aparece nas coleções:	Tese (PGCOMP)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Silva-Gabriela-Tese-PGCOMP-2023-Exploiting_Lod_Based_Similarity_Personalization_Strategies_for_Recommender_Systems.pdf		10,63 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas

DSpace JSPUI

O DSpace preserva e provê acesso fácil e aberto a todos os tipos de objetos digitais, incluindo: textos, imagens, vídeos e conjuntos de dados