A study about the influence of text specificity in the perceived helpfulness classification of online reviews

Lima, Beatriz Santana Fagundes Souza de

Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/34851

Tipo:	Dissertação
Título:	A study about the influence of text specificity in the perceived helpfulness classification of online reviews
Título(s) alternativo(s):	Um estudo sobre a influência da especificidade do texto na classificação de utilidade percebida de resenhas online
Autor(es):	Lima, Beatriz Santana Fagundes Souza de
Primeiro Orientador:	Rios, Tatiane Nogueira
metadata.dc.contributor.referee1:	Pardo, Thiago Alexandre Salgueiro
metadata.dc.contributor.referee2:	Marcacini, Ricardo Marcondes
Resumo:	Avaliações online são fontes de informação valiosas para auxiliar no processo de tomada de decisão, tanto para indivíduos quanto para empresas. No entanto, o grande volume de avaliações que têm baixa qualidade prejudica o processo de obter informações úteis dessas avaliações. Diversos websites de venda online oferecem um sistema de votação para permitir que consumidores classifiquem avaliações sobre produtos como úteis ou não-úteis. Contudo, esses votos costumam ser tendenciosos e a maioria das avaliações não recebe um voto sequer. Além disso, vários websites nem possuem esse mecanismo de votação ou qualquer outra funcionalidade para organizar as avaliações com base na sua utilidade. Portanto, classificar avaliações de acordo com sua utilidade é uma tarefa primordial para facilitar o acesso a um conteúdo verdadeiramente informativo. Nesse contexto, estudos anteriores desvendaram vários atributos e arquiteturas que são benéficos para a tarefa de predição da utilidade percebida. Neste trabalho, nós argumentamos que a especificidade textual, definida como o nível de detalhes expresso em um texto, pode influenciar a percepção da utilidade de avaliações e, consequentemente, pode ser também um novo aspecto linguístico relevante para modelar a predição da utilidade. Nós elaboramos duas abordagens para incorporar a especificidade nos modelos de classificação de utilidade: i) como atributos baseados na especificidade textual e ii) usando a predição da especificidade de avaliações como uma tarefa auxiliar em um modelo de Aprendizado Multitarefa (MTL). Primeiro, nós conduzimos experimentos com uma abordagem de adaptação de domínio não-supervisionada [Ko, Durrett and Li 2019] para rotular automaticamente o grau de especificidade em frases de avaliações online. Para avaliar os diferentes modelos treinados usando essa abordagem, nós propusemos uma medida chamada Specificity Prediction Evaluation (SPE), que é baseada na suposição que, em média, frases específicas tendem a ser mais longas que frases genéricas [Li and Nenkova 2015]. Para as 18 coleções de avaliações online usadas em todos os nossos experimentos, nós alcançamos predições de especificidade mais confiáveis, de acordo com o SPE, variando apenas o tamanho do conjunto de treinamento e o número de épocas de treinamento. Por fim, nós realizamos experimentos para avaliar a performance dos modelos de classificação de utilidade usando duas arquiteturas neurais: Convolutional Neural Network (CNN) [Kim 2014] e Bidirectional Encoder Representations from Transformers (BERT) [Devlin et al. 2019]. Em resumo, utilizando conjuntos de dados balanceados, os modelos CNN de classificação de utilidade percebida, incorporados com a especificidade textual - seja como atributos ou MTL - mostraram resultados de precisão significativamente maiores em comparação com um conhecido baseline usando SVM. Com o BERT, os experimentos mostraram que o MTL teve uma performance superior aos modelos Single-task Learning (STL) para a maioria dos 18 conjuntos de dados e tanto acurácia quanto precisão foram superiores em comparação com o SVM.
Abstract:	Online reviews are valuable sources of information to support the decision-making process, both for individuals and companies. Nevertheless, the large volume of reviews that have a low quality hinders the process of gathering helpful information from those reviews. Several retailers’ websites provide a voting system to allow customers to evaluate product reviews as helpful or not. However, those votes are often biased and most of the reviews do not receive any votes at all. Besides that, several websites do not even have this voting mechanism or any other component for organizing the reviews in terms of their helpfulness. Therefore, classifying reviews according to their helpfulness has paramount importance in facilitating access to truly informative content. In this context, previous studies have unveiled several features and architectures that are beneficial for the perceived helpfulness prediction. In the present work, we argue that text specificity, defined as the level of details expressed in a text, can influence the perception of review helpfulness and, consequently, can also be a novel useful linguistic aspect for modeling the helpfulness prediction. We proposed two approaches to incorporate the specificity aspect into helpfulness classification models: i) using hand-crafted features based on text specificity and ii) using the review specificity prediction as an auxiliary task in a Multitask Learning (MTL) setting. First, we conducted an unsupervised domain adaptation approach [Ko, Durrett and Li 2019] to label text specificity scores on sentences from online reviews automatically. To evaluate the different trained models using this approach, we proposed a measure named Specificity Prediction Evaluation (SPE), which is based on the assumption that, on average, reliable specific sentences tend to be longer than reliable general sentences [Li and Nenkova 2015]. For the 18 collections of online reviews used in all of our experiments, we could achieve more reliable specificity predictions, according to SPE, by varying only the training set size and the number of training epochs. Finally, we performed experiments to assess the performance of the helpfulness classification models using two neural architectures: Convolutional Neural Network (CNN) [Kim 2014] and Bidirectional Encoder Representations from Transformers (BERT) [Devlin et al. 2019]. In summary, using balanced datasets, the perceived helpfulness classification models, embodied with text specificity - either as features or MTL - showed significantly higher precision results in comparison to a popular SVM baseline when using CNN. With BERT, the experiments showed that MTL outperformed the single-task models for most of the 18 datasets and both accuracy and precision were improved compared to the SVM baseline.
Palavras-chave:	Helpfulness prediction Text specificity Online reviews Text classification Feature engineering Multitask learning Opinion mining Natural language processing Previsão de utilidade Especificidade do texto Avaliações on-line Classificação de texto Engenharia de recursos Aprendizagem multitarefa Mineração de opinião Processamento de linguagem natural Mineração de dados (Computação)
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::ENGENHARIA DE SOFTWARE
Idioma:	eng
País:	Brasil
Editora / Evento / Instituição:	Universidade Federal da Bahia
Sigla da Instituição:	UFBA
metadata.dc.publisher.department:	Instituto de Matemática
metadata.dc.publisher.program:	Programa de Pós-Graduação em Ciência da Computação (PGCOMP)
Citação:	LIMA, Beatriz Santana Fagundes Souza de. A study about the influence of text specificity in the perceived helpfulness classification of online reviews. 2021. 105 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador, Bahia, 2021.
Tipo de Acesso:	Acesso Aberto
URI:	https://repositorio.ufba.br/handle/ri/34851
Data do documento:	15-Dez-2021
Aparece nas coleções:	Dissertação (PGCOMP)

Arquivos associados a este item:

Não existem arquivos associados a este item.

Mostrar registro completo do item Visualizar estatísticas