Modelos de procesamiento del lenguaje natural basados en opiniones escritas por consumidores: aplicación en galletas
2024
Ortega Mota, Javier | Chaya Romero, Carolina
El Procesamiento del Lenguaje Natural (PLN) es el campo de la inteligencia Artificial, que se dedica a la interpretación del lenguaje. Con el auge de esta tecnología, su aplicación se ha extendido a diversos campos, tales como la medicina, el marketing y el desarrollo de nuevos productos. En el ámbito de la ciencia sensorial puede ser de gran ayuda para agilizar el tratamiento de datos de texto abierto y obtener inputs de mejora. Sin embargo, la aplicación en este campo es limitada por el momento, por eso con este Trabajo de Fin de Master se pretende explorar nuevas metodologías de la ciencia de consumidores aplicando el PLN a respuestas de texto abierto en comparación con escalas validadas. Durante las sesiones de cata se reunieron 703 datos de más de 200 participantes procedentes de la Universidad Politécnica de Madrid y el Basque Culinary Center, utilizando 3 tipos de galleta. Se desarrollaron distintos modelos con diversas metodologías, usando scikit-learn, fastText, spaCy y GPT-4. Se trabajó con una base de datos desbalanceada, con una alta proporción de datos positivos, y pocos datos negativos, esto ha podido lastrar el rendimiento de los modelos. Ninguno de los métodos propuestos destacó sobre otro, se analizaron un total de 7 categorías y cada uno de los modelos destacó por lo menos en una de ellas, a excepción de GPT-4. Por último, se evaluó la validez del método analizando las diferencias entre los datos reales y los datos predichos por los mejores modelos. No se encontraron diferencias significativas entre ambos conjuntos de datos, lo que sugiere que el método propuesto en este trabajo es prometedor. ABSTRACT Natural Language Processing (NLP) is a field within Artificial Intelligence dedicated to interpreting language. With the rise of this technology, it has been applied across various domains such as medicine, marketing, and product development. In the realm of sensory science, NLP can significantly expedite the processing of open-text data and provide valuable insights. However, its application in this field is currently limited. Therefore, this Master’s Thesis aims to explore novel methodologies in consumer science by applying NLP to open-text responses in comparison with validated scales. During the tasting sessions, data were collected from more than 200 participants from the Polytechnic University of Madrid and the Basque Culinary Center, using three types of cookies. Various models have been developed using tools such as scikit-learn, fastText, spaCy, and GPT. The study dealt with an imbalanced dataset, characterized by a high proportion of positive data and few negative data, which may have hindered the performance of the models. None of the proposed methods outperformed the others. A total of seven categories were analyzed, with each model excelling in at least one of them, except for GPT-4. Lastly, the validity of the method was evaluated by analyzing the differences between the actual data and the data predicted by the best models. No significant differences were found between the two datasets, suggesting that the method proposed in this work is promising.
Show more [+] Less [-]AGROVOC Keywords
Bibliographic information
This bibliographic record has been provided by Universidad Politécnica de Madrid