Repository logo
 
Publication

AI-Powered analytics: generating interactive insights over unprocessed data

authorProfile.emailbiblioteca@isel.pt
dc.contributor.advisorGomes, Ana Luísa Gonçalves Neves
dc.contributor.advisorMarques, Gonçalo Caetano
dc.contributor.authorPadeiro, Ana Patrícia Correia
dc.date.accessioned2025-03-12T11:11:38Z
dc.date.available2025-03-12T11:11:38Z
dc.date.issued2024-12
dc.descriptionTrabalho de Projeto para obtenção do Grau de Mestre em Engenharia Informática e Multimédia
dc.description.abstractAbstract In the current context, where the amount of data grows exponentially, organizations face increasing challenges in managing large volumes of unprocessed data. With this increase and technological advances, traditional data analysis methods have become insufficient to extract insights efficiently and in real time. The main objective of this project is to develop an analysis pipeline based on Artificial Intelligence (AI), capable of transforming raw data into insights that support informed decision-making. This pipeline covers the entire data lifecycle, from its ingestion and preparation, through the creation of Machine Learning (ML) models, to the generation of interactive visualizations. Furthermore, Natural Language Processing (NLP) techniques and an easy-to-use interface are integrated, with the aim of maximizing the efficiency and accessibility of results. An essential part of this work was the study of the integration of the BERTopic model, an advanced topic modeling technique that uses language embeddings for the automatic extraction of significant topics in large volumes of unstructured textual data. This approach makes it possible to identify linguistic patterns and trends, providing valuable insights into areas such as customer service, risk management and anomaly detection. To ensure maximum use of data, features such as automatic identification of data types (numeric, categorical, boolean, etc.), treatment of missing values, vectorization, detection of outliers and automated generation of statistical summaries were implemented. Furthermore, normalization and automatic selection techniques for features were used, allowing the complexity of the data to be reduced and ensuring that the insights generated were robust and accurate. In order to carry out a detailed analysis of patterns and trends in the data, ML techniques were applied, specifically unsupervised learning, through clustering algorithms. This enabled practical recommendations that leverage the extracted insights, with the aim of optimizing areas such as customer service, risk management and anomaly detection.eng
dc.description.abstractNo contexto atual, onde a quantidade de dados cresce exponencialmente, as organizações enfrentam desafios cada vez maiores na gestão de grandes volumes de dados não processados. Com esse aumento e os avanços tecnológicos, os métodos tradicionais de análise de dados tornaram-se insuficientes para extrair insights de forma eficiente e em tempo real. O principal objetivo deste projeto é desenvolver uma pipeline de análise baseada em Inteligência Artificial (IA), capaz de transformar dados brutos em insights que apoiem a tomada de decisões informadas. Esta pipeline abrange todo o ciclo de vida dos dados, desde a sua ingestão e preparação, passando pela criação de modelos de Machine Learning (ML), até à geração de visualizações interativas. Além disso, integram-se técnicas de Processamento de Linguagem Natural (PLN) e uma interface de fácil utilização, com o objetivo de maximizar a eficiência e acessibilidade dos resultados. Uma parte essencial deste trabalho foi o estudo sobre a integração do modelo BERTopic, uma técnica avançada de modelagem de tópicos que utiliza embeddings de linguagem para a extração automática de tópicos significativos em grandes volumes de dados textuais não estruturados. Esta abordagem possibilita a identificação de padrões e tendências linguísticas, fornecendo insights valiosos para áreas como atendimento ao cliente, gestão de riscos e deteção de anomalias. Para garantir o máximo aproveitamento dos dados, foram implementadas funcionalidades como a identificação automática de tipos de dados (numéricos, categóricos, booleanos, etc.), tratamento de valores ausentes, vetorização, deteção de outliers e geração automatizada de resumos estatísticos. Além disso, foram utilizadas técnicas de normalização e seleção automática de features, permitindo reduzir a complexidade dos dados e assegurar que os insights gerados fossem robustos e precisos. Com o intuito de realizar uma análise detalhada de padrões e tendências nos dados, foram aplicadas técnicas de ML, especificamente aprendizagem não-supervisionada, através de algoritmos de clustering. Isso possibilitou recomendações práticas que aproveitam os insights extraídos, com o objetivo de otimizar áreas como atendimento ao cliente, gestão de riscos e deteção de anomalias.por
dc.identifier.citationPADEIRO, Ana Patrícia Correia – AI-Powered Analytics - generating interactive insights over unprocessed data. Lisboa: Instituto Superior de Engenharia de Lisboa. 2024. Dissertação de Mestrado.
dc.identifier.tid203806166
dc.identifier.urihttp://hdl.handle.net/10400.21/21655
dc.language.isoeng
dc.peerreviewedyes
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectMachine learning big data
dc.subjectData analytics
dc.subjectUnsupervised learning
dc.subjectAI-Powered analytics
dc.subjectData preprocessing
dc.subjectBERTopic
dc.subjectNatural language processing
dc.subjectClustering algorithms
dc.subjectFeature selection
dc.subjectDecision-Making
dc.subjectOperational efficiency
dc.subjectData insights
dc.subjectAnálise de dados
dc.subjectAprendizagem não supervisionada
dc.subjectAnálise impulsionada por IA
dc.subjectPré-processamento de dados
dc.subjectProcessamento de linguagem natural
dc.subjectAlgoritmos de clustering
dc.subjectSeleção de variáveis
dc.subjectTomada de decisões
dc.subjectEficiência operacional
dc.subjectInsights de dados
dc.titleAI-Powered analytics: generating interactive insights over unprocessed dataeng
dc.typemaster thesis
dspace.entity.typePublication
oaire.citation.endPage117
oaire.citation.startPage1
oaire.versionhttp://purl.org/coar/version/c_be7fb7dd8ff6fe43

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
AnaPadeiro_MEIM.pdf
Size:
12.8 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.03 KB
Format:
Item-specific license agreed upon to submission
Description: