Name: | Description: | Size: | Format: | |
---|---|---|---|---|
12.8 MB | Adobe PDF |
Authors
Abstract(s)
Abstract
In the current context, where the amount of data grows exponentially, organizations face increasing challenges in managing large volumes of unprocessed data. With this increase and technological advances, traditional data analysis methods have become insufficient to extract insights efficiently and in real time. The main objective of this project is to develop an analysis pipeline based on Artificial Intelligence (AI), capable of transforming raw data into insights that support informed decision-making. This pipeline covers the entire data lifecycle, from its ingestion and preparation, through the creation of Machine Learning (ML) models, to the generation of interactive visualizations. Furthermore, Natural Language Processing (NLP) techniques and an easy-to-use interface are integrated, with the aim of maximizing the efficiency and accessibility of results. An essential part of this work was the study of the integration of the BERTopic model, an advanced topic modeling technique that uses language embeddings for the automatic extraction of significant topics in large volumes of unstructured textual data. This approach makes it possible to identify linguistic patterns and trends, providing valuable insights into areas such as customer service, risk management and anomaly detection. To ensure maximum use of data, features such as automatic identification of data types (numeric, categorical, boolean, etc.), treatment of missing values, vectorization, detection of outliers and automated generation of statistical summaries were implemented. Furthermore, normalization and automatic selection techniques for features were used, allowing the complexity of the data to be reduced and ensuring that the insights generated were robust and accurate. In order to carry out a detailed analysis of patterns and trends in the data, ML techniques were applied, specifically unsupervised learning, through clustering algorithms. This enabled practical recommendations that leverage the extracted insights, with the aim of optimizing areas such as customer service, risk management and anomaly detection.
No contexto atual, onde a quantidade de dados cresce exponencialmente, as organizações enfrentam desafios cada vez maiores na gestão de grandes volumes de dados não processados. Com esse aumento e os avanços tecnológicos, os métodos tradicionais de análise de dados tornaram-se insuficientes para extrair insights de forma eficiente e em tempo real. O principal objetivo deste projeto é desenvolver uma pipeline de análise baseada em Inteligência Artificial (IA), capaz de transformar dados brutos em insights que apoiem a tomada de decisões informadas. Esta pipeline abrange todo o ciclo de vida dos dados, desde a sua ingestão e preparação, passando pela criação de modelos de Machine Learning (ML), até à geração de visualizações interativas. Além disso, integram-se técnicas de Processamento de Linguagem Natural (PLN) e uma interface de fácil utilização, com o objetivo de maximizar a eficiência e acessibilidade dos resultados. Uma parte essencial deste trabalho foi o estudo sobre a integração do modelo BERTopic, uma técnica avançada de modelagem de tópicos que utiliza embeddings de linguagem para a extração automática de tópicos significativos em grandes volumes de dados textuais não estruturados. Esta abordagem possibilita a identificação de padrões e tendências linguísticas, fornecendo insights valiosos para áreas como atendimento ao cliente, gestão de riscos e deteção de anomalias. Para garantir o máximo aproveitamento dos dados, foram implementadas funcionalidades como a identificação automática de tipos de dados (numéricos, categóricos, booleanos, etc.), tratamento de valores ausentes, vetorização, deteção de outliers e geração automatizada de resumos estatísticos. Além disso, foram utilizadas técnicas de normalização e seleção automática de features, permitindo reduzir a complexidade dos dados e assegurar que os insights gerados fossem robustos e precisos. Com o intuito de realizar uma análise detalhada de padrões e tendências nos dados, foram aplicadas técnicas de ML, especificamente aprendizagem não-supervisionada, através de algoritmos de clustering. Isso possibilitou recomendações práticas que aproveitam os insights extraídos, com o objetivo de otimizar áreas como atendimento ao cliente, gestão de riscos e deteção de anomalias.
No contexto atual, onde a quantidade de dados cresce exponencialmente, as organizações enfrentam desafios cada vez maiores na gestão de grandes volumes de dados não processados. Com esse aumento e os avanços tecnológicos, os métodos tradicionais de análise de dados tornaram-se insuficientes para extrair insights de forma eficiente e em tempo real. O principal objetivo deste projeto é desenvolver uma pipeline de análise baseada em Inteligência Artificial (IA), capaz de transformar dados brutos em insights que apoiem a tomada de decisões informadas. Esta pipeline abrange todo o ciclo de vida dos dados, desde a sua ingestão e preparação, passando pela criação de modelos de Machine Learning (ML), até à geração de visualizações interativas. Além disso, integram-se técnicas de Processamento de Linguagem Natural (PLN) e uma interface de fácil utilização, com o objetivo de maximizar a eficiência e acessibilidade dos resultados. Uma parte essencial deste trabalho foi o estudo sobre a integração do modelo BERTopic, uma técnica avançada de modelagem de tópicos que utiliza embeddings de linguagem para a extração automática de tópicos significativos em grandes volumes de dados textuais não estruturados. Esta abordagem possibilita a identificação de padrões e tendências linguísticas, fornecendo insights valiosos para áreas como atendimento ao cliente, gestão de riscos e deteção de anomalias. Para garantir o máximo aproveitamento dos dados, foram implementadas funcionalidades como a identificação automática de tipos de dados (numéricos, categóricos, booleanos, etc.), tratamento de valores ausentes, vetorização, deteção de outliers e geração automatizada de resumos estatísticos. Além disso, foram utilizadas técnicas de normalização e seleção automática de features, permitindo reduzir a complexidade dos dados e assegurar que os insights gerados fossem robustos e precisos. Com o intuito de realizar uma análise detalhada de padrões e tendências nos dados, foram aplicadas técnicas de ML, especificamente aprendizagem não-supervisionada, através de algoritmos de clustering. Isso possibilitou recomendações práticas que aproveitam os insights extraídos, com o objetivo de otimizar áreas como atendimento ao cliente, gestão de riscos e deteção de anomalias.
Description
Trabalho de Projeto para obtenção do Grau de Mestre em Engenharia Informática e Multimédia
Keywords
Machine learning big data Data analytics Unsupervised learning AI-Powered analytics Data preprocessing BERTopic Natural language processing Clustering algorithms Feature selection Decision-Making Operational efficiency Data insights Análise de dados Aprendizagem não supervisionada Análise impulsionada por IA Pré-processamento de dados Processamento de linguagem natural Algoritmos de clustering Seleção de variáveis Tomada de decisões Eficiência operacional Insights de dados
Citation
PADEIRO, Ana Patrícia Correia – AI-Powered Analytics - generating interactive insights over unprocessed data. Lisboa: Instituto Superior de Engenharia de Lisboa. 2024. Dissertação de Mestrado.