Biblioteca Python para seleção de características em grandes dados

Amorim, Diogo Filipe Carvalhosa

http://hdl.handle.net/10400.21/21441

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
DiogoAmorim_MEIC.pdf		1.21 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Amorim, Diogo Filipe Carvalhosa

Orientador(es)

Pato, Matilde Pós-de-Mina

Datia, Nuno Miguel Soares

Resumo(s)

Na Mineração de Dados e Aprendizagem Automática, a Seleção de Atributos tem como objetivo otimizar modelos preditivos, eliminando características irrelevantes e redundantes do conjunto de dados original. Automatizar esse processo é desafiador devido à diversidade dos dados e domínios, tornando a generalização e automação da seleção de características uma tarefa complexa. O algoritmo Ensemble Feature Ranking (EFR), publicado em 2014 no artigo "Ensemble feature ranking applied to medical data", destaca-se pela sua capacidade de integrar vários métodos de filtragem e realizar múltiplas execuções em partições de dados reduzidas. Em 2021 foi criado um package na linguagem R que implementa uma versão melhorada do algoritmo EFR, sendo esta versão chamada de Enhanced Ensemble Feature Ranking (EEFR), generalização do algoritmo EFR, sendo capaz de ser aplicada a diversos domínios. Python foi uma das linguagens de programação mais usadas em 2023, sendo uma linguagem bastante usada em Mineração de Dados devido às bibliotecas que esta tem disponíveis, enquanto a linguagem R é muito menos usada. Tendo como base o package em R, fizemos uma reimplementação em Python deste algoritmo. Além disso, a versão em Python foi projetada com funcionalidades adicionais, como a seleção de classes e uma lista negra de características, permitindo que os usuários manipulem os dados de forma mais intuitiva. Outro destaque do trabalho é o desenvolvimento de um dashboard interativo, que visa aumentar a explicabilidade do algoritmo, essencial em áreas críticas como a medicina. O dashboard oferece uma visualização clara das métricas internas e do comportamento do algoritmo, promovendo transparência e compreensão nas decisões tomadas pelo modelo. Também se transformou esta versão em Python numa biblioteca. O trabalho inclui a análise de desempenho das implementações em ambas as linguagens, utilizando conjuntos de dados reais, que possuem características distintas em termos de dimensões e instâncias. Os testes foram realizados com diferentes métricas, além da implementação de conjuntos de dados sintéticos para explorar o impacto do número de instâncias e características.

Abstract In Data Mining (DM) and Machine Learning (ML), Feature Selection (FS) aims to optimize predictive models by eliminating irrelevant and redundant features from the original data set. Automating this process is challenging due to the diversity of data and domains, making generalization and automation of feature selection a complex task. The Ensemble Feature Ranking (EFR) algorithm, published in 2014 in the paper "Ensemble feature ranking applied to medical data,"stands out for its ability to integrate various filtering methods and perform multiple executions on reduced data partitions. In 2021, a package was created in the R language that implements an improved version of the EFR algorithm, called Enhanced Ensemble Feature Ranking (EEFR), which generalizes the EFR algorithm and can be applied to various domains. Python was one of the most used programming languages in 2023, being a widely used language in Data Mining due to the available libraries, while the R language is much less utilized. Based on the R package, we reimplemented this algorithm in Python. Additionally, the Python version was designed with additional features such as class selection and a blacklist of features, allowing users to manipulate data more intuitively. Another highlight of this work is the development of an interactive dashboard, which aims to increase the explainability of the algorithm, essential in critical areas such as medicine. The dashboard provides a clear visualization of internal metrics and the algorithm’s behavior, promoting transparency and understanding in the decisions made by the model. This version has also been transformed into a library in Python, making both the algorithm and the dashboard available. The work includes a performance analysis of the implementations in both languages, using real datasets that have distinct characteristics in terms of dimensions and instances. The tests were conducted with different metrics, along with the implementation of synthetic datasets to explore the impact of the number of instances and features.

Descrição

Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores

Palavras-chave

Seleção de caraterísticas Aprendizagem automática Filtros Conjunto de filtros Aprendizagem em conjunto Explicabilidade Feature selection Machine learning Filters Filter ensemble

URI

http://hdl.handle.net/10400.21/21441

Citação

AMORIM, Diogo Filipe Carvalhosa – Biblioteca Python para seleção de características em grandes dados. Lisboa: Instituto Superior de Engenharia de Lisboa. 2024. Dissertação de Mestrado.

Coleções

ISEL - Eng. Elect. Tel. Comp. - Dissertações de Mestrado

Licença CC

cclicense-by-nc-nd

Ver registo completo