Browsing by Author "Amorim, Diogo Filipe Carvalhosa"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- Biblioteca Python para seleção de características em grandes dadosPublication . Amorim, Diogo Filipe Carvalhosa; Pato, Matilde Pós-de-Mina; Datia, Nuno Miguel SoaresNa Mineração de Dados e Aprendizagem Automática, a Seleção de Atributos tem como objetivo otimizar modelos preditivos, eliminando características irrelevantes e redundantes do conjunto de dados original. Automatizar esse processo é desafiador devido à diversidade dos dados e domínios, tornando a generalização e automação da seleção de características uma tarefa complexa. O algoritmo Ensemble Feature Ranking (EFR), publicado em 2014 no artigo "Ensemble feature ranking applied to medical data", destaca-se pela sua capacidade de integrar vários métodos de filtragem e realizar múltiplas execuções em partições de dados reduzidas. Em 2021 foi criado um package na linguagem R que implementa uma versão melhorada do algoritmo EFR, sendo esta versão chamada de Enhanced Ensemble Feature Ranking (EEFR), generalização do algoritmo EFR, sendo capaz de ser aplicada a diversos domínios. Python foi uma das linguagens de programação mais usadas em 2023, sendo uma linguagem bastante usada em Mineração de Dados devido às bibliotecas que esta tem disponíveis, enquanto a linguagem R é muito menos usada. Tendo como base o package em R, fizemos uma reimplementação em Python deste algoritmo. Além disso, a versão em Python foi projetada com funcionalidades adicionais, como a seleção de classes e uma lista negra de características, permitindo que os usuários manipulem os dados de forma mais intuitiva. Outro destaque do trabalho é o desenvolvimento de um dashboard interativo, que visa aumentar a explicabilidade do algoritmo, essencial em áreas críticas como a medicina. O dashboard oferece uma visualização clara das métricas internas e do comportamento do algoritmo, promovendo transparência e compreensão nas decisões tomadas pelo modelo. Também se transformou esta versão em Python numa biblioteca. O trabalho inclui a análise de desempenho das implementações em ambas as linguagens, utilizando conjuntos de dados reais, que possuem características distintas em termos de dimensões e instâncias. Os testes foram realizados com diferentes métricas, além da implementação de conjuntos de dados sintéticos para explorar o impacto do número de instâncias e características.