Repository logo
 
No Thumbnail Available
Publication

Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR

Use this identifier to reference this record.
Name:Description:Size:Format: 
Dissertacao.pdf969.35 KBAdobe PDF Download

Abstract(s)

Em Mineração de Dados e Aprendizagem Automática, o processo de Seleção de Atri butos ou Seleção de Características, corresponde à tarefa de eliminar do conjunto de dados original, as características irrelevantes e redundantes, ou seja, aquelas que pouco contribuem como informação preditiva. O processo de Seleção de Características, para além de ser fundamental à otimização e viabilização da geração de modelos predi tivos, contribui diretamente para o processo de Extração de Conhecimento. Dada a diversidade do domínio do problema, aplicação e estrutura dos dados a analisar, a generalização e automatização do processo seleção de características é extremamente difícil. Sendo o esforço e tempo atribuído ao pré-processamento dos dados, uma parte substancial do esforço total atribuído a um processo de mineração de dados, uma contribuição na eficiência do processo de seleção de características é relevante para todo o processo mineração de dados. Entre as muitas técnicas e publicações efetuadas sobre o seleção de características, o algoritmo de Avaliação de Características, Ensemble Feature Ranking (EFR), tal como publicado em 2014 no artigo Ensemble feature ranking applied to medical data, tem o mérito de poder enquadrar no mesmo processo de seleção de características, um conjunto de diferentes métodos por filtragem, conjugado com um número arbitrário de execuções sobre partições do conjunto de dados com um número reduzido de instâncias, o que o tornam eficiente e adequado a conjuntos de dados de dimensionalidade elevada. Tendo como base o algoritmo EFR, pretende-se a reimplementação mais genérica, eficiente e automatizada desse algoritmo, disponibilizada num package em R, que possa ser reutilizado de forma simples e mais integrada num processo de mineração de dados.
In Data Mining and Machine Learning, Feature Selection process corresponds to the task of removing from the original data dataset, the irrelevant or redundant attributes, that is, those that present little predictive information. The feature selection process in addition to being fundamental to the optimization and in some cases to enable predictive models, contributes by itself to the Knowledge Discovery in Data. Given the problem domain diversity in data mining (application scope and structure and data types) on feature subset findings, the generalization of the process is extremely difficult. Since the effort and time allocated to data pre-processing is a substantial part of the total effort allocated to a data mining process, any contribution to the efficiency of the feature selection process is relevant for the entire data mining process. Among the many techniques and publications carried out on feature selection, the feature ranking algorithm "Ensemble feature ranking (EFR)", as published in 2014 in the article Ensem ble feature ranking applied to medical data, has the merit of being able to fit in the same feature selection process, a combined set of different filtering methods executed over an arbitrary number of random small size dataset partitions. Based on the Ensemble feature ranking (EFR) algorithm, the aim is to have a more generic, efficient and automated reimplementation of the algorithm, available in a R Package for Ensemble feature ranking, which can be reused in a simple and more integrated way in data mining processes.

Description

Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores

Keywords

Seleção de características Mineração de dados Avaliação de características Filtros Conjunto de filtros Feature selection Data mining Feature ranking Filters Filter ensemble

Citation

GOMES, Henrique Manuel Carvalho – Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR. Lisboa: Instituto Superior de Engenharia de Lisboa, 2021. Dissertação de Mestrado.

Research Projects

Organizational Units

Journal Issue

Publisher

Instituto Superior de Engenharia de Lisboa

CC License