Repository logo
 
Publication

Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR

dc.contributor.advisorDatia, Nuno Miguel Soares
dc.contributor.advisorPato, Matilde Pós-de-Mina
dc.contributor.authorGomes, Henrique Manuel Carvalho
dc.date.accessioned2022-01-31T11:31:33Z
dc.date.available2022-01-31T11:31:33Z
dc.date.issued2021-12
dc.descriptionDissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores
dc.description.abstractEm Mineração de Dados e Aprendizagem Automática, o processo de Seleção de Atri butos ou Seleção de Características, corresponde à tarefa de eliminar do conjunto de dados original, as características irrelevantes e redundantes, ou seja, aquelas que pouco contribuem como informação preditiva. O processo de Seleção de Características, para além de ser fundamental à otimização e viabilização da geração de modelos predi tivos, contribui diretamente para o processo de Extração de Conhecimento. Dada a diversidade do domínio do problema, aplicação e estrutura dos dados a analisar, a generalização e automatização do processo seleção de características é extremamente difícil. Sendo o esforço e tempo atribuído ao pré-processamento dos dados, uma parte substancial do esforço total atribuído a um processo de mineração de dados, uma contribuição na eficiência do processo de seleção de características é relevante para todo o processo mineração de dados. Entre as muitas técnicas e publicações efetuadas sobre o seleção de características, o algoritmo de Avaliação de Características, Ensemble Feature Ranking (EFR), tal como publicado em 2014 no artigo Ensemble feature ranking applied to medical data, tem o mérito de poder enquadrar no mesmo processo de seleção de características, um conjunto de diferentes métodos por filtragem, conjugado com um número arbitrário de execuções sobre partições do conjunto de dados com um número reduzido de instâncias, o que o tornam eficiente e adequado a conjuntos de dados de dimensionalidade elevada. Tendo como base o algoritmo EFR, pretende-se a reimplementação mais genérica, eficiente e automatizada desse algoritmo, disponibilizada num package em R, que possa ser reutilizado de forma simples e mais integrada num processo de mineração de dados.pt_PT
dc.description.abstractIn Data Mining and Machine Learning, Feature Selection process corresponds to the task of removing from the original data dataset, the irrelevant or redundant attributes, that is, those that present little predictive information. The feature selection process in addition to being fundamental to the optimization and in some cases to enable predictive models, contributes by itself to the Knowledge Discovery in Data. Given the problem domain diversity in data mining (application scope and structure and data types) on feature subset findings, the generalization of the process is extremely difficult. Since the effort and time allocated to data pre-processing is a substantial part of the total effort allocated to a data mining process, any contribution to the efficiency of the feature selection process is relevant for the entire data mining process. Among the many techniques and publications carried out on feature selection, the feature ranking algorithm "Ensemble feature ranking (EFR)", as published in 2014 in the article Ensem ble feature ranking applied to medical data, has the merit of being able to fit in the same feature selection process, a combined set of different filtering methods executed over an arbitrary number of random small size dataset partitions. Based on the Ensemble feature ranking (EFR) algorithm, the aim is to have a more generic, efficient and automated reimplementation of the algorithm, available in a R Package for Ensemble feature ranking, which can be reused in a simple and more integrated way in data mining processes.pt_PT
dc.description.versioninfo:eu-repo/semantics/publishedVersionpt_PT
dc.identifier.citationGOMES, Henrique Manuel Carvalho – Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR. Lisboa: Instituto Superior de Engenharia de Lisboa, 2021. Dissertação de Mestrado.pt_PT
dc.identifier.tid202912175
dc.identifier.urihttp://hdl.handle.net/10400.21/14229
dc.language.isoporpt_PT
dc.publisherInstituto Superior de Engenharia de Lisboapt_PT
dc.subjectSeleção de característicaspt_PT
dc.subjectMineração de dadospt_PT
dc.subjectAvaliação de característicaspt_PT
dc.subjectFiltrospt_PT
dc.subjectConjunto de filtrospt_PT
dc.subjectFeature selectionpt_PT
dc.subjectData miningpt_PT
dc.subjectFeature rankingpt_PT
dc.subjectFilterspt_PT
dc.subjectFilter ensemblept_PT
dc.titleDesenvolvimento de um package em R para Ensemble Feature Ranking – EFRpt_PT
dc.typemaster thesis
dspace.entity.typePublication
oaire.citation.endPage86pt_PT
oaire.citation.startPage1pt_PT
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
Dissertacao.pdf
Size:
969.35 KB
Format:
Adobe Portable Document Format