Repository logo
 
Publication

Clinical data mining and classification

dc.contributor.advisorFerreira, Artur Jorge
dc.contributor.authorNogueira, Adara Stéfanny Rodrigues
dc.date.accessioned2023-09-22T14:21:01Z
dc.date.available2023-09-22T14:21:01Z
dc.date.issued2022
dc.descriptionDissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadorespt_PT
dc.description.abstractDeterminar os genes que contribuem para o desenvolvimento de certas doenças, como o cancro, é um objectivo importante na vanguarda da investigação clínica de hoje. Isto pode fornecer conhecimentos sobre como as doenças se desenvolvem, pode levar a novos tratamentos e a testes de diagnóstico que detectam doenças mais cedo no seu desenvolvimento, aumentando as hipóteses de recuperação dos pacientes. Hoje em dia, muitos conjuntos de dados de expressão genética estão disponíveis publicamente. Estes consistem geralmente em dados de microarray com informação sobre a activação (ou não) de milhares de genes, em pacientes específicos, que exibem uma determinada doença. No entanto, estes conjuntos de dados clínicos consistem em vetores de características de elevada dimensionalidade, o que levanta dificuldades à análise humana clínica e à interpretabilidade - dadas as grandes quantidades de características e as quantidades comparativamente pequenas de instâncias, é difícil identificar os genes mais relevantes relacionados com a presença de uma determinada doença. Nesta tese, exploramos a utilização da discretização de características, selecção de características e técnicas de classificação aplicadas ao problema de identificação do conjunto mais relevante de características (genes), dentro de conjuntos de dados de microarray, que podem prever a presença de uma dada doença. Construímos um pipeline onde aplicamos diferentes técnicas de discretização, selecção e classificação, a diferentes conjuntos de dados, e comparamos/interpretamos os resultados obtidos com cada combinação de técnicas. Na maioria dos conjuntos de dados, conseguimos obter erros de classificação mais baixos aplicando quer técnicas de discretização quer técnicas de selecção (mas não ambas). Ao aplicar técnicas de selecção, conseguimos também reduzir o número de características alimentadas a cada classificador, mantendo ou melhorando os resultados da classificação. Estes pequenos subconjuntos de genes são assim mais fáceis de interpretar pelos especialistas clínicos humanos, melhorando a explicabilidade dos resultados.pt_PT
dc.description.abstractDetermining which genes contribute to the development of certain diseases, such as cancer, is an important goal in the forefront of today’s clinical research. This can provide insights on how diseases develop, can lead to new treatments and to diagnostic tests that detect diseases earlier in their development, increasing patients chances of recovery. Today, many gene expression datasets are publicly available. These generally consist of DNA microarray data with information on the activation (or not) of thousands of genes, in specific patients, that exhibit a certain disease. However, these clinical datasets consist of high-dimensional feature vectors, which raises difficulties for clinical human analysis and interpretability - given the large amounts of features and the comparatively small amounts of instances, it is difficult to identify the most relevant genes related to the presence of a particular disease. In this thesis, we explore the usage of feature discretization, feature selection, and classification techniques applied towards the problem of identifying the most relevant set of features (genes), within DNA microarray datasets, that can predict the presence of a given disease. We propose a machine learning pipeline with different feature discretization, feature selection, and classification techniques, to different datasets, and compare/interpret the achieved results with different combinations of techniques. On most datasets, we were able to obtain lower classification errors by applying either feature discretization or feature selection techniques (but not both). When applying feature selection techniques, we were also able to reduce the number of features fed to each classifier, while maintaining or improving the classification results. These smaller subsets of genes are thus easier to interpret by human clinical experts, improving the explainability of the results.
dc.description.versionN/Apt_PT
dc.identifier.citationNOGUEIRA, Adara Stéfanny Rodrigues - Clinical data mining and classification. Lisboa: Instituto Superior de Engenharia de Lisboa, 2022. Dissertação de Mestrado.pt_PT
dc.identifier.tid203352823
dc.identifier.urihttp://hdl.handle.net/10400.21/16504
dc.language.isoengpt_PT
dc.peerreviewedyespt_PT
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/pt_PT
dc.subjectSeleção de característicaspt_PT
dc.subjectDiscretização de característicaspt_PT
dc.subjectDados de microarraypt_PT
dc.subjectCancropt_PT
dc.subjectExplicabilidade da classificaçãopt_PT
dc.subjectFeature selection
dc.subjectFeature discretization
dc.subjectMicroarray data
dc.subjectCancer
dc.subjectExplainability of classification
dc.titleClinical data mining and classificationpt_PT
dc.typemaster thesis
dspace.entity.typePublication
oaire.citation.conferencePlaceLisboa: Instituto Superior de Engenharia de Lisboapt_PT
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
AdaraNogueira_43806_MEIC.pdf
Size:
23.33 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: