Repository logo
 
Publication

Modelo de data mining para detecção de tumores em exames de rastreio

dc.contributor.authorSantos, Vitor Nuno Patrocínio dos
dc.date.accessioned2014-02-25T16:01:41Z
dc.date.available2014-02-25T16:01:41Z
dc.date.issued2013-09
dc.descriptionDissertação para obtenção do grau de Mestre em Engenharia Informática
dc.description.abstractO cancro da mama é uma das formas de cancro mais comum nas mulheres em todo o mundo. É actualmente o cancro, com excepção do cancro da pele, de maior incidência nas mulheres. A taxa de mortalidade que lhe está associada pode ser reduzida se a detecção ocorrer num estágio precoce da doença, normalmente, através de exames de rastreio designados por mamografias. Existem algumas ferramentas que digitalizam esses exames e extraem algumas características que depois de tratadas, permitem ajudar os especialistas a classificar os pacientes como doentes de cancro ou não. O objectivo deste trabalho é partir dessas características, construir e descrever um modelo de Data Mining para detecção do cancro da mama. É expectável que o modelo seja capaz de classificar correctamente todos os pacientes com cancro e, tenha um número reduzido de falsos positivos para evitar a realização de exames de diagnóstico invasivos em pacientes saudáveis. Os dados provenientes de exames médicos contêm diversos desafios, dada a dimensão e características dos dados, pelo que se torna necessário adoptar diversas técnicas de redução do conjunto e posteriormente avaliar o seu impacto nos resultados. São usadas diversas técnicas de selecção de atributos e balanceamento dos dados. São ainda comparados diversos algoritmos de aprendizagem, provenientes de diferentes famílias. É analisado e avaliado, o seu desempenho, face às diversas técnicas usadas na redução da dimensão dos dados. São usados meta-algoritmos como o ensemble, criado a partir da combinação de vários algoritmos base, tendo como objectivo a optimização da classificação. Os resultados obtidos por combinação destas técnicas são então comparados e avaliados. Verifica-se que alguns algoritmos cumprem os objectivos propostos Também se mostra que o uso de PCA incrementa substancialmente a prestação do Naive Bayes ao contrário do Random Forest onde o desempenho é significativamente penalizado. O balanceamento também tem impacto na classificação embora menos significativo. Um estudo de parametrização dos algoritmos analisados será um trabalho a desenvolver no futuro.por
dc.description.abstractAbstract: Breast cancer is one of the most common cancer in women worldwide. Nowadays, breast cancer is a type of cancer with higher incidence in women, excluding skin cancer. The mortality rate can be reduced if detection occurs at an earlier stage of disease, generally by means of screening tests known as mammograms. There are some tools in the market that digitize these exams, extract the features of the images and make that available to experts after treatment, helping them to classify the patients as cancer patients or not. The aim of this work is to construct and describe a data mining model for the detection of breast cancer, based on these features. It is expected that the model will be able to correctly classify all patients with cancer and reduce the number of false positives, avoiding invasive diagnostic tests in healthy patients. Data from medical exams contain many challenges, given the size and characteristics of the data, which makes it necessary to adopt several techniques to reduce the data set and then evaluate their impact on the results. Several techniques are used for feature selection and balancing the data. There is also a comparison of different learning algorithms from different families. Is analyzed and evaluated its performance considering the various techniques used to reduce the size of data. Ensembles are used to combine several basic algorithms, with the aim to optimize the classification process. The results obtained by combining these techniques are then compared and evaluated. It turns out that some algorithms meet their objectives. It is also shown that the use of PCA increases substantially the performance of Naive Bayes, unlike Random Forest where the performance is greatly penalized. The balancing also has impact on the classification, although that impact is less significant A study of parametrization of the studied algorithms shall be made in a future work.por
dc.identifier.citationSANTOS, Vitor Nuno Patrocínio dos Santos - Modelo da data mining para detecção de tumores em exames de rastreio. Lisboa: Instituto Superior de Engenharia de Lisboa, 2013. Dissertação de mestrado.por
dc.identifier.tid201226049
dc.identifier.urihttp://hdl.handle.net/10400.21/3243
dc.language.isoporpor
dc.peerreviewedyespor
dc.publisherInstituto Superior de Engenharia de Lisboa
dc.subjectData miningpor
dc.subjectCancro da mamapor
dc.subjectBreast cancerpor
dc.subjectSelecção de atributospor
dc.subjectFeature selectionpor
dc.subjectBalanceamento de dadospor
dc.subjectPrincipal componente analysispor
dc.subjectClassificaçaopor
dc.titleModelo de data mining para detecção de tumores em exames de rastreiopor
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspor
rcaap.typemasterThesispor

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
teseModeloDeDataMiningParaDeteccaoDeTumoresEmExamesDeRastreio.pdf
Size:
4.2 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: