Modelo de data mining para detecção de tumores em exames de rastreio

Santos, Vitor Nuno Patrocínio dos

Publicação

Modelo de data mining para detecção de tumores em exames de rastreio

2013-09Dissertação de mestrado

dc.contributor.author	Santos, Vitor Nuno Patrocínio dos
dc.date.accessioned	2014-02-25T16:01:41Z
dc.date.available	2014-02-25T16:01:41Z
dc.date.issued	2013-09
dc.description	Dissertação para obtenção do grau de Mestre em Engenharia Informática
dc.description.abstract	O cancro da mama é uma das formas de cancro mais comum nas mulheres em todo o mundo. É actualmente o cancro, com excepção do cancro da pele, de maior incidência nas mulheres. A taxa de mortalidade que lhe está associada pode ser reduzida se a detecção ocorrer num estágio precoce da doença, normalmente, através de exames de rastreio designados por mamografias. Existem algumas ferramentas que digitalizam esses exames e extraem algumas características que depois de tratadas, permitem ajudar os especialistas a classificar os pacientes como doentes de cancro ou não. O objectivo deste trabalho é partir dessas características, construir e descrever um modelo de Data Mining para detecção do cancro da mama. É expectável que o modelo seja capaz de classificar correctamente todos os pacientes com cancro e, tenha um número reduzido de falsos positivos para evitar a realização de exames de diagnóstico invasivos em pacientes saudáveis. Os dados provenientes de exames médicos contêm diversos desafios, dada a dimensão e características dos dados, pelo que se torna necessário adoptar diversas técnicas de redução do conjunto e posteriormente avaliar o seu impacto nos resultados. São usadas diversas técnicas de selecção de atributos e balanceamento dos dados. São ainda comparados diversos algoritmos de aprendizagem, provenientes de diferentes famílias. É analisado e avaliado, o seu desempenho, face às diversas técnicas usadas na redução da dimensão dos dados. São usados meta-algoritmos como o ensemble, criado a partir da combinação de vários algoritmos base, tendo como objectivo a optimização da classificação. Os resultados obtidos por combinação destas técnicas são então comparados e avaliados. Verifica-se que alguns algoritmos cumprem os objectivos propostos Também se mostra que o uso de PCA incrementa substancialmente a prestação do Naive Bayes ao contrário do Random Forest onde o desempenho é significativamente penalizado. O balanceamento também tem impacto na classificação embora menos significativo. Um estudo de parametrização dos algoritmos analisados será um trabalho a desenvolver no futuro.	por
dc.description.abstract	Abstract: Breast cancer is one of the most common cancer in women worldwide. Nowadays, breast cancer is a type of cancer with higher incidence in women, excluding skin cancer. The mortality rate can be reduced if detection occurs at an earlier stage of disease, generally by means of screening tests known as mammograms. There are some tools in the market that digitize these exams, extract the features of the images and make that available to experts after treatment, helping them to classify the patients as cancer patients or not. The aim of this work is to construct and describe a data mining model for the detection of breast cancer, based on these features. It is expected that the model will be able to correctly classify all patients with cancer and reduce the number of false positives, avoiding invasive diagnostic tests in healthy patients. Data from medical exams contain many challenges, given the size and characteristics of the data, which makes it necessary to adopt several techniques to reduce the data set and then evaluate their impact on the results. Several techniques are used for feature selection and balancing the data. There is also a comparison of different learning algorithms from different families. Is analyzed and evaluated its performance considering the various techniques used to reduce the size of data. Ensembles are used to combine several basic algorithms, with the aim to optimize the classification process. The results obtained by combining these techniques are then compared and evaluated. It turns out that some algorithms meet their objectives. It is also shown that the use of PCA increases substantially the performance of Naive Bayes, unlike Random Forest where the performance is greatly penalized. The balancing also has impact on the classification, although that impact is less significant A study of parametrization of the studied algorithms shall be made in a future work.	por
dc.identifier.citation	SANTOS, Vitor Nuno Patrocínio dos Santos - Modelo da data mining para detecção de tumores em exames de rastreio. Lisboa: Instituto Superior de Engenharia de Lisboa, 2013. Dissertação de mestrado.	por
dc.identifier.tid	201226049
dc.identifier.uri	http://hdl.handle.net/10400.21/3243
dc.language.iso	por	por
dc.peerreviewed	yes	por
dc.publisher	Instituto Superior de Engenharia de Lisboa
dc.subject	Data mining	por
dc.subject	Cancro da mama	por
dc.subject	Breast cancer	por
dc.subject	Selecção de atributos	por
dc.subject	Feature selection	por
dc.subject	Balanceamento de dados	por
dc.subject	Principal componente analysis	por
dc.subject	Classificaçao	por
dc.title	Modelo de data mining para detecção de tumores em exames de rastreio	por
dc.type	master thesis
dspace.entity.type	Publication
rcaap.rights	openAccess	por
rcaap.type	masterThesis	por

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: teseModeloDeDataMiningParaDeteccaoDeTumoresEmExamesDeRastreio.pdf
Tamanho:: 4.2 MB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

ISEL - Eng. Elect. Tel. Comp. - Dissertações de Mestrado