Repository logo
 
Publication

Análise de soluções para Big Data Mining

dc.contributor.advisorDatia, Nuno Miguel Soares
dc.contributor.advisorPato, Matilde Pós-de-Mina
dc.contributor.authorJunceira, João Miguel da Conceição
dc.date.accessioned2018-03-27T19:33:31Z
dc.date.available2018-03-27T19:33:31Z
dc.date.issued2017-12-21
dc.descriptionDissertação para obtenção do grau de mestre em Engenharia Informática e de Computadorespt_PT
dc.description.abstractMinerar dados não é uma tarefa trivial. Exige o conhecimento de diversos conceitos e técnicas que não estão acessíveis para a maioria dos utilizadores. Ocrescente volume de dados e a maior consciencialização do valor que estes podem ter para as organizações levou a um maior número de pessoas a ter de os analisar. Nos últimos anos, surgiram ferramentas de mineração em larga escala com uma curva de aprendizagem maior face às suas congéneres clássicas. Usam armazenamento e processamento distribuído para lidar com a dimensão dos dados, o que trouxe novos problemas na implementação de soluções de mineração de dados. Este trabalho aborda o estado da arte das plataformas existentes e a sua evolução histórica. Usando como base uma plataforma de mineração em larga escala (Apache Spark) e uma plataforma clássica (R), elaborou-se o desenho de uma solução de classificação e regressão, independentemente das plataformas utilizadas. Concretizou-se essa solução para cada plataforma para perceber o ponto a partir do qual o desempenho das duas mais se afasta, indicando um possível retorno no investimento na aprendizagem das novas plataformas. Para o conjunto de dados usado, concluiu-se que o Apache Spark é mais vantajoso quando o número de instâncias atinge as 50 mil.pt_PT
dc.description.abstractMining data is a difficult task that requires knowledge of several concepts and techniques that are not available to the majority of users. Over the last years, Big Data Mining tools rose to prominence. However, they have a bigger learning curve, as compared with classic tools. Distributed storage and processing brought new problems in the implementation of Data mining solutions. The state of the art of existing platforms and their historical evolution was carried out. A solution and architecture independent of platforms and a description of the differences of implementation are detailed. Testing and benchmarking of performance making a comparison between large scale data mining platform Apache Spark and it’s classic counterpart R making clear to the user which scenario brings more advantages to the new platforms. Apache Spark has a clear advantage when tested with a dataset over 50 thousand instances.en
dc.description.versionN/Apt_PT
dc.identifier.citationJUNCEIRA, João Miguel da Conceição - Análise de soluções para Big Data Mining. Lisboa: Instituto Superior de Engenharia de Lisboa, 2017. Dissertação de mestrado.pt_PT
dc.identifier.tid201893770
dc.identifier.urihttp://hdl.handle.net/10400.21/8300
dc.language.isoporpt_PT
dc.peerreviewedyespt_PT
dc.publisherInstituto Superior de Engenharia de Lisboapt_PT
dc.subjectBig Dataen
dc.subjectMineração de dadospt_PT
dc.subjectData miningen
dc.subjectClassificaçãopt_PT
dc.subjectClassificationen
dc.subjectRegressãopt_PT
dc.subjectRegressionen
dc.subjectApache sparken
dc.subjectRpt_PT
dc.titleAnálise de soluções para Big Data Miningpt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
Dissertação.pdf
Size:
1010.21 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: