Please use this identifier to cite or link to this item: http://hdl.handle.net/10400.21/8300
Title: Análise de soluções para Big Data Mining
Author: Junceira, João Miguel da Conceição
Advisor: Datia, Nuno Miguel Soares
Pato, Matilde Pós-de-Mina
Keywords: Big Data
Mineração de dados
Data mining
Classificação
Classification
Regressão
Regression
Apache spark
R
Defense Date: 21-Dec-2017
Publisher: Instituto Superior de Engenharia de Lisboa
Citation: JUNCEIRA, João Miguel da Conceição - Análise de soluções para Big Data Mining. Lisboa: Instituto Superior de Engenharia de Lisboa, 2017. Dissertação de mestrado.
Abstract: Minerar dados não é uma tarefa trivial. Exige o conhecimento de diversos conceitos e técnicas que não estão acessíveis para a maioria dos utilizadores. Ocrescente volume de dados e a maior consciencialização do valor que estes podem ter para as organizações levou a um maior número de pessoas a ter de os analisar. Nos últimos anos, surgiram ferramentas de mineração em larga escala com uma curva de aprendizagem maior face às suas congéneres clássicas. Usam armazenamento e processamento distribuído para lidar com a dimensão dos dados, o que trouxe novos problemas na implementação de soluções de mineração de dados. Este trabalho aborda o estado da arte das plataformas existentes e a sua evolução histórica. Usando como base uma plataforma de mineração em larga escala (Apache Spark) e uma plataforma clássica (R), elaborou-se o desenho de uma solução de classificação e regressão, independentemente das plataformas utilizadas. Concretizou-se essa solução para cada plataforma para perceber o ponto a partir do qual o desempenho das duas mais se afasta, indicando um possível retorno no investimento na aprendizagem das novas plataformas. Para o conjunto de dados usado, concluiu-se que o Apache Spark é mais vantajoso quando o número de instâncias atinge as 50 mil.
Mining data is a difficult task that requires knowledge of several concepts and techniques that are not available to the majority of users. Over the last years, Big Data Mining tools rose to prominence. However, they have a bigger learning curve, as compared with classic tools. Distributed storage and processing brought new problems in the implementation of Data mining solutions. The state of the art of existing platforms and their historical evolution was carried out. A solution and architecture independent of platforms and a description of the differences of implementation are detailed. Testing and benchmarking of performance making a comparison between large scale data mining platform Apache Spark and it’s classic counterpart R making clear to the user which scenario brings more advantages to the new platforms. Apache Spark has a clear advantage when tested with a dataset over 50 thousand instances.
Description: Dissertação para obtenção do grau de mestre em Engenharia Informática e de Computadores
Peer review: yes
URI: http://hdl.handle.net/10400.21/8300
Appears in Collections:ISEL - Eng. Elect. Tel. Comp. - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
Dissertação.pdf1,01 MBAdobe PDFView/Open


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote 

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.