Repository logo
 
No Thumbnail Available
Publication

Análise de soluções para Big Data Mining

Use this identifier to reference this record.
Name:Description:Size:Format: 
Dissertação.pdf1010.21 KBAdobe PDF Download

Abstract(s)

Minerar dados não é uma tarefa trivial. Exige o conhecimento de diversos conceitos e técnicas que não estão acessíveis para a maioria dos utilizadores. Ocrescente volume de dados e a maior consciencialização do valor que estes podem ter para as organizações levou a um maior número de pessoas a ter de os analisar. Nos últimos anos, surgiram ferramentas de mineração em larga escala com uma curva de aprendizagem maior face às suas congéneres clássicas. Usam armazenamento e processamento distribuído para lidar com a dimensão dos dados, o que trouxe novos problemas na implementação de soluções de mineração de dados. Este trabalho aborda o estado da arte das plataformas existentes e a sua evolução histórica. Usando como base uma plataforma de mineração em larga escala (Apache Spark) e uma plataforma clássica (R), elaborou-se o desenho de uma solução de classificação e regressão, independentemente das plataformas utilizadas. Concretizou-se essa solução para cada plataforma para perceber o ponto a partir do qual o desempenho das duas mais se afasta, indicando um possível retorno no investimento na aprendizagem das novas plataformas. Para o conjunto de dados usado, concluiu-se que o Apache Spark é mais vantajoso quando o número de instâncias atinge as 50 mil.
Mining data is a difficult task that requires knowledge of several concepts and techniques that are not available to the majority of users. Over the last years, Big Data Mining tools rose to prominence. However, they have a bigger learning curve, as compared with classic tools. Distributed storage and processing brought new problems in the implementation of Data mining solutions. The state of the art of existing platforms and their historical evolution was carried out. A solution and architecture independent of platforms and a description of the differences of implementation are detailed. Testing and benchmarking of performance making a comparison between large scale data mining platform Apache Spark and it’s classic counterpart R making clear to the user which scenario brings more advantages to the new platforms. Apache Spark has a clear advantage when tested with a dataset over 50 thousand instances.

Description

Dissertação para obtenção do grau de mestre em Engenharia Informática e de Computadores

Keywords

Big Data Mineração de dados Data mining Classificação Classification Regressão Regression Apache spark R

Citation

JUNCEIRA, João Miguel da Conceição - Análise de soluções para Big Data Mining. Lisboa: Instituto Superior de Engenharia de Lisboa, 2017. Dissertação de mestrado.

Research Projects

Organizational Units

Journal Issue

Publisher

Instituto Superior de Engenharia de Lisboa

CC License