Name: | Description: | Size: | Format: | |
---|---|---|---|---|
1010.21 KB | Adobe PDF |
Abstract(s)
Minerar dados não é uma tarefa trivial. Exige o conhecimento de diversos conceitos
e técnicas que não estão acessíveis para a maioria dos utilizadores. Ocrescente
volume de dados e a maior consciencialização do valor que estes podem ter para
as organizações levou a um maior número de pessoas a ter de os analisar.
Nos últimos anos, surgiram ferramentas de mineração em larga escala com uma
curva de aprendizagem maior face às suas congéneres clássicas. Usam armazenamento
e processamento distribuído para lidar com a dimensão dos dados, o que
trouxe novos problemas na implementação de soluções de mineração de dados.
Este trabalho aborda o estado da arte das plataformas existentes e a sua evolução
histórica. Usando como base uma plataforma de mineração em larga escala (Apache
Spark) e uma plataforma clássica (R), elaborou-se o desenho de uma solução
de classificação e regressão, independentemente das plataformas utilizadas.
Concretizou-se essa solução para cada plataforma para perceber o ponto a partir
do qual o desempenho das duas mais se afasta, indicando um possível retorno
no investimento na aprendizagem das novas plataformas.
Para o conjunto de dados usado, concluiu-se que o Apache Spark é mais vantajoso
quando o número de instâncias atinge as 50 mil.
Mining data is a difficult task that requires knowledge of several concepts and techniques that are not available to the majority of users. Over the last years, Big Data Mining tools rose to prominence. However, they have a bigger learning curve, as compared with classic tools. Distributed storage and processing brought new problems in the implementation of Data mining solutions. The state of the art of existing platforms and their historical evolution was carried out. A solution and architecture independent of platforms and a description of the differences of implementation are detailed. Testing and benchmarking of performance making a comparison between large scale data mining platform Apache Spark and it’s classic counterpart R making clear to the user which scenario brings more advantages to the new platforms. Apache Spark has a clear advantage when tested with a dataset over 50 thousand instances.
Mining data is a difficult task that requires knowledge of several concepts and techniques that are not available to the majority of users. Over the last years, Big Data Mining tools rose to prominence. However, they have a bigger learning curve, as compared with classic tools. Distributed storage and processing brought new problems in the implementation of Data mining solutions. The state of the art of existing platforms and their historical evolution was carried out. A solution and architecture independent of platforms and a description of the differences of implementation are detailed. Testing and benchmarking of performance making a comparison between large scale data mining platform Apache Spark and it’s classic counterpart R making clear to the user which scenario brings more advantages to the new platforms. Apache Spark has a clear advantage when tested with a dataset over 50 thousand instances.
Description
Dissertação para obtenção do grau de mestre em Engenharia Informática e de Computadores
Keywords
Big Data Mineração de dados Data mining Classificação Classification Regressão Regression Apache spark R
Citation
JUNCEIRA, João Miguel da Conceição - Análise de soluções para Big Data Mining. Lisboa: Instituto Superior de Engenharia de Lisboa, 2017. Dissertação de mestrado.
Publisher
Instituto Superior de Engenharia de Lisboa