Please use this identifier to cite or link to this item:
http://hdl.handle.net/10400.21/8300| Title: | Análise de soluções para Big Data Mining |
| Author: | Junceira, João Miguel da Conceição |
| Advisor: | Datia, Nuno Miguel Soares Pato, Matilde Pós-de-Mina |
| Keywords: | Big Data Mineração de dados Data mining Classificação Classification Regressão Regression Apache spark R |
| Defense Date: | 21-Dec-2017 |
| Publisher: | Instituto Superior de Engenharia de Lisboa |
| Citation: | JUNCEIRA, João Miguel da Conceição - Análise de soluções para Big Data Mining. Lisboa: Instituto Superior de Engenharia de Lisboa, 2017. Dissertação de mestrado. |
| Abstract: | Minerar dados não é uma tarefa trivial. Exige o conhecimento de diversos conceitos
e técnicas que não estão acessíveis para a maioria dos utilizadores. Ocrescente
volume de dados e a maior consciencialização do valor que estes podem ter para
as organizações levou a um maior número de pessoas a ter de os analisar.
Nos últimos anos, surgiram ferramentas de mineração em larga escala com uma
curva de aprendizagem maior face às suas congéneres clássicas. Usam armazenamento
e processamento distribuído para lidar com a dimensão dos dados, o que
trouxe novos problemas na implementação de soluções de mineração de dados.
Este trabalho aborda o estado da arte das plataformas existentes e a sua evolução
histórica. Usando como base uma plataforma de mineração em larga escala (Apache
Spark) e uma plataforma clássica (R), elaborou-se o desenho de uma solução
de classificação e regressão, independentemente das plataformas utilizadas.
Concretizou-se essa solução para cada plataforma para perceber o ponto a partir
do qual o desempenho das duas mais se afasta, indicando um possível retorno
no investimento na aprendizagem das novas plataformas.
Para o conjunto de dados usado, concluiu-se que o Apache Spark é mais vantajoso
quando o número de instâncias atinge as 50 mil. Mining data is a difficult task that requires knowledge of several concepts and techniques that are not available to the majority of users. Over the last years, Big Data Mining tools rose to prominence. However, they have a bigger learning curve, as compared with classic tools. Distributed storage and processing brought new problems in the implementation of Data mining solutions. The state of the art of existing platforms and their historical evolution was carried out. A solution and architecture independent of platforms and a description of the differences of implementation are detailed. Testing and benchmarking of performance making a comparison between large scale data mining platform Apache Spark and it’s classic counterpart R making clear to the user which scenario brings more advantages to the new platforms. Apache Spark has a clear advantage when tested with a dataset over 50 thousand instances. |
| Description: | Dissertação para obtenção do grau de mestre em Engenharia Informática e de Computadores |
| Peer review: | yes |
| URI: | http://hdl.handle.net/10400.21/8300 |
| Appears in Collections: | ISEL - Eng. Elect. Tel. Comp. - Dissertações de Mestrado |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| Dissertação.pdf | 1,01 MB | Adobe PDF | View/Open |
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.











