Repository logo
 
Publication

Análise e processamento de dados de redes sociais

dc.contributor.advisorVaz, Cátia Raquel Jesus
dc.contributor.authorCândido, Carolina Gaspar
dc.date.accessioned2020-12-15T19:49:40Z
dc.date.available2020-12-15T19:49:40Z
dc.date.issued2020-09-28
dc.descriptionTrabalho final de mestrado para obtenção do grau de Mestre em Engenharia Informática e de Computadorespt_PT
dc.description.abstractNos últimos anos a utilização de redes sociais tem vindo a aumentar consideravelmente. A rede social Twitter destaca-se pela facilidade de comunicação livre entre os utilizadores e pela sua utilização por parte de figuras dos media e de estado de todo o mundo, o que faz com que seja utilizada como instrumento de comunicação sobre a atualidade de todo o mundo. Esta forte utilização constitui uma considerável quantidade de dados, que quando explorados representam informação sobre as opiniões dos utilizadores. Um exemplo desta exploração de dados são estudos de mercados que já são realizados atualmente com base na análise dos comentários de utilizadores em rede sociais sobre um determinado produto. Atualmente existem muitos estudos e ferramentas disponíveis para, utilizando os dados provenientes do Twitter realizar uma análise sentimental. Quer seja utilizando as hashtags e os emojis ou o próprio texto como indicador da polaridade do tweet. No entanto existe a necessidade da utilização destes dados provenientes do Twitter para a classificação de temas e não só pelo tom apreciativo ou negativo que o tweet transparece. Por classificação de temas tem-se por exemplo, aferir através da análise dos dados das redes sociais quanto ao populismo ou orientação política, podendo esta análise ser utilizada para adaptar uma campanha política. No entanto, não existe atualmente uma plataforma que realize os vários passos desta análise. Neste trabalho foi criada uma plataforma que disponibiliza uma análise de tweets. A plataforma tira partido da framework Apache Spark para as implementações dos algoritmos, assim como da sua capacidade de paralelizar tarefas. O worflow que é necessário para atingir a análise de tweets pretendida, consiste na obtenção de tweets, seguida pela filtragem do seu conteúdo não relevante e, paralelamente, é realizada a classificação e o agrupamento por comunidades tendo em conta a relação de influência entre utilizadores, estabelecida pelo mecanismo de retweet. Como algoritmos de classificação, a plataforma tem disponíveis: Naive Bayes, Random Forest e Neural Networks. Como algoritmos de agrupamento, a plataforma tem disponíveis: k-Means, Gaussian Mixture e Louvain. Como resultado do workflow, a plataforma torna disponível todos os tweets classificados, as comunidades de utilizadores existentes e apresenta análise estatística dos resultados. Foram realizadas avaliações experimentais com as quais foi possível observar que a melhor estratégia, dos algoritmos a utilizar, depende dos dados a analisar.pt_PT
dc.description.abstractSocial media usage had a considerable increase in recent years. Twitter stands out for its ease of communication between users and for being used by the media and state figures around the world. This makes it a communication tool for spreading news around the world. This heavy use creates a considerable amount of data, which when exploited, represents information about the opinion of its users. An example of this exploitation is that nowadays, market studies are being conducted based on the analysis of user comments on social media about a given product. Currently, there exist many studies and tools available which can use data from Twitter to perform sentiment analysis. Whether using hashtags and emojis or using the text itself as an indicator of the polarity of the tweet. However, there is a need to use this data from Twitter to classify by the subject and not only by the tone the tweet transpires, appreciative, or negative. By classifying subjects, one can, for example, measure through the analysis of social media data regarding populism or political orientation. This analysis can be used to adapt a political campaign. However, currently, there isn't a platform that performs the various steps of this analysis. In this work a platform that provides an analysis of tweets is elaborated. The platform relies on the framework Apache Spark for its algorithms and its ability to parallelize work. The workflow that is needed to achieve the analysis consists of obtaining the tweets, followed by filtering non relevant information and then the tweets are, in parallel, classified and organized by communities according to the relationship of influence between users established by retweets. This platform provides some classification algorithms such as Naïve Bayes, Random Forest and Neural Networks. It also provides some clustering algorithms such as k-Means, Gaussian Mixture and Louvain. As a result of this workflow, the platform makes available all the tweets classified, the communities found, and also presents some statistics for the data obtained. The algorithms used in classification and in clustering are chosen by the user according to the context of study. Experimental evaluations were carried out with which it was possible to observe that the best strategy, in terms of the algorithms to use, depends on the data to be analyzed.pt_PT
dc.description.versionN/Apt_PT
dc.identifier.citationCÂNDIDO, Carolina Gaspar - Análise e processamento de dados de redes sociais. Lisboa: Instituto Superior de Engenharia de Lisboa, 2020. Dissertação de mestrado.pt_PT
dc.identifier.tid202557685
dc.identifier.urihttp://hdl.handle.net/10400.21/12477
dc.language.isoporpt_PT
dc.peerreviewedyespt_PT
dc.publisherInstituto Superior de Engenharia de Lisboapt_PT
dc.subjectAprendizagem automáticapt_PT
dc.subjectMachine learningpt_PT
dc.subjectTwitterpt_PT
dc.subjectClassificaçãopt_PT
dc.subjectClassificationpt_PT
dc.subjectAgrupamentopt_PT
dc.subjectClusteringpt_PT
dc.titleAnálise e processamento de dados de redes sociaispt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
Dissertação.pdf
Size:
2.63 MB
Format:
Adobe Portable Document Format