Repository logo
 
Publication

Seleção do número de segmentos em modelos de mistura sobre dados categoriais – um estudo comparativo

dc.contributor.authorSilvestre, Cláudia
dc.contributor.authorCardoso, Margarida
dc.contributor.authorFigueiredo, Mário
dc.date.accessioned2021-01-06T14:49:35Z
dc.date.available2021-01-06T14:49:35Z
dc.date.issued2019-11-06
dc.description.abstractA análise de agrupamento tem sido usada em inúmeras áreas de aplicação, tais como ciências sociais, medicina, sociologia, engenharia, biologia, ciências de computação e marketing. O seu crescente uso e os novos desafios que se associam à especificidade dos dados têm motivado a procura de novas metodologias e de soluções cada vez mais precisas. Os modelos de mistura finita [5] que têm uma longa tradição em agrupamento são um exemplo. Nestes modelos, a distribuição conjunta para as variáveis base de segmentação é considerada como sendo uma soma ponderada de distribuições intra-segmentos. Esta natureza probabilística/estatística subjacente à análise de agrupamento, feita através de estimação de modelos de mistura finita, tem várias vantagens. Uma delas é serem modelos muito fiexíveis permitindo a modelação de variáveis de natureza diferente. Nomeadamente, as variáveis contínuas são usualmente modeladas por distribuições gaussianas e as categoriais por distribuições multinomiais. Outra vantagem é a possibilidade de se abordar formalmente a determinação do número de segmentos a considerar. Determinar o número de componentes de mistura, ou seja, o número de segmentos, é um domínio ativo de investigação em agrupamento [4]. Neste âmbito, alguns autores têm usado critérios de informação, tais como o Bayesian Information Criterion (BIC) [9], o Akaike Information Criterion (AIC)[1] e suas variantes, ou o Integrated Completed Likelihood (ICL) [2]. Nestes casos, o agrupamento é feito para diferentes números de segmentos e escolhe-se a solução que corresponde ao melhor valor do critério pré-definido. Uma abordagem diferente considera a determinação do número de segmentos na estimação do modelo. Para a estimação de todos os parâmetros do modelo, incluíndo o número de segmentos, é usado (em [6]) o critério Minimum Message Length (MML). Neste trabalho, consideram-se dados categoriais e são usados modelos de mistura finita, com o objetivo de analisar comparativamente o desempenho dos critérios anteriormente apresentados: critérios em que a identificação do número de segmentosé feita após o agrupamento, i.e. a posteriori vs. critérios em que a mesma identificação é feita simultaneamente (embedded). As análises comparativas são feitas em relação ao tempo de computação, à qualidade do agrupamento obtido bem como à sua robustez, tendo em conta diferentes níveis de separação entre os segmentos. Como medidas de qualidade são usados indicadores de coesão-separação (e.g. índices Silhueta [8] e Calinski e Harabasz [3]) e são ainda usados índices de concordância com a estrutura conhecida (e.g. Adjusted Rand [7]). Referências [1] Akaike, H. Maximum Likelihood Identification of Gaussian Autorregressive Moving Average Models. Biometrika , 60, 255-265, 1973. [2] Biernacki, C.,Celeux, G., Govaert, G. Assessing a Mixture Model for Clustering with the Integrated Completed Likelihood. IEEE Transactions on Pattern analysis and Machine Intelligence, 22, 719-25, 2000. [3] Calinski, R. B., Harabasz, J. A dendrit method for cluster analysis. Communications in Statistics , 3(1), 1-27, 1974. [4] Celeux, G., Frühwirth-Schnatter,S., Robert, C. Model Selection for Mixture Models-Perspectives and Strategies . Handbook of Mixture Analysis, CRC Press, 2018. [5] Everitt, B. S. A -nite mixture model for the clustering of mixed-mode data. Statistics and probability letters , 6(5), 305-309, 1988. [6] Figueiredo, M. A. T., Jain, A. K. Unsupervised learning of finite mixture models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(3), 381-396, 2002. [7] Hubert, L., Arabie, P. Comparing partitions. Journal of classification, 2(1), 193-218, 1985. [8] Kaufman, L., Rousseeuw, P. J. Finding groups in data: an Introduction to cluster analysis. Wiley, NY, 1990. [9] Schwarz, G. Estimating the Dimension of a Model The Annals of Statistics ,6, 46-464, 1978.pt_PT
dc.description.versionN/Apt_PT
dc.identifier.citationSilvestre, C., Cardoso, M. & Figueiredo, M. (2019, novembro 06-09). Seleção do número de segmentos em modelos de mistura sobre dados categoriais – um estudo comparativo. Comunicação apresentada no XXIV Congresso da Sociedade Portuguesa de Estatística. Hotel Casa da Calçada Amarante, Portugalpt_PT
dc.identifier.urihttp://hdl.handle.net/10400.21/12570
dc.language.isoporpt_PT
dc.peerreviewedyespt_PT
dc.publisherSociedade Portuguesa de Estatísticapt_PT
dc.relation.publisherversionhttps://spe2019.estg.ipp.pt/?ai1ec_event=comunicacoes-orais-iv-clicar-para-consultarpt_PT
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/pt_PT
dc.subjectAnálise de agrupamentopt_PT
dc.subjectModelos de mistura nitapt_PT
dc.subjectDados categoriaispt_PT
dc.subjectSeleção do número de segmentospt_PT
dc.subjectCritérios de informaçãopt_PT
dc.titleSeleção do número de segmentos em modelos de mistura sobre dados categoriais – um estudo comparativopt_PT
dc.typeconference object
dspace.entity.typePublication
oaire.citation.conferencePlaceHotel Casa da Calçada Amarante, Portugalpt_PT
oaire.citation.titleXXIV Congresso da Sociedade Portuguesa de Estatísticapt_PT
person.familyNameSilvestre
person.givenNameCláudia
person.identifier.ciencia-idDA12-EF3F-C7CD
person.identifier.orcid0000-0002-8850-4304
rcaap.rightsclosedAccesspt_PT
rcaap.typeconferenceObjectpt_PT
relation.isAuthorOfPublication08fbc1bf-3387-4137-8c03-c4664dd43375
relation.isAuthorOfPublication.latestForDiscovery08fbc1bf-3387-4137-8c03-c4664dd43375

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
METADADOS Seleção do número de segmentos em modelos de mistura sobre dados categoriais.pdf
Size:
133 KB
Format:
Adobe Portable Document Format