Seleção do número de segmentos em modelos de mistura sobre dados categoriais – um estudo comparativo

Silvestre, Cláudia; Cardoso, Margarida; Figueiredo, Mário

Publicação

Seleção do número de segmentos em modelos de mistura sobre dados categoriais – um estudo comparativo

2019-11-06Documento de conferência

dc.contributor.author	Silvestre, Cláudia
dc.contributor.author	Cardoso, Margarida
dc.contributor.author	Figueiredo, Mário
dc.date.accessioned	2021-01-06T14:49:35Z
dc.date.available	2021-01-06T14:49:35Z
dc.date.issued	2019-11-06
dc.description.abstract	A análise de agrupamento tem sido usada em inúmeras áreas de aplicação, tais como ciências sociais, medicina, sociologia, engenharia, biologia, ciências de computação e marketing. O seu crescente uso e os novos desafios que se associam à especificidade dos dados têm motivado a procura de novas metodologias e de soluções cada vez mais precisas. Os modelos de mistura finita [5] que têm uma longa tradição em agrupamento são um exemplo. Nestes modelos, a distribuição conjunta para as variáveis base de segmentação é considerada como sendo uma soma ponderada de distribuições intra-segmentos. Esta natureza probabilística/estatística subjacente à análise de agrupamento, feita através de estimação de modelos de mistura finita, tem várias vantagens. Uma delas é serem modelos muito fiexíveis permitindo a modelação de variáveis de natureza diferente. Nomeadamente, as variáveis contínuas são usualmente modeladas por distribuições gaussianas e as categoriais por distribuições multinomiais. Outra vantagem é a possibilidade de se abordar formalmente a determinação do número de segmentos a considerar. Determinar o número de componentes de mistura, ou seja, o número de segmentos, é um domínio ativo de investigação em agrupamento [4]. Neste âmbito, alguns autores têm usado critérios de informação, tais como o Bayesian Information Criterion (BIC) [9], o Akaike Information Criterion (AIC)[1] e suas variantes, ou o Integrated Completed Likelihood (ICL) [2]. Nestes casos, o agrupamento é feito para diferentes números de segmentos e escolhe-se a solução que corresponde ao melhor valor do critério pré-definido. Uma abordagem diferente considera a determinação do número de segmentos na estimação do modelo. Para a estimação de todos os parâmetros do modelo, incluíndo o número de segmentos, é usado (em [6]) o critério Minimum Message Length (MML). Neste trabalho, consideram-se dados categoriais e são usados modelos de mistura finita, com o objetivo de analisar comparativamente o desempenho dos critérios anteriormente apresentados: critérios em que a identificação do número de segmentosé feita após o agrupamento, i.e. a posteriori vs. critérios em que a mesma identificação é feita simultaneamente (embedded). As análises comparativas são feitas em relação ao tempo de computação, à qualidade do agrupamento obtido bem como à sua robustez, tendo em conta diferentes níveis de separação entre os segmentos. Como medidas de qualidade são usados indicadores de coesão-separação (e.g. índices Silhueta [8] e Calinski e Harabasz [3]) e são ainda usados índices de concordância com a estrutura conhecida (e.g. Adjusted Rand [7]). Referências [1] Akaike, H. Maximum Likelihood Identification of Gaussian Autorregressive Moving Average Models. Biometrika , 60, 255-265, 1973. [2] Biernacki, C.,Celeux, G., Govaert, G. Assessing a Mixture Model for Clustering with the Integrated Completed Likelihood. IEEE Transactions on Pattern analysis and Machine Intelligence, 22, 719-25, 2000. [3] Calinski, R. B., Harabasz, J. A dendrit method for cluster analysis. Communications in Statistics , 3(1), 1-27, 1974. [4] Celeux, G., Frühwirth-Schnatter,S., Robert, C. Model Selection for Mixture Models-Perspectives and Strategies . Handbook of Mixture Analysis, CRC Press, 2018. [5] Everitt, B. S. A -nite mixture model for the clustering of mixed-mode data. Statistics and probability letters , 6(5), 305-309, 1988. [6] Figueiredo, M. A. T., Jain, A. K. Unsupervised learning of finite mixture models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(3), 381-396, 2002. [7] Hubert, L., Arabie, P. Comparing partitions. Journal of classification, 2(1), 193-218, 1985. [8] Kaufman, L., Rousseeuw, P. J. Finding groups in data: an Introduction to cluster analysis. Wiley, NY, 1990. [9] Schwarz, G. Estimating the Dimension of a Model The Annals of Statistics ,6, 46-464, 1978.	pt_PT
dc.description.version	N/A	pt_PT
dc.identifier.citation	Silvestre, C., Cardoso, M. & Figueiredo, M. (2019, novembro 06-09). Seleção do número de segmentos em modelos de mistura sobre dados categoriais – um estudo comparativo. Comunicação apresentada no XXIV Congresso da Sociedade Portuguesa de Estatística. Hotel Casa da Calçada Amarante, Portugal	pt_PT
dc.identifier.uri	http://hdl.handle.net/10400.21/12570
dc.language.iso	por	pt_PT
dc.peerreviewed	yes	pt_PT
dc.publisher	Sociedade Portuguesa de Estatística	pt_PT
dc.relation.publisherversion	https://spe2019.estg.ipp.pt/?ai1ec_event=comunicacoes-orais-iv-clicar-para-consultar	pt_PT
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/	pt_PT
dc.subject	Análise de agrupamento	pt_PT
dc.subject	Modelos de mistura nita	pt_PT
dc.subject	Dados categoriais	pt_PT
dc.subject	Seleção do número de segmentos	pt_PT
dc.subject	Critérios de informação	pt_PT
dc.title	Seleção do número de segmentos em modelos de mistura sobre dados categoriais – um estudo comparativo	pt_PT
dc.type	conference object
dspace.entity.type	Publication
oaire.citation.conferencePlace	Hotel Casa da Calçada Amarante, Portugal	pt_PT
oaire.citation.title	XXIV Congresso da Sociedade Portuguesa de Estatística	pt_PT
person.familyName	Silvestre
person.givenName	Cláudia
person.identifier.ciencia-id	DA12-EF3F-C7CD
person.identifier.orcid	0000-0002-8850-4304
rcaap.rights	closedAccess	pt_PT
rcaap.type	conferenceObject	pt_PT
relation.isAuthorOfPublication	08fbc1bf-3387-4137-8c03-c4664dd43375
relation.isAuthorOfPublication.latestForDiscovery	08fbc1bf-3387-4137-8c03-c4664dd43375

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: METADADOS Seleção do número de segmentos em modelos de mistura sobre dados categoriais.pdf
Tamanho:: 133 KB
Formato:: Adobe Portable Document Format

Ver/Abrir

Coleções

ESCS - Comunicações