Publication
Seleção do número de segmentos em modelos de mistura sobre dados categoriais – um estudo comparativo
dc.contributor.author | Silvestre, Cláudia | |
dc.contributor.author | Cardoso, Margarida | |
dc.contributor.author | Figueiredo, Mário | |
dc.date.accessioned | 2021-01-06T14:49:35Z | |
dc.date.available | 2021-01-06T14:49:35Z | |
dc.date.issued | 2019-11-06 | |
dc.description.abstract | A análise de agrupamento tem sido usada em inúmeras áreas de aplicação, tais como ciências sociais, medicina, sociologia, engenharia, biologia, ciências de computação e marketing. O seu crescente uso e os novos desafios que se associam à especificidade dos dados têm motivado a procura de novas metodologias e de soluções cada vez mais precisas. Os modelos de mistura finita [5] que têm uma longa tradição em agrupamento são um exemplo. Nestes modelos, a distribuição conjunta para as variáveis base de segmentação é considerada como sendo uma soma ponderada de distribuições intra-segmentos. Esta natureza probabilística/estatística subjacente à análise de agrupamento, feita através de estimação de modelos de mistura finita, tem várias vantagens. Uma delas é serem modelos muito fiexíveis permitindo a modelação de variáveis de natureza diferente. Nomeadamente, as variáveis contínuas são usualmente modeladas por distribuições gaussianas e as categoriais por distribuições multinomiais. Outra vantagem é a possibilidade de se abordar formalmente a determinação do número de segmentos a considerar. Determinar o número de componentes de mistura, ou seja, o número de segmentos, é um domínio ativo de investigação em agrupamento [4]. Neste âmbito, alguns autores têm usado critérios de informação, tais como o Bayesian Information Criterion (BIC) [9], o Akaike Information Criterion (AIC)[1] e suas variantes, ou o Integrated Completed Likelihood (ICL) [2]. Nestes casos, o agrupamento é feito para diferentes números de segmentos e escolhe-se a solução que corresponde ao melhor valor do critério pré-definido. Uma abordagem diferente considera a determinação do número de segmentos na estimação do modelo. Para a estimação de todos os parâmetros do modelo, incluíndo o número de segmentos, é usado (em [6]) o critério Minimum Message Length (MML). Neste trabalho, consideram-se dados categoriais e são usados modelos de mistura finita, com o objetivo de analisar comparativamente o desempenho dos critérios anteriormente apresentados: critérios em que a identificação do número de segmentosé feita após o agrupamento, i.e. a posteriori vs. critérios em que a mesma identificação é feita simultaneamente (embedded). As análises comparativas são feitas em relação ao tempo de computação, à qualidade do agrupamento obtido bem como à sua robustez, tendo em conta diferentes níveis de separação entre os segmentos. Como medidas de qualidade são usados indicadores de coesão-separação (e.g. índices Silhueta [8] e Calinski e Harabasz [3]) e são ainda usados índices de concordância com a estrutura conhecida (e.g. Adjusted Rand [7]). Referências [1] Akaike, H. Maximum Likelihood Identification of Gaussian Autorregressive Moving Average Models. Biometrika , 60, 255-265, 1973. [2] Biernacki, C.,Celeux, G., Govaert, G. Assessing a Mixture Model for Clustering with the Integrated Completed Likelihood. IEEE Transactions on Pattern analysis and Machine Intelligence, 22, 719-25, 2000. [3] Calinski, R. B., Harabasz, J. A dendrit method for cluster analysis. Communications in Statistics , 3(1), 1-27, 1974. [4] Celeux, G., Frühwirth-Schnatter,S., Robert, C. Model Selection for Mixture Models-Perspectives and Strategies . Handbook of Mixture Analysis, CRC Press, 2018. [5] Everitt, B. S. A -nite mixture model for the clustering of mixed-mode data. Statistics and probability letters , 6(5), 305-309, 1988. [6] Figueiredo, M. A. T., Jain, A. K. Unsupervised learning of finite mixture models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(3), 381-396, 2002. [7] Hubert, L., Arabie, P. Comparing partitions. Journal of classification, 2(1), 193-218, 1985. [8] Kaufman, L., Rousseeuw, P. J. Finding groups in data: an Introduction to cluster analysis. Wiley, NY, 1990. [9] Schwarz, G. Estimating the Dimension of a Model The Annals of Statistics ,6, 46-464, 1978. | pt_PT |
dc.description.version | N/A | pt_PT |
dc.identifier.citation | Silvestre, C., Cardoso, M. & Figueiredo, M. (2019, novembro 06-09). Seleção do número de segmentos em modelos de mistura sobre dados categoriais – um estudo comparativo. Comunicação apresentada no XXIV Congresso da Sociedade Portuguesa de Estatística. Hotel Casa da Calçada Amarante, Portugal | pt_PT |
dc.identifier.uri | http://hdl.handle.net/10400.21/12570 | |
dc.language.iso | por | pt_PT |
dc.peerreviewed | yes | pt_PT |
dc.publisher | Sociedade Portuguesa de Estatística | pt_PT |
dc.relation.publisherversion | https://spe2019.estg.ipp.pt/?ai1ec_event=comunicacoes-orais-iv-clicar-para-consultar | pt_PT |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/4.0/ | pt_PT |
dc.subject | Análise de agrupamento | pt_PT |
dc.subject | Modelos de mistura nita | pt_PT |
dc.subject | Dados categoriais | pt_PT |
dc.subject | Seleção do número de segmentos | pt_PT |
dc.subject | Critérios de informação | pt_PT |
dc.title | Seleção do número de segmentos em modelos de mistura sobre dados categoriais – um estudo comparativo | pt_PT |
dc.type | conference object | |
dspace.entity.type | Publication | |
oaire.citation.conferencePlace | Hotel Casa da Calçada Amarante, Portugal | pt_PT |
oaire.citation.title | XXIV Congresso da Sociedade Portuguesa de Estatística | pt_PT |
person.familyName | Silvestre | |
person.givenName | Cláudia | |
person.identifier.ciencia-id | DA12-EF3F-C7CD | |
person.identifier.orcid | 0000-0002-8850-4304 | |
rcaap.rights | closedAccess | pt_PT |
rcaap.type | conferenceObject | pt_PT |
relation.isAuthorOfPublication | 08fbc1bf-3387-4137-8c03-c4664dd43375 | |
relation.isAuthorOfPublication.latestForDiscovery | 08fbc1bf-3387-4137-8c03-c4664dd43375 |
Files
Original bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- METADADOS Seleção do número de segmentos em modelos de mistura sobre dados categoriais.pdf
- Size:
- 133 KB
- Format:
- Adobe Portable Document Format