Repository logo
 
Loading...
Profile Picture

Search Results

Now showing 1 - 2 of 2
  • O critério Minimum Message Length na estimação de modelos de mistura sobre dados mistos
    Publication . Silvestre, Cláudia; Cardoso, Margarida; Figueiredo, Mário
    O agrupamento sobre dados mistos é um problema prático comum, nomeadamente no âmbito das ciências sociais. Este pode referir-se, por exemplo, à constituição de segmentos homogéneos de indivíduos, considerando as suas características quer quantitativas, quer qualitativas. A abordagem metodológica deste problema tem sido diversa. Podem encontrar-se, por exemplo, versões do algoritmo K-Médias capazes de lidar com dados métricos e categoriais. Neste trabalho, consideramos o agrupamento de dados mistos, usando um modelo de mistura e propondo o uso do critério Minimum Message Lenght (MML) para a sua estimação. Este critério advém da teoria da informação, considerando um modelo mais adequado aquele que permite uma descrição mais sucinta das observações [3]. Figueiredo e Jain [1] foram pioneiros na utilização deste critério para estimação de misturas de gaussianas. Uma primeira proposta para a utilização do MML em misturas de multinomiais foi apresentada por Silvestre et al [2]. A análise proposta integra dados mistos considerando uma mistura de gaussianas e multinomiais e um algoritmo que é uma variante do conhecido expectation-maximization. A metodologia é testada comparativamente com critérios comuns para a seleção de modelos de mistura, nomeadamente o integrated completed lilelihood , que é particularmente adequado neste contexto. A análise é efetuada sobre 2 conjuntos de dados sintéticos e dados reais (do European Social Survey). São analisadas vantagens comparativas na robustez relativamente a diferentes processos de inicialização, no tempo de computação e na qualidade do agrupamento obtido.
  • Seleção do número de segmentos em modelos de mistura sobre dados categoriais – um estudo comparativo
    Publication . Silvestre, Cláudia; Cardoso, Margarida; Figueiredo, Mário
    A análise de agrupamento tem sido usada em inúmeras áreas de aplicação, tais como ciências sociais, medicina, sociologia, engenharia, biologia, ciências de computação e marketing. O seu crescente uso e os novos desafios que se associam à especificidade dos dados têm motivado a procura de novas metodologias e de soluções cada vez mais precisas. Os modelos de mistura finita [5] que têm uma longa tradição em agrupamento são um exemplo. Nestes modelos, a distribuição conjunta para as variáveis base de segmentação é considerada como sendo uma soma ponderada de distribuições intra-segmentos. Esta natureza probabilística/estatística subjacente à análise de agrupamento, feita através de estimação de modelos de mistura finita, tem várias vantagens. Uma delas é serem modelos muito fiexíveis permitindo a modelação de variáveis de natureza diferente. Nomeadamente, as variáveis contínuas são usualmente modeladas por distribuições gaussianas e as categoriais por distribuições multinomiais. Outra vantagem é a possibilidade de se abordar formalmente a determinação do número de segmentos a considerar. Determinar o número de componentes de mistura, ou seja, o número de segmentos, é um domínio ativo de investigação em agrupamento [4]. Neste âmbito, alguns autores têm usado critérios de informação, tais como o Bayesian Information Criterion (BIC) [9], o Akaike Information Criterion (AIC)[1] e suas variantes, ou o Integrated Completed Likelihood (ICL) [2]. Nestes casos, o agrupamento é feito para diferentes números de segmentos e escolhe-se a solução que corresponde ao melhor valor do critério pré-definido. Uma abordagem diferente considera a determinação do número de segmentos na estimação do modelo. Para a estimação de todos os parâmetros do modelo, incluíndo o número de segmentos, é usado (em [6]) o critério Minimum Message Length (MML). Neste trabalho, consideram-se dados categoriais e são usados modelos de mistura finita, com o objetivo de analisar comparativamente o desempenho dos critérios anteriormente apresentados: critérios em que a identificação do número de segmentosé feita após o agrupamento, i.e. a posteriori vs. critérios em que a mesma identificação é feita simultaneamente (embedded). As análises comparativas são feitas em relação ao tempo de computação, à qualidade do agrupamento obtido bem como à sua robustez, tendo em conta diferentes níveis de separação entre os segmentos. Como medidas de qualidade são usados indicadores de coesão-separação (e.g. índices Silhueta [8] e Calinski e Harabasz [3]) e são ainda usados índices de concordância com a estrutura conhecida (e.g. Adjusted Rand [7]). Referências [1] Akaike, H. Maximum Likelihood Identification of Gaussian Autorregressive Moving Average Models. Biometrika , 60, 255-265, 1973. [2] Biernacki, C.,Celeux, G., Govaert, G. Assessing a Mixture Model for Clustering with the Integrated Completed Likelihood. IEEE Transactions on Pattern analysis and Machine Intelligence, 22, 719-25, 2000. [3] Calinski, R. B., Harabasz, J. A dendrit method for cluster analysis. Communications in Statistics , 3(1), 1-27, 1974. [4] Celeux, G., Frühwirth-Schnatter,S., Robert, C. Model Selection for Mixture Models-Perspectives and Strategies . Handbook of Mixture Analysis, CRC Press, 2018. [5] Everitt, B. S. A -nite mixture model for the clustering of mixed-mode data. Statistics and probability letters , 6(5), 305-309, 1988. [6] Figueiredo, M. A. T., Jain, A. K. Unsupervised learning of finite mixture models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(3), 381-396, 2002. [7] Hubert, L., Arabie, P. Comparing partitions. Journal of classification, 2(1), 193-218, 1985. [8] Kaufman, L., Rousseeuw, P. J. Finding groups in data: an Introduction to cluster analysis. Wiley, NY, 1990. [9] Schwarz, G. Estimating the Dimension of a Model The Annals of Statistics ,6, 46-464, 1978.