Name: | Description: | Size: | Format: | |
---|---|---|---|---|
2.53 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
A limitada capacidade dos computadores em processar documentos de texto e consequente
di culdade de extracção de informação desses documentos deve-se à dificuldade de processamento de informação não-estruturada. De modo a reduzir essa limitação é necessário aumentar a estrutura dos documentos com que os computadores trabalham.
Este trabalho propõe um modelo de classificação de documentos através de um processo de refinamento sucessivo da informação. A cada iteração a informação presente no documento é melhor caracterizada através da aplicação de um classi cador apropriado.
O processo de classificação recorre a informação estatística, usando o modelo de
classificação de Bayes, sobre documentos ou fragmentos de documentos. O processo de
classificação também recorre a técnicas para especificação de padrões de texto, usando
expressões regulares para extrair informação que exibe um padrão conhecido.
A informação obtida é armazenada em XML, que permite a interrogação de colecções de
documentos de modo automático (recorrendo a bases de dados de suporte nativo XML).
O XML também é usado para transformar a informação original noutros formatos, como
por exemplo o HTML. Este formato pode ser usado para sintetizar a informação de modo
melhorar a sua apresentação.
Description
Keywords
Classificação de documentos Taxonomias