Um modelo de redes complexas para análise de informações textuais
Descrição
Analise de textos é uma tarefa inerentemente humana, que envolve processos cognitivos complexos e difíceis de modelar em sistemas computacionais atuais. Esses processos levam em conta usualmente tanto informações léxicas quanto sintáticas, com o objetivo de situar o texto em um nível hierárquico e semântico adequado. Informações no nível léxico estão mais relacionadas com as regras de uma linguagem para geração de palavras, enquanto o nível sintático está geralmente relacionado ao posicionamento das palavras no texto. O conjunto dessas informações (léxica e sintática) leva a geração das informações semânticas. Diversas áreas de aplicações que envolvem vem analise automática de textos devem considerar essas informações a fim de atingir uma gama crescente de objetivos, tais como: recuperação de documentos, comparação de textos, geração automática de diálogos, geração de rótulos, indexação de textos, entre outras. Embora as regras de interpretação de textos sejam conhecidas há bastante tempo, devido a fatores que envolvem principalmente tempo computacional e alta dimensionalidade dos modelos, muitas dessas regras não são levadas em conta em sistemas práticos atuais. Por exemplo, a maioria dos sistemas de ´ recuperação de informações textuais geralmente considera somente a frequência com que as palavras aparecem em um texto, ou o numero de links que apontam para uma mesma página de internet, com o objetivo de ordenar documentos por relevância, quando de uma requisição do usuário. Sabe-se, no entanto, que informações léxicas contidas nas stop-words, palavras com erros e pontuação, bem como informações sintáticas, como a ordem que as palavras aparecem em um texto, não são geralmente consideradas nesses modelos, motivo que pode levar ao chamado gap-semântico entre a requisição do usuário e as informações realmente fornecidas pelo modelo de recuperação. Por outro lado, desde o início da década de 90, estudos em redes complexas vêm ganhando mais e mais atenção dos pesquisadores, sobretudo para a modelagem de informações não somente de textos, mas de dados multimídia. Assim, o presente trabalho apresenta um modelo de Redes Complexas que leva em conta não somente as informações de frequência, mas também a ordem das palavras, co-ocorrência das mesmas, stop-words e palavras erradas. O preço a pagar para este modelo e a utilização do espaço de armazenamento da ordem de Giga-Bytes, o que o torna inviável para ser tratado em computadores comuns. Modelos dessa grandeza ainda não foram completamente estudados e apresentam comportamentos ainda difíceis de se prever e discutir. As características das redes complexas estudadas ha mais de uma década na literatura (por exemplo: tipo de rede, coeficiente de clusterização, distribuição ao de graus, distribuição de pesos, matriz de distâncias, raio, diâmetro, coeficiente espectral, entre outros) permitem o estudo desses modelos para grandes bases de dados. Assim, neste trabalho, propomos o estudo de informações textuais modeladas como uma rede complexa de palavras, tanto para bases específicas quanto genéricas. Estudos preliminares mostram que palavras retiradas de um contexto específico, considerando as características léxicas e sintáticas citadas acima, apresentam um comportamento de rede livre de escala. Também apresentamos heurísticas para o calculo de grandezas físicas computacionalmente intratáveis, como o coeficiente de clusterização ao (CC) da rede. Resultados sugerem que é possível o calculo do CC com erro em torno de 5% para redes densas ou esparsas de até 10.000 palavras.Textual Analysis is a human task, which concerns of cognitive process and complexes as well, usually hard to model in current computers. These processes usually consider both lexical and syntactic information in order to fit the text in a correct hierarchical and semantic level. Lexical level information are more related with the language rules to produce words, meanwhile the syntactical level is generally related with word positioning in a text. The whole information (lexical and syntactic) yield to generation of semantic information. Several application areas demanding automatic textual analysis must consider such information in order to get a growing set of goals, such as: textual document retrieval, textual comparison, speech automatic generation, key-word generations, text indexing, to name a few. Although textual interpretation rules are known for a long time, due to facts involving mainly computational time and models with high dimensionalities, many of these rules are not carried out in current practical systems. For instance, the majority systems for textual information retrieval generally is based only in the word frequency domain, or the number of links pointing to the same internet page with the goal of ranking the documents by relevance, under a user query. It is well known that the lexical information underlying stop-words, misspelled words and punctuation, as well as syntactical information, such as the order that the words appears in the text, are not generally considered in these models. This is one of many reasons witch yield to well known semantic gap between the user requisition and the true information proposed by the retrieval model. On the hand, since the begin of 90 s, studies in complex networks have been gathering more attention by researches, especially, not only for textual information modeling, but also for multimedia data. Then, the proposed work presents a Complex Network model which considers not only frequency information, but also the order that words appear, co-occurrences, stop-words and misspelled words. The price to pay for this model is the use of a managed space of gigabytes, which is impractical for current hardware technology. Models with such size were not completely studied and present behaviors that are hard to prevent and discuss. The features of complex networks studied by far the one decade in literature (such as: type of network, average clustering coefficient, degree distribution, weight distribution, distance matrix, radius, diameter, spectral coefficient, and others) allow the study of such models for large databases. Then, in this work, we propose to study the textual information modeled as a complex network of words, for specific and generic database as well. Preliminary studies show that words taken from a specific context, considering syntactical and lexical featured cited above, present a free-scale network behavior. Also, we present heuristics for physical properties which are hard to computationally manage, such as average clustering coefficient (ACC) . Results suggest that it is possible to compute the CC with a error of 5% for dense or sparses networks up to 10.000 words.