Sabe qual é a palavra mais usada na Biblia? Não? Acertou!
A mineração de textos é utilizada frequentemente por pesquisadores das representações sociais e possibilita identificar as coocorrências entre as palavras e seu resultado traz indicações da sua conexidade auxiliando na identificação da estrutura da representação
Idioma: português Número de palavras: 732.432 Número de *lemas: 17.771
Top 10 das palavras significativas
Nuvem de palavras
Agrupa as palavras e as organiza graficamente em função da sua frequência. É uma análise lexical mais simples, porém graficamente interessante.
![](https://static.wixstatic.com/media/b6763a_6f59139dad15472db8c005cf924d660f~mv2.png/v1/fill/w_500,h_468,al_c,q_85,enc_auto/b6763a_6f59139dad15472db8c005cf924d660f~mv2.png)
Análise de similitude
Esse tipo de análise baseia-se na teoria dos grafos (Marchand & Ratinaud, 2012) e é utilizada frequentemente por pesquisadores das representações sociais (cognição social). Possibilita identificar as coocorrências entre as palavras e seu resultado traz indicações da conexidade entre as palavras, auxiliando na identificação da estrutura da representação
![](https://static.wixstatic.com/media/b6763a_2e350bee224842ad976c1b0c86d4ef83~mv2.png/v1/fill/w_980,h_980,al_c,q_90,usm_0.66_1.00_0.01,enc_auto/b6763a_2e350bee224842ad976c1b0c86d4ef83~mv2.png)
Clusterização
Esta análise visa obter classes de segmentos de texto que, ao mesmo tempo, apresentam vocabulário semelhante entre si, e vocabulário diferente dos segmentos de texto das outras classes.
![](https://static.wixstatic.com/media/b6763a_0a9cdc06c5a84df2bda646dd800368e7~mv2.png/v1/fill/w_980,h_737,al_c,q_90,usm_0.66_1.00_0.01,enc_auto/b6763a_0a9cdc06c5a84df2bda646dd800368e7~mv2.png)
![](https://static.wixstatic.com/media/b6763a_c0bca589681e44e484553b7c90fd86d8~mv2.jpg/v1/fill/w_980,h_848,al_c,q_85,usm_0.66_1.00_0.01,enc_auto/b6763a_c0bca589681e44e484553b7c90fd86d8~mv2.jpg)
Depois do análise dos grupos (classes) agrupadas podemos dizer que existem dois grandes grupos significativos:
1 Natureza, pessoas e lugares 57,1% Geografia e natureza 17.9% (lilás) Lugares e pessoas 39,2% (vermelho)
2 Espiritualidade 42,9% Etica e comportamento 19,5% (azul claro) Religião 23,4% (verde)
* A lematização é o processo, efetivamente, de deflexionar uma palavra para determinar o seu lema(as flexões chamam-se lexemas). Por exemplo, as palavras gato, gata, gatos, gatas são todas formas do mesmo lema: gato.1Igualmente, as palavras tiver, tenho, tinha, tem são do mesmo lema ter. E bom, melhor e ótimo são lexemas do lema bom.
*Clusterização:
Método da Classificação Hierárquica Descendente (CHD) – Os segmentos de texto são classificados em função dos seus respectivos vocabulários, e o conjunto deles é repartido em função da frequência das formas reduzidas. A partir de matrizes cruzando segmentos de textos e palavras (em repetidos testes do tipo X 2 ), aplica-se o método de CHD e obtém-se uma classificação estável e definitiva (Reinert,1990). Esta análise visa obter classes de segmentos de texto que, ao mesmo tempo, apresentam vocabulário semelhante entre si, e vocabulário diferente dos segmentos de texto das outras classes (Camargo, 2005). A partir dessas análises em matrizes o software organiza a análise dos dados em um dendograma da CHD, que ilustra as relações entre as classes. O programa executa cálculos e fornece resultados que nos permite a descrição de cada uma das classes, principalmente, pelo seu vocabulário característico (léxico) e pelas suas palavras com asterisco (variáveis). Além disto, o programa fornece uma outra forma de apresentação dos resultados, através de uma análise fatorial de correspondência feita a partir da CHD. Com base nas classes escolhidas, o programa calcula e fornece-nos os segmentos de texto mais característicos de cada classe (corpus em cor) permitindo a contextualização do vocabulário típico de cada classe. O que são estas classes de palavras e de segmentos de texto? Em nível do programa informático, cada classe é composta de vários segmentos de texto em função de uma classificação segundo a distribuição do vocabulário (formas) destes segmentos de texto. Em nível interpretativo Reinert (1990), ao estudar a literatura, utilizou a noção de “mundo”, enquanto um quadro perceptivo-cognitivo com certa estabilidade temporal associado a um ambiente complexo. Em pesquisas no campo da linguística e comunicação estas classes são 6 interpretadas como campos lexicais (Cros, 1993) ou contextos semânticos. Em pesquisas sobre representações sociais, tendo em vista o estatuto que elas conferem às manifestações linguísticas, estas classes podem indicar teorias ou conhecimentos do senso comum ou campos de imagens sobre um dado objeto, ou ainda apenas aspectos de uma mesma representação (Veloz, Nascimento-Schulze e Camargo, 1999).
Análise de Similitude: Esse tipo de análise baseia-se na teoria dos grafos (Marchand & Ratinaud, 2012) e é utilizada frequentemente por pesquisadores das representações sociais (cognição social). Possibilita identificar as coocorrências entre as palavras e seu resultado traz indicações da conexidade entre as palavras, auxiliando na identificação da estrutura da representação
Comments