sábado, 8 de junho de 2013

A Matemática da Gramática da Língua Portuguesa

Via  blog do Adonai Sant'Anna.


Recentemente foi criado o Curso de Letras na Universidade Tecnológica Federal do Paraná (UTFPR). Não são poucos os que questionam o que um curso de Letras estaria fazendo em uma universidade tecnológica. Lamentavelmente falta a muitos professores e alunos de ciências exatas e tecnológicas no Brasil a noção de que em um curso de Letras se estuda linguística, uma área do conhecimento que emprega sofisticadas técnicas de matemática, estatística, lógica e teoria da computação, entre outras. E falta a muitos alunos e professores de Letras em nosso país a percepção da fundamental importância das ciências exatas em linguística. A regra brasileira é que cada um é absolutamente ignorante e preconceituoso sobre a área de atuação do outro. Um curso como o de Letras na UTFPR seria uma ótima oportunidade para estimulantes parcerias entre profissionais de diferentes áreas. Mas, como o usual, nossas universidades mais parecem poliversidades, nas quais cada um luta sozinho pelo seu pão mofado e poucos cogitam sobre projetos verdadeiramente interdisciplinares. Posso afirmar isso porque testemunhei de perto o assustador analfabetismo científico na UTFPR, especialmente no Curso de Letras. E o mesmo vale para inúmeras outras instituições de ensino superior que visitei. O pior é que essa mentalidade se reflete na formação de futuros professores de matemática e português do ensino médio, o foco deste texto.

Desde os anos 1950, devido a estudos de Noam Chomsky e colaboradores, sabe-se da existência de uma elaborada estrutura matemática nas gramáticas de praticamente todas as linguagens naturais humanas, como português, inglês, francês, entre outras. Desde então esses estudos tiveram significativos avanços no desenvolvimento de programas de computador que fazem traduções, e que identificam categorias gramaticais até mesmo de palavras ambíguas e de uso raro, na elaboração de modelos matemáticos para compreender o comportamento humano e de outras espécies animais, e no desenvolvimento de linguagens computacionais e softwares compiladores. Propomos aqui as bases para uma adaptação das ideias de Chomsky para o ensino médio brasileiro. O pré-requisito matemático é a teoria de conjuntos.

O vocabulário léxico de uma gramática da estrutura das frases (que abreviadamente chamamos de gramática) é o conjunto L formado por: 

(i) todas as palavras dicionarizadas (pedra, livro, perder etc) e 

(ii) nomes próprios (João, Curitiba etc).

O vocabulário não léxico de uma gramática é um conjunto que denotamos por N e cujos elementos são:

(i) todas as categorias gramaticais usuais (ADJETIVO, SUBSTANTIVO, VERBO, FRASE SUBSTANTIVA etc.) e 

(ii) um elemento que chamamos de símbolo inicial e denotamos por I.

Os conjuntos L e N são disjuntos, ou seja, eles não têm elemento algum em comum. Como consequência disso o léxico "adjetivo" não pode ser confundido com a categoria gramatical ADJETIVO. Comentário análogo vale para todas as demais palavras dicionarizadas (ou certas sequências de palavras) que remetem a categorias gramaticais. A união de L com N resulta em um conjunto V conhecido como o vocabulário da gramática. 

É interessante usar abreviações para as categorias gramaticais. Por exemplo, ADJETIVO pode ser abreviado por ADJ. Já ARTIGO DEFINIDO, SUBSTANTIVO COMUM, VERBO, SUBSTANTIVO PRÓPRIO, FRASE ADJETIVA, FRASE VERBAL e FRASE SUBSTANTIVA podem ser abreviados, respectivamente, por AD, SC, VE, SP, FA, FV e FS.

Um string é uma sequência finita de elementos do vocabulário V. Podemos (quando for necessário) separar os elementos de um string pelo símbolo auxiliar +. Alguns exemplos de strings são os seguintes: 

(i) FA+ADJ+local+novidade+catar+SC+quem

(ii) acredito+que+hoje+consigo+entender+gramática

Intuitivamente falando, um dos objetivos do estudo de gramática é definir critérios claros que permitam reconhecer um string que potencialmente possa ser compreendido, a menos de aspectos semânticos e pragmáticos da linguagem. Ou seja, não estamos discutindo aqui sobre semântica. Por exemplo, se alguém introduz um léxico novo no português (digamos, "catepondro") e usa este termo no string "o catepondro é azul", uma gramática deve ajudar a determinar que "catepondro" é um SUBSTANTIVO, ainda que não se saiba o significado deste novo léxico. Quanto à dimensão pragmática das linguagens naturais, esta também é abstraída aqui.

Existem infinitos strings para um mesmo vocabulário V, ainda que esse vocabulário seja um conjunto finito. Isso porque não há limite para o comprimento de um string. Vale observar que textos em geral, sejam livros ou simples panfletos, são strings léxicos (usam somente vocabulário léxico). 

O comprimento de um string é o número de elementos que ele tem. Nos dois exemplos de strings que apresentamos acima, o primeiro tem comprimento 7 e o segundo tem comprimento 6. O string de menor comprimento é o conjunto vazio. Seu comprimento é 0 (zero).

Para refrescar a memória do leitor, um par ordenado é um conjunto (p,q) tal que a ordem dos elementos p e q é relevante. Isso significa que se p é diferente de q então (p,q) é diferente de (q,p) e vice versa.

Um conceito fundamental no estudo de gramáticas de Chomsky é o de produção. Toda produção em uma gramática é um par ordenado (p,q) tal que p e q são strings e p jamais é o string vazio. Mas nem todo par ordenado (p,q) de strings é uma produção, mesmo que satisfaça à condição de que p seja não-vazio. Para definirmos uma gramática, precisamos estabelecer quais pares ordenados (p,q) de strings são produções. Para isso, precisamos definir o conjunto P das produções da gramática. A definição de P é crítica e depende da linguagem que queremos associar à nossa gramática.

Em certas situações é mais interessante denotar uma produção (p,q) como p>q, que se lê "p produz q". Usualmente se emprega uma flecha no lugar de >. Mas este blog tem sérias limitações em termos de fontes permitidas. No entanto, na imagem em anexo que exemplifica a árvore sintática da frase "João chutou a bola azul" empregamos a usual notação de flechas, no lugar do símbolo >.

Se q é uma palavra do dicionário ou um nome próprio, então p>q é chamada de produção léxica.

Consideremos, para fins de ilustração, uma gramática muito simples na qual o vocabulário não-léxico N seja definido como:

N = {I, AD, SC, VE, SP, FA, FV, FS, ADJ}

Definimos também L como o conjunto cujos elementos são: 

(i) as palavras de um dado dicionário de língua portuguesa (como o excelente Houaiss), com suas correspondentes classificações gramaticais e 

(ii) nomes próprios.

O conjunto P das produções se define da seguinte maneira: P tem todas as produções léxicas que podem ser obtidas a partir do dicionário (ADJ>azul, VE>andar etc.), bem como as seguintes produções não-léxicas:

(i) I>FV+FS, (ii) FV>FS+VE, (iii) FS>FS+FA, (iv) FS>FA+SC, (v) FA>ADJ, (vi) FA>AD, (vii) FS>SP.

Vale notar que as produções léxicas a>b, tais que b é uma palavra dicionarizada, estão claramente explicitadas no dicionário Houaiss de língua portuguesa. Se, por exemplo, procurarmos pelo léxico "andar", descobriremos que uma das acepções desta palavra a classifica como VERBO. Por isso podemos incluir a produção VE>andar no conjunto P. 

Em nosso exemplo elementar de gramática, o símbolo inicial I, de acordo com o item (i) logo acima, produz somente um string de comprimento 2, a saber, Frase Verbal seguida de Frase Substantiva. Já de acordo com o item (ii), a Frase Verbal produz outro string de comprimento 2: Frase Substantiva seguida de Verbo. Vale observar que Frase Adjetiva pode produzir tanto Adjetivo quanto Artigo Definido (itens (v) e (vi)), sendo ambos strings de comprimento 1. Fazemos a leitura das demais produções de maneira análoga.

Agora podemos dar um exemplo de construção de árvore gramatical a partir de nossa gramática simplificada.

Clique na imagem para ampliá-la.
As produções permitem (começando com o símbolo inicial I e culminando com os elementos do vocabulário léxico) desvendar uma estrutura gramatical do string "João chutou a bola azul". Obviamente estamos omitindo o sinal + para a separação dos elementos de nosso string exemplificador.

É claro que nosso exemplo é exageradamente simplificado, pois não leva em conta a existência de pronomes, preposições, advérbios e outras categorias gramaticais usuais e importantes. Nosso propósito aqui é uma mera ilustração para propormos um projeto que vai muito além de uma mera postagem em um blog.

Podemos agora definir o que é a linguagem gerada a partir de uma gramática.

Se g e d são strings, então dizemos que o string gbd é diretamente derivável do string gad (e escrevemos isso como gad=>gbd), se a produzir b; ou seja, se a>b. Vale observar que o símbolo => corresponde a uma flecha com dois traços horizontais. 

Também dizemos que o string g(m) (onde m é um inteiro positivo) é derivável do string g(1) (e escrevemos isso como g(1)=>*g(m)) se existir uma sequência de strings g(2), g(3), g(4), ..., g(m-1), tal que g(2) é diretamente derivável de g(1), g(3) é diretamente derivável de g(2) e assim por diante, até chegarmos a g(m) diretamente derivável de g(m-1).

Assim, a linguagem gerada por uma gramática é o conjunto de todos os strings do vocabulário léxico dessa gramática que são deriváveis do símbolo inicial I.

Portanto, em nosso exemplo anterior, o string "João chutou a bola azul" é um dos elementos da linguagem gerada pela gramática simplificada que propomos a título de ilustração.

Uma característica notável das gramáticas de Chomsky é a recursividade. Intuitivamente falando, a recursividade permite gerar infinitos strings em uma linguagem, a partir de um vocabulário finito. Basta ver, por exemplo, a produção do item (iii) logo acima. Se a partir de FS podemos derivar FS+FA, isso significa que podemos novamente aplicar a produção FS>FS+FA para derivar FS+FA+FA a partir de FS. Repetindo o processo, podemos derivar FS+FA+FA+FA a partir de FS e assim por diante. Por isso não há limites sobre o que pode ser escrito ou falado em português, mesmo com uma quantia finita de léxicos, nomes próprios e produções. 

Lamentavelmente há limites do intelecto humano para lidar com a recursividade das linguagens naturais, principalmente quando se aplica a recursividade sobre strings envolvendo uma adaptação dos quantificadores lógicos "para todo" e "existe". Para detalhes ver a postagem O Estudante Brilhante.

Se flexibilizarmos nossa definição de forma adequada, levando em conta as dimensões semântica e pragmática das linguagens, podemos afirmar que cada pessoa possui sua própria gramática da língua portuguesa. Isso porque cada indivíduo tem um conhecimento particular de vocabulário. Afinal, termos que uma pessoa conhece e emprega em seus discursos diários podem ser desconhecidos por outras. Além disso, considerando que o vocabulário da língua portuguesa está em constante mutação (incluindo e excluindo léxicos ao longo dos anos), podemos seguramente afirmar que a gramática acompanha tais mudanças. Ou seja, não existe a gramática do português. São muitas as gramáticas de nossa língua.

Mais importante do que o domínio de conteúdos matemáticos específicos é a alfabetização em matemática. Alunos têm que ser capazes de ler textos elementares de matemática. As ferramentas que usamos aqui são apenas noções muito básicas sobre conjuntos. Ainda assim, conseguimos mostrar de maneira muito breve como utilizar a teoria de conjuntos para compreender um pouco a respeito da matemática inerente aos nossos discursos do dia-a-dia e às nossas leituras (sejam de romances ou placas de trânsito). Se estamos conversando com um amigo, em português, inglês ou télugo, estamos implicitamente usando muita matemática. Um simples "bom dia" se trata de uma sofisticada (ainda que nem sempre consciente) aplicação matemática. O que Chomsky fez foi revelar parte desta matemática, a qual hoje é sabida como sendo algo muito mais elaborado.

Há professores de português que defendem o estudo de gramática nas escolas com o propósito de redigir textos. O string "azul João bola chutou a" não é imediatamente compreensível para as pessoas como uma frase em português. Se um indivíduo ordena essas palavras para formar o string "João chutou a bola azul", ele está inconscientemente utilizando uma estrutura matemática que é inerente a todos nós. E essa estrutura matemática é a mesma que viabiliza crianças a aprenderem a falar e escrever. Outras espécies animais, a princípio, não têm a sorte de contar com o acesso a tal estrutura lógica. Adaptar as gramáticas de Chomsky aos nossos ensinos básicos é a promoção de uma visão mais universal e atualizada de mundo. Conhecer matemática é conhecer a nós mesmos. Se estamos interessados em preparar jovens para uma vida universitária e não "poliversitária", precisamos ter em mente uma unidade de conhecimentos. A interdisciplinaridade é um caminho muito razoável. E desconheço motivos sensatos para não transpor as universais gramáticas de Chomsky para o ensino médio.

Um dos aspectos mais interessantes das gramáticas de Chomsky é um resultado no qual se prova que, em geral, uma linguagem admite infinitas gramáticas que a gerem. Ou seja, sob este ponto de vista, novamente não faz sentido falar na gramática da língua portuguesa (com artigo definido). Existem infinitas gramáticas para a linguagem que empregamos no dia-a-dia. Se queremos ensinar gramática para jovens pré-universitários, devemos estabelecer método. Se não explicitarmos quais são as produções a serem adotadas na gramática de nossa linguagem, continuaremos a limitar nossa capacidade de identificação de estrutura gramatical a meras opiniões, como frequentemente acontece em nossas salas de aula.

Os físicos perceberam há séculos que a matemática é uma poderosa ferramenta epistemológica e metodológica para a ciência. O mesmo vale para químicos, geólogos, advogados, médicos, administradores, filósofos, economistas, sociólogos, engenheiros, arquitetos, biólogos e tantos outros profissionais. E há mais de meio século os linguistas também se dão conta disso. É hora de atualizarmos nosso ensino médio para podermos, pelo menos, acompanhar o mundo que nos cerca.