Via blog do Adonai Sant'Anna.
Recentemente foi criado o Curso de
Letras na Universidade Tecnológica Federal do Paraná (UTFPR). Não são
poucos os que questionam o que um curso de Letras estaria fazendo em uma
universidade tecnológica. Lamentavelmente falta a muitos professores e
alunos de ciências exatas e tecnológicas no Brasil a noção de que em um
curso de Letras se estuda linguística, uma área do conhecimento que
emprega sofisticadas técnicas de matemática, estatística, lógica e
teoria da computação, entre outras. E falta a muitos alunos e
professores de Letras em nosso país a percepção da fundamental
importância das ciências exatas em linguística. A regra brasileira é que
cada um é absolutamente ignorante e preconceituoso sobre a área de
atuação do outro. Um curso como o de Letras na UTFPR seria uma ótima
oportunidade para estimulantes parcerias entre profissionais de
diferentes áreas. Mas, como o usual, nossas universidades mais parecem poliversidades,
nas quais cada um luta sozinho pelo seu pão mofado e poucos cogitam
sobre projetos verdadeiramente interdisciplinares. Posso afirmar isso
porque testemunhei de perto o assustador analfabetismo científico na
UTFPR, especialmente no Curso de Letras. E o mesmo vale para inúmeras
outras instituições de ensino superior que visitei. O pior é que essa
mentalidade se reflete na formação de futuros professores de matemática e
português do ensino médio, o foco deste texto.
Desde os anos 1950, devido a estudos de
Noam Chomsky e colaboradores, sabe-se da existência de uma elaborada
estrutura matemática nas gramáticas de praticamente todas as linguagens
naturais humanas, como português, inglês, francês, entre outras. Desde
então esses estudos tiveram significativos avanços no desenvolvimento de
programas de computador que fazem traduções, e que identificam
categorias gramaticais até mesmo de palavras ambíguas e de uso raro, na
elaboração de modelos matemáticos para compreender o comportamento
humano e de outras espécies animais, e no desenvolvimento de linguagens
computacionais e softwares compiladores. Propomos aqui as bases para uma
adaptação das ideias de Chomsky para o ensino médio brasileiro. O
pré-requisito matemático é a teoria de conjuntos.
O vocabulário léxico de uma gramática da
estrutura das frases (que abreviadamente chamamos de gramática) é o
conjunto L formado por:
(i) todas as palavras dicionarizadas (pedra, livro, perder etc) e
(ii) nomes próprios (João, Curitiba etc).
O vocabulário não léxico de uma gramática é um conjunto que denotamos por N e cujos elementos são:
(i) todas as categorias gramaticais usuais (ADJETIVO, SUBSTANTIVO, VERBO, FRASE SUBSTANTIVA etc.) e
(ii) um elemento que chamamos de símbolo inicial e denotamos por I.
Os conjuntos L e N são disjuntos, ou
seja, eles não têm elemento algum em comum. Como consequência disso o
léxico "adjetivo" não pode ser confundido com a categoria gramatical
ADJETIVO. Comentário análogo vale para todas as demais palavras
dicionarizadas (ou certas sequências de palavras) que remetem a
categorias gramaticais. A união de L com N resulta em um conjunto V
conhecido como o vocabulário da gramática.
É interessante usar abreviações para as
categorias gramaticais. Por exemplo, ADJETIVO pode ser abreviado por
ADJ. Já ARTIGO DEFINIDO, SUBSTANTIVO COMUM, VERBO, SUBSTANTIVO PRÓPRIO,
FRASE ADJETIVA, FRASE VERBAL e FRASE SUBSTANTIVA podem ser abreviados,
respectivamente, por AD, SC, VE, SP, FA, FV e FS.
Um string é uma sequência finita de
elementos do vocabulário V. Podemos (quando for necessário) separar os
elementos de um string pelo símbolo auxiliar +. Alguns exemplos de
strings são os seguintes:
(i) FA+ADJ+local+novidade+catar+SC+quem
(ii) acredito+que+hoje+consigo+entender+gramática
Intuitivamente falando, um dos objetivos
do estudo de gramática é definir critérios claros que permitam
reconhecer um string que potencialmente possa ser compreendido, a menos
de aspectos semânticos e pragmáticos da linguagem. Ou seja, não estamos
discutindo aqui sobre semântica. Por exemplo, se alguém introduz um
léxico novo no português (digamos, "catepondro") e usa este termo no
string "o catepondro é azul", uma gramática deve ajudar a determinar que
"catepondro" é um SUBSTANTIVO, ainda que não se saiba o significado
deste novo léxico. Quanto à dimensão pragmática das linguagens naturais,
esta também é abstraída aqui.
Existem infinitos strings para um mesmo
vocabulário V, ainda que esse vocabulário seja um conjunto finito. Isso
porque não há limite para o comprimento de um string. Vale observar que
textos em geral, sejam livros ou simples panfletos, são strings léxicos
(usam somente vocabulário léxico).
O comprimento de um string é o número de
elementos que ele tem. Nos dois exemplos de strings que apresentamos
acima, o primeiro tem comprimento 7 e o segundo tem comprimento 6. O
string de menor comprimento é o conjunto vazio. Seu comprimento é 0
(zero).
Para refrescar a memória do leitor, um par ordenado é um conjunto (p,q) tal que a ordem dos elementos p e q é relevante. Isso significa que se p é diferente de q então (p,q) é diferente de (q,p) e vice versa.
Um conceito fundamental no estudo de gramáticas de Chomsky é o de produção. Toda produção em uma gramática é um par ordenado (p,q) tal que p e q são strings e p jamais é o string vazio. Mas nem todo par ordenado (p,q) de strings é uma produção, mesmo que satisfaça à condição de que p seja não-vazio. Para definirmos uma gramática, precisamos estabelecer quais pares ordenados (p,q)
de strings são produções. Para isso, precisamos definir o conjunto P
das produções da gramática. A definição de P é crítica e depende da
linguagem que queremos associar à nossa gramática.
Em certas situações é mais interessante denotar uma produção (p,q) como p>q, que se lê "p produz q".
Usualmente se emprega uma flecha no lugar de >. Mas este blog tem
sérias limitações em termos de fontes permitidas. No entanto, na imagem
em anexo que exemplifica a árvore sintática da frase "João chutou a bola
azul" empregamos a usual notação de flechas, no lugar do símbolo >.
Se q é uma palavra do dicionário ou um nome próprio, então p>q é chamada de produção léxica.
Consideremos, para fins de ilustração, uma gramática muito simples na qual o vocabulário não-léxico N seja definido como:
N = {I, AD, SC, VE, SP, FA, FV, FS, ADJ}
Definimos também L como o conjunto cujos elementos são:
(i) as palavras de um dado dicionário de
língua portuguesa (como o excelente Houaiss), com suas correspondentes
classificações gramaticais e
(ii) nomes próprios.
O conjunto P das produções se define da
seguinte maneira: P tem todas as produções léxicas que podem ser obtidas
a partir do dicionário (ADJ>azul, VE>andar etc.), bem como as
seguintes produções não-léxicas:
(i) I>FV+FS, (ii) FV>FS+VE, (iii) FS>FS+FA, (iv) FS>FA+SC, (v) FA>ADJ, (vi) FA>AD, (vii) FS>SP.
Vale notar que as produções léxicas a>b, tais que b
é uma palavra dicionarizada, estão claramente explicitadas no
dicionário Houaiss de língua portuguesa. Se, por exemplo, procurarmos
pelo léxico "andar", descobriremos que uma das acepções desta palavra a
classifica como VERBO. Por isso podemos incluir a produção VE>andar
no conjunto P.
Em nosso exemplo elementar de gramática,
o símbolo inicial I, de acordo com o item (i) logo acima, produz
somente um string de comprimento 2, a saber, Frase Verbal seguida de
Frase Substantiva. Já de acordo com o item (ii), a Frase Verbal produz
outro string de comprimento 2: Frase Substantiva seguida de Verbo. Vale
observar que Frase Adjetiva pode produzir tanto Adjetivo quanto Artigo
Definido (itens (v) e (vi)), sendo ambos strings de comprimento 1.
Fazemos a leitura das demais produções de maneira análoga.
Agora podemos dar um exemplo de construção de árvore gramatical a partir de nossa gramática simplificada.
Clique na imagem para ampliá-la. |
As produções permitem (começando com o
símbolo inicial I e culminando com os elementos do vocabulário léxico)
desvendar uma estrutura gramatical do string "João chutou a bola azul".
Obviamente estamos omitindo o sinal + para a separação dos elementos de
nosso string exemplificador.
É claro que nosso exemplo é
exageradamente simplificado, pois não leva em conta a existência de
pronomes, preposições, advérbios e outras categorias gramaticais usuais e
importantes. Nosso propósito aqui é uma mera ilustração para propormos
um projeto que vai muito além de uma mera postagem em um blog.
Podemos agora definir o que é a linguagem gerada a partir de uma gramática.
Se g e d são strings, então dizemos que o string gbd é diretamente derivável do string gad (e escrevemos isso como gad=>gbd), se a produzir b; ou seja, se a>b. Vale observar que o símbolo => corresponde a uma flecha com dois traços horizontais.
Também dizemos que o string g(m) (onde m é um inteiro positivo) é derivável do string g(1) (e escrevemos isso como g(1)=>*g(m)) se existir uma sequência de strings g(2), g(3), g(4), ..., g(m-1), tal que g(2) é diretamente derivável de g(1), g(3) é diretamente derivável de g(2) e assim por diante, até chegarmos a g(m) diretamente derivável de g(m-1).
Assim, a linguagem gerada por uma
gramática é o conjunto de todos os strings do vocabulário léxico dessa
gramática que são deriváveis do símbolo inicial I.
Portanto, em nosso exemplo anterior, o
string "João chutou a bola azul" é um dos elementos da linguagem gerada
pela gramática simplificada que propomos a título de ilustração.
Uma característica notável das
gramáticas de Chomsky é a recursividade. Intuitivamente falando, a
recursividade permite gerar infinitos strings em uma linguagem, a partir
de um vocabulário finito. Basta ver, por exemplo, a produção do item
(iii) logo acima. Se a partir de FS podemos derivar FS+FA, isso
significa que podemos novamente aplicar a produção FS>FS+FA para
derivar FS+FA+FA a partir de FS. Repetindo o processo, podemos derivar
FS+FA+FA+FA a partir de FS e assim por diante. Por isso não há limites
sobre o que pode ser escrito ou falado em português, mesmo com uma
quantia finita de léxicos, nomes próprios e produções.
Lamentavelmente há limites do intelecto
humano para lidar com a recursividade das linguagens naturais,
principalmente quando se aplica a recursividade sobre strings envolvendo
uma adaptação dos quantificadores lógicos "para todo" e "existe". Para
detalhes ver a postagem O Estudante Brilhante.
Se flexibilizarmos nossa definição de
forma adequada, levando em conta as dimensões semântica e pragmática das
linguagens, podemos afirmar que cada pessoa possui sua própria
gramática da língua portuguesa. Isso porque cada indivíduo tem um
conhecimento particular de vocabulário. Afinal, termos que uma pessoa
conhece e emprega em seus discursos diários podem ser desconhecidos por
outras. Além disso, considerando que o vocabulário da língua portuguesa
está em constante mutação (incluindo e excluindo léxicos ao longo dos
anos), podemos seguramente afirmar que a gramática acompanha tais
mudanças. Ou seja, não existe a gramática do português. São muitas as gramáticas de nossa língua.
Mais importante do que o domínio de
conteúdos matemáticos específicos é a alfabetização em matemática.
Alunos têm que ser capazes de ler textos elementares de matemática. As
ferramentas que usamos aqui são apenas noções muito básicas sobre
conjuntos. Ainda assim, conseguimos mostrar de maneira muito breve como
utilizar a teoria de conjuntos para compreender um pouco a respeito da
matemática inerente aos nossos discursos do dia-a-dia e às nossas
leituras (sejam de romances ou placas de trânsito). Se estamos
conversando com um amigo, em português, inglês ou télugo, estamos
implicitamente usando muita matemática. Um simples "bom dia" se trata de
uma sofisticada (ainda que nem sempre consciente) aplicação matemática.
O que Chomsky fez foi revelar parte desta matemática, a qual hoje é
sabida como sendo algo muito mais elaborado.
Há professores de português que defendem
o estudo de gramática nas escolas com o propósito de redigir textos. O
string "azul João bola chutou a" não é imediatamente compreensível para
as pessoas como uma frase em português. Se um indivíduo ordena essas
palavras para formar o string "João chutou a bola azul", ele está
inconscientemente utilizando uma estrutura matemática que é inerente a
todos nós. E essa estrutura matemática é a mesma que viabiliza crianças a
aprenderem a falar e escrever. Outras espécies animais, a princípio,
não têm a sorte de contar com o acesso a tal estrutura lógica. Adaptar
as gramáticas de Chomsky aos nossos ensinos básicos é a promoção de uma
visão mais universal e atualizada de mundo. Conhecer matemática é
conhecer a nós mesmos. Se estamos interessados em preparar jovens para
uma vida universitária e não "poliversitária", precisamos ter em mente
uma unidade de conhecimentos. A interdisciplinaridade é um caminho muito
razoável. E desconheço motivos sensatos para não transpor as universais
gramáticas de Chomsky para o ensino médio.
Um dos aspectos mais interessantes das
gramáticas de Chomsky é um resultado no qual se prova que, em geral, uma
linguagem admite infinitas gramáticas que a gerem. Ou seja, sob este
ponto de vista, novamente não faz sentido falar na gramática da língua
portuguesa (com artigo definido). Existem infinitas gramáticas para a
linguagem que empregamos no dia-a-dia. Se queremos ensinar gramática
para jovens pré-universitários, devemos estabelecer método. Se não
explicitarmos quais são as produções a serem adotadas na gramática de
nossa linguagem, continuaremos a limitar nossa capacidade de
identificação de estrutura gramatical a meras opiniões, como
frequentemente acontece em nossas salas de aula.
Os físicos perceberam há séculos que a
matemática é uma poderosa ferramenta epistemológica e metodológica para a
ciência. O mesmo vale para químicos, geólogos, advogados, médicos,
administradores, filósofos, economistas, sociólogos, engenheiros,
arquitetos, biólogos e tantos outros profissionais. E há mais de meio
século os linguistas também se dão conta disso. É hora de atualizarmos
nosso ensino médio para podermos, pelo menos, acompanhar o mundo que nos
cerca.