Me vê um texto menor, por favor?

O Processamento Automático de Línguas Naturais (PLN) é uma área que busca tornar possível a interação entre humanos e máquinas por meio de línguas naturais

Jackson Wilke da Cruz Souza · Sou Doutor, Mestre e Bacharel em Linguística pela Universidade Federal de São Carlos (UFSCar). Desenvolvo pesquisas na área de Processamento Automático de Línguas Naturais buscando estabelecer interação entre humano e máquina por meio da linguagem natural. Atualmente, sou professor adjunto da Universidade Federal de Alfenas (UNIFAL) campus de Varginha, no Instituto de Ciências Sociais Aplicadas, atuando na área de Comunicação

V.2 N.2 - 2019

Linguística Computacional

Tweet #revistaroseta

Certamente você já teve de resumir alguma história para alguém, mas é pouco provável que você tenha parado para pensar no processo por detrás dessa tarefa tão corriqueira. Nesse sentido, é necessário ter claro para quem você quer resumir a história, pois, a partir disso, serão selecionados pontos importantes dela e em qual ordem as informações (sucintas!) deverão ser ditas para que o ouvinte/leitor esteja mais atento ou informado sobre o que você quer dizer/escrever. Agora, muito menos provável é você ter parado para pensar se essa atividade, que fazemos com tanta frequência, pode ser realizada com os mesmos parâmetros por sistemas computacionais, conhecidos também como sumarizadores automáticos.

[o resumo de textos] pode ser realizado (…) por sistemas computacionais, conhecidos também como sumarizadores automáticos.

O Processamento Automático de Línguas Naturais (PLN) é uma área que busca tornar possível a interação entre humanos e máquinas por meio de línguas naturais. Os primeiros estudos que criaram essa ponte foram aqueles que resultaram em tradutores automáticos, muito associados ao contexto bélico da Guerra Fria. Até então, o objetivo desses tradutores era decodificar as mensagens interceptadas entre os exércitos adversários e, para tanto, essa “tradução” era realizada apenas por linguagens e/ou códigos computacionais e/ou matemáticas. Entretanto, ao passar dos anos, percebeu-se que havia algumas dificuldades a serem superadas nas traduções (como proposição de uma palavra/expressão equivocada) e que revisões humanas seriam necessárias para corrigir os textos. Nesse momento, deu-se conta de que muitos dos imbróglios enfrentados eram de natureza linguística e só poderiam ser superados se o modo de processar a linguagem fosse realizado por meio de uma descrição detalhada e robusta da língua utilizando a própria língua.

Assim, anos mais tarde, com as pesquisas na área de PLN e o avanço de teorias linguísticas descritivas, pôde-se executar automaticamente “tarefas linguísticas” com mais precisão e acerto. É daí que advém os corretores gramaticais, os reconhecedores e reprodutores de voz, bastante comuns nos smartphones atualmente, por exemplo, ou ainda, os sistemas de Sumarização Automática (SA). O objetivo desses sistemas é produzir uma versão reduzida, coerente, coesa e, ao mesmo tempo, informativa e genérica (no sentido de não ter um público-alvo específico) de um ou mais textos (escritos) que serviram de fonte para os sumários.

É daí que advém os corretores gramaticais, os reconhecedores e reprodutores de voz, bastante comuns nos smartphones atualmente, por exemplo, ou ainda, os sistemas de Sumarização Automática (SA).

Atualmente, a maioria das fontes informativas que consultamos estão on-line, onde a disponibilização e circulação da informação digital vêm aumentando consideravelmente nos últimos anos. Para se ter uma ideia, um relatório publicado pela Cisco-Visual-Networking-Index projeta que em 2021 a produção de informação será de 3,3 Zettabyte na Web!

Ainda tendo o ambiente virtual como motivação, os sistemas de SA encontram um complicador à tarefa: é quase impossível haver apenas uma única publicação/notícia sobre um evento específico, dada a grande quantidade de jornais, blogs e postagens em redes sociais que se é produzida. Para ilustrar, realizamos uma busca online sobre a “greve dos caminhoneiros”, dentro de um recorte temporal de um ano apenas em textos jornalísticos. Como resultado, obtivemos 62.900 resultados para o termo buscado; ou seja: aproximadamente 63 mil notícias circularam na Web no último ano sobre a greve de caminhoneiros que aconteceu no Brasil, em 2018. Os pesquisadores em SA apontam que a relação entre a grande quantidade de informação disponível e o pouco tempo que o usuário usufrui para processá-la é a principal motivação para os estudos nessa área. Eles ainda propõem que a SA pode ser realizada apenas pela seleção, recorte e reorganização das sentenças dos textos-fonte, ou pela seleção e reescrita com outras palavras das sentenças escolhidas.

No Quadro 1, ilustramos fragmentos de notícias retiradas de fontes virtuais de notícia. Esses fragmentos relatam sobre o sexto dia de greve organizada pelos caminhoneiros no Brasil, em 2018. A fim de observação, as sentenças (S) dos textos foram enumeradas, ignorando a organização de parágrafos dos textos, resultando em 4 sentenças, em cada um dos textos, e 191 palavras.

Quadro 1: Fragmentos de textos originais sobre a greve dos caminhoneiros.

A partir do Quadro 1, é possível observar a existência de fenômenos linguísticos: entre as Sentença 1 e 2, do Texto I, e a Sentença 1, do Texto II, há redundância (ou similaridade) de conteúdo (como a informação da data de início do movimento) e complementaridade (como detalhes de informações). Diante da tarefa de realizar um sumário automático, é preciso que o sistema de SA identifique essas e outras possíveis relações entre os textos, baseando-se em informações linguísticas que estejam disponíveis na superfície textual. A redundância, no exemplo citado, é caracterizada por apresentar palavras importantes (como substantivos) comuns às duas sentenças (p.ex.: “caminhoneiros” e “país”); já a complementaridade, por apresentar informações no Texto II que não estão presentes no Texto I, como a quantidade de pontos bloqueados nas rodovias.

O papel do linguista, nesse processo inicial, é mapear esses e outros fenômenos (como a contradição e variação de estilo de escrita) e, após isso, levantar as características que evidenciam a ocorrência deles para que os sistemas computacionais compreendam e aprendam a reconhecer essas relações, como “se houver palavras iguais entre duas sentenças, a relação é de redundância”, por exemplo. Assim, posteriormente, será possível automatizar a sumarização. No Quadro 2, ilustra-se um sumário sintetizado a partir dos Textos I e II, do Quadro 1.

Quadro 2: Texto sumarizado com base nos Textos I e II.

No sumário do Quadro 2, foram selecionadas as sentenças que pudessem representar o assunto dos textos originais de maneira a evitar a redundância e contradição informativas, e salientar a complementaridade entre as sentenças. Como resultado, tem-se um texto constituído por 71 palavras e apenas três sentenças; em relação aos textos originais, o sumário representa cerca de 37% de palavras e sentenças. Esse “corte” nos textos originais, que representa um pouco mais de 70% deles, caracteriza a taxa de compressão, ou seja, a quantidade de informação que o usuário do sistema de SA deseja que não conste em seu sumário.

O futuro das pesquisas em SA em Língua Portuguesa (…) caminha em direção ao outro tipo de sumarização que foi colocado logo no início deste texto: a reescrita das sentenças.

Os sistemas de SA ainda precisam considerar o fluxo de informação entre as sentenças dos textos originais: imagine se a última sentença do Texto II fosse a primeira sentença do sumário – que confusão seria! Assim, outra atividade do pesquisador é avaliar a qualidade linguística dos sumários finais, analisando a coerência, coesão e informatividade do texto. Caso sejam identificados desvios operacionais ou de resultados, será necessário revisar cada uma das etapas e, possivelmente, aprimorar as descrições linguísticas a serem implementadas no sistema de SA, posteriormente.

O futuro das pesquisas em SA em Língua Portuguesa, especialmente as que são desenvolvidas pelo Núcleo Interinstitucional de Linguística Computacional (NILC), cuja sede fica na Universidade de São Paulo (USP-São Carlos), caminha em direção ao outro tipo de sumarização que foi colocado logo no início deste texto: a reescrita das sentenças. Pensando em todo o processo de sistemas dessa natureza, será necessário acrescentar outra etapa na sumarização: prever e reelaborar automaticamente as sentenças escolhidas para o sumário. Entretanto, para que essas pesquisas sejam desenvolvidas, será importante estudarmos mais o próprio comportamento humano em sumarizar textos e, consequentemente, de descrições linguísticas mais detalhadas desse comportamento.