O filme A Lista de Schindler e o Ministério de Ciência, Tecnologia e Inovação

A atual política governamental de CT&I está equivocada ao priorizar determinadas áreas de pesquisa

Roberto Leiser Baronas e Mariana Guidetti Rosa · Roberto Leiser Baronas é Doutor em Linguística e Língua Portuguesa pela FCL/UNESP de Araraquara, professor no Departamento de Letras da UFSCar e no Programa de Estudos da Linguagem – PPGEL da UFMT. Bolsista de produtividade em pesquisa do CNPq. Mariana Guidetti Rosa é mestra em Linguística pelo Programa de Pós-Graduação em Linguística da UFSCar e professora de língua inglesa na rede privada de ensino de São Carlos

“Aquele que salva uma vida salva o mundo inteiro”

Citação extraída do Talmude

Este texto, fazendo coro a milhares de vozes, especialmente as dos atores sociais, que participam das associações científicas brasileiras, tem um claro objetivo que é questionar o estabelecimento por parte do então Ministério de Ciência, Tecnologia, Inovação e Comunicação – MCTIC – hoje MCTI – de áreas prioritárias para investimento em ciência, tecnologia e inovação – CT&I. Para tanto, dividimos esse pequeno ensaio em três partes. Na primeira, fazemos alusão ao filme A Lista de Schindler de Steven Spielberg, relacionando-o com os possíveis efeitos maléficos para sociedade brasileira em geral da portaria do MCTIC[1], de 19/03/2020[2], estabelecendo áreas prioritárias de investimento em CT&I. Na segunda, descrevemos muito rapidamente o projeto de comunicação das ciências da linguagem Abralin ao Vivo para mostrar um pouco do seu caráter inovador, propondo, a partir de um efeito colateral, uma nova partilha discursiva científica. Por último, retomamos com mais vagar uma Live apresentada no Abralin ao Vivo, a do Prof. Marcelo Finger da USP, para evidenciar o quão as ciências da linguagem, juntamente com as demais ciências praticadas em solo brasileiro, são fundamentais para o desenvolvimento social, econômico e político do Brasil.

1. A Lista de Schindler e o MCTI

O filme A Lista de Schindler consiste em um drama histórico norte-americano, lançando em 1993. A narrativa mostra com uma riqueza de detalhes impressionante como os alemães, por um lado, para explorar e expropriar e, por outro, para justificar a execução de milhões de judeus se utilizam da categoria de trabalhadores essenciais (médicos, engenheiros, arquitetos…) para o esforço de guerra. Todos os trabalhadores que não eram considerados essenciais para o regime (professores, artistas, escritores…) eram enviados para morrer nos campos de concentração nazista.

O problema é que pessoas como Oscar e Emilie Schindler, personagens do filme A lista de Schindler, dentre os detentores de capital econômico neste país, como demonstram algumas falas pouco sensíveis de empresários brasileiros durante a Covid19 sobre as mortes de milhares de pessoas, são bem raras.

Quando o então MCTIC publica uma portaria como a de 19/03/2020 ou a sua versão relativizada de 27/03/2020, estabelecendo que existem áreas prioritárias de investimento em CT&I, esta ação governamental pode ser lida, numa semântica argumentativa (Ducrot, 1987), que o ministério está deixando no pressuposto que há áreas que não são prioritárias, portanto menos essenciais do que  outras. Ademais, mesmo que a portaria mencionada tenha recebido nova redação em 27/03/2020: “Parágrafo único. São também considerados prioritários, diante de sua característica essencial e transversal, os projetos de pesquisa básica, humanidades e ciências sociais que contribuam para o desenvolvimento das áreas definidas nos incisos I a V do caput’”, o pré-construído, o que fala antes, independentemente em outro lugar (Pêcheux, 1975/2014), materializado na oração adjetiva sublinhada, ao limitar os sentidos de quais pesquisas básicas, humanidades e ciências sociais podem ser essenciais – as que contribuam com as essenciais – não deixa dúvidas da atual política governamental em CT&I da exclusão de áreas não prioritárias do investimento por parte do então MCTIC. Para além e aquém disso, é possível interpretar que toda a massa de trabalhadores (professores, pesquisadores, alunos, técnicos…), que faz parte, do que é considerado não essencial por falta de fomento às suas pesquisas está condenada à extinção.  Qualquer semelhança com A Lista de Schindler não é mera coincidência. Tragicamente, o problema é que pessoas como Oscar e Emilie Schindler, dentre os detentores de capital econômico neste país, como demonstram algumas falas pouco sensíveis de empresários brasileiros durante a Covid19 sobre as mortes de milhares de pessoas, são bem raras.

2. O Abralin ao Vivo e a nova partilha discursiva[3] científica

 O Abralin ao Vivo é historicamente, sem sombra de dúvidas, a concretização do maior projeto de comunicação das Ciências da Linguagem, não apenas no contexto brasileiro, mas no contexto mundial. Além disso, é mister abordar outro aspecto desse evento, até então não tratado, uma espécie de efeito colateral[4] muito benéfico, que é a proposição de uma nova partilha do sensível acadêmico, isto é, o Abralin ao Vivo além renomadíssimos pesquisadores e pesquisadoras nacionais e internacionais,  trouxe para o debate atores sociais, especialmente mulheres negras e indígenas, que historicamente não frequentam com protagonismo as atividades (conferências, palestras e mesas redondas) da ABRALIN e de qualquer outra associação científica brasileira. Refiro-me, por exemplo, a pessoas como Conceição Evaristo, Joice Berth, Suzete Lima Kourliandsky, Watatakalu Yalapiti e muites outres, que mobilizam em suas falas noções e conceitos produzidos na/pela sua experiência na luta cotidiana contra a discriminação, o preconceito e o racismo. Trata-se de uma ação, que mesmo produzida a partir de um efeito colateral, ajuda a colocar em xeque o capital de fala do intelectual clássico: homem, branco, heterossexual, acadêmico, redistribuindo esse capital simbólico e provocando uma nova partilha do sensível acadêmico, visibilizando outros lugares de fala, que no singular contam a história de uma luta coletiva.

 “(…) a Abralin – Associação Brasileira de Linguística, em cooperação com o  CIPL – Comité International Permanent des Linguistes, a ALFAL – Asociación de Lingüística y Filología de América Latina, a SAEL – Sociedad Argentina de Estudios Lingüísticos, a ALAB – Associação de Linguística Aplicada do Brasil, a AILA – Association Internationale de Linguistique Appliquée, a LSA – Linguistic Society of America, a LAGB – Linguistics Association of Great Britain, a SLE – Societas Linguistica Europaea, a ALS – Australian Linguistic Society, a BAAL – British Association for Applied Linguistics e a SEL – Sociedad Española de Lingüística, está organizando o evento virtual Abralin ao Vivo: Linguists Online. O evento foi idealizado para dar acesso livre e gratuito a estudantes, pesquisadores e demais interessados em diferentes aspectos da investigação em linguística a discussões e apresentações sobre os mais diversos temas relacionados ao estudo da linguagem humana. O Abralin ao Vivo tem uma agenda diária de conferências e mesas-redondas com importantes nomes do cenário nacional e internacional da Linguística. Essas atividades serão transmitidas online, em uma plataforma aberta e interativa, com espaço para perguntas da audiência. As transmissões ficarão disponíveis para acesso posterior na plataforma e algumas terão tradução simultânea para o português e sinalização em Libras, em mais uma ação solidária da comunidade acadêmica em prol da difusão do conhecimento[5]

O Abralin ao Vivo é uma ação de comunicação científica sem precedentes, que busca também colocar em xeque o capital de fala do intelectual clássico: homem, branco, heterossexual, acadêmico, redistribuindo esse capital simbólico e provocando uma nova partilha do sensível, visibilizando outros lugares de fala.

 Evidentemente que o Abralin ao Vivo não se apresenta como uma panaceia para que essa nova partilha discursiva científica se configure como a identidade necessária da ciência brasileira, muito marcada ainda pelo predomínio do intelectual clássico e nem era esse o objetivo precípuo do evento, mas é um começo bastante auspicioso na busca por essa nova partilha do sensível acadêmico, que fora da academia, está muito presente, especialmente nas redes sociais[6].

3. No carrefour entre linguagem, computação e medicina

Nessa última parte, fazemos alusão à Live intitulada Detecção de quadros médicos usando modelos neurais de linguagem, apresentada no Abralin ao Vivo, em 08/07/2020 pelo pesquisador Marcelo Finger (DCC-IME-USP). A escolha dessa Live dentre as 259 conferências, 89 mesas redondas e 03 simpósios apresentados  no Abralin ao Vivo, envolvendo 587 palestrantes de 44 diferentes países, além de ser uma espécie representação metonímica do caráter inovador do projeto da Abralin, se deveu por duas razões: primeiro, trata-se de um projeto de pesquisa multidisciplinar no qual dialogam as ciências da linguagem, as ciências médicas e as da computação e segundo, trata-se de um tema atualíssimo, que é buscar soluções de combate a COVID19.

Nessa Live, Finger discute[7] sobre o novo Projeto SPIRA – Sistema de Detecção Precoce de Insuficiência Respiratória por Meio da Análise de Áudio – que pretende detectar insuficiência respiratória por meio de análise de voz. Este projeto faz parte de um programa de pesquisa com o objetivo de construir recursos linguísticos computacionais para o português, de modo a tirá-lo das fileiras de “linguagens de baixo recurso”, se comparada com outras línguas, e colocá-lo na linha de frente na busca de modelos de linguagem baseados em aprendizado de máquina. Estes modelos deverão permitir a produção de ferramentas úteis e trazer compreensão acerca de fenômenos linguísticos.

O projeto SPIRA[8] é coordenado pelo Prof. Dr. Marcelo Finger (DCC-IME-USP), pela Profa. Dra. Ester Cerdeira Sabino (FMUSP) e pela Profa Dra. Anna Sara Levin Shafferman (FMUSP) e possui pesquisadores e alunos também dos campi da USP de Ribeirão Preto e São Carlos. O projeto consiste na detecção de voz a fim de poder identificar a presença de um quadro de insuficiência respiratória e da necessidade de internação do paciente. A ideia inicial do projeto era monitorar os profissionais de saúde, entretanto, atualmente, o projeto pretende ser utilizado na triagem de pacientes que estão sofrendo de insuficiência respiratória, que pode ser um sintoma de que a pessoa esteja com o coronavírus.

A captação de voz consistirá no uso do celular para recolhimento de dados de pacientes que estão internados em enfermarias com insuficiência respiratória por conta da COVID-19 e também dados de pessoas saudáveis, que estão em casa. Um dos objetivos é poder identificar a hipoxia silenciosa, em que há baixo oxigênio no sangue, e também o momento em que a voz da pessoa se altera. Muitas pessoas podem estar com baixo oxigênio no sangue sem ter sintomas aparentes, ou seja, esse sistema ajudaria a identificar facilmente esses casos. Um sintoma perceptível da insuficiência respiratória seria a dificuldade da pessoa em falar por conta da falta de ar.

A partir da captação de voz pelo celular, o sistema detectaria e apontaria se a voz está normal ou se a pessoa está com insuficiência respiratória. No último caso, o sistema dispararia um alarme e um aviso (“Algum profissional de saúde vai entrar em contato  com você”), e assim avisaria um profissional de saúde sobre a condição do paciente.

Para que o projeto fosse iniciado, houve a necessidade de escrever um pedido ao Comitê de Ética em Pesquisa do Hospital das Clínicas (USP), que foi aprovado. O projeto também está sendo financiado pela FAPESP e atualmente estão realizando a coleta de dados de voz por meio do site <https://spira.ime.usp.br/coleta/>. Na Metodologia de pesquisa, a) primeiramente está sendo realizada a coleta de dados de pacientes no hospital e de pessoas saudáveis em casa; b) muitos modelos para classificação de voz estão sendo treinados pelo fato do áudio ser diferente se a pessoa estiver em diferentes lugares, como na enfermaria ou em casa:  modelos neurais (sinais pré-processados: fundamental para um bom resultado) e clássicos (olhar para o sinal de áudio e suas transformações); c) haverá o desenvolvimento de software para a triagem de pacientes. Até o momento, os dados coletados teriam sido de 521 pacientes e mais de 10 mil amostras de voz doadas.

Finger ressalta que o aparecimento do Projeto SPIRA em diversos meios midiáticos ajudou na divulgação e nas doações de vozes voluntárias para a coleta de dados. Há três modelos neurais em construção: um clássico, que olha para os dados e suas transformações, e dois modelos neurais, um baseado em redes neurais convolucionais (CNN) e uma rede LSTM (tipo sequência a sequência) que codifica o sinal de voz. Há também outros modelos que estão em preparação.

De acordo com Marcelo Finger, o Projeto SPIRA faz parte de um projeto maior, o de juntar pesquisadores das áreas de redes neurais, de PLN (Processamento de Língua Natural) e de Inteligência Artificial a fim de ter um Programa de Pesquisa de Inteligência Artificial em Modelos Neurais (Linguística Computacional). Para que isso aconteça, de acordo com Finger, é preciso prover infraestrutura da seguinte maneira: a) Montar um corpus de Português, com bilhões de palavras, para serem disponibilizados livremente; b) Montar textos anotados (sintática e semanticamente): alguns milhões de palavras para criar recursos de textos etiquetados e com volume; c) Na área de processamento de voz, ter milhares de horas de textos transcritos; d) Possuir um método que faça um Pipeline para um modelo neural (BERT, RoBERTa, XLNet, T5, etc) e treiná-los para o Português.

Após possuir a infraestrutura necessária, pretende-se iniciar a construção de aplicações baseadas nesses modelos, como, por exemplo, o próprio Projeto SPIRA. A escolha pelos modelos neurais, de acordo com Finger (2020), se deve pelos seguintes fatores que ele considera como pontos fortes: redes neurais escalam muito bem, têm muita tolerância a ruídos, e evoluíram na captação da noção de contexto. Os pontos fracos das redes neurais seriam: elas não têm uma fundamentação teórica forte (caixa preta), não têm representação explícita da estrutura da linguagem (diferente das gramáticas gerativistas), e requerem muitos recursos (na quantidade de dados e equipamentos, GPU, placas especiais para fazer processamento da fala).

Segundo Finger, houve uma evolução na captação de contexto pelas redes neurais nos últimos 20 anos. Atualmente, elas são capazes de: a) Modelar propriedades de palavras como vetor de característica (qual a probabilidade da palavra aparecer como substantivo, como verbo; flexão de gênero, número, etc); b) Fazer codificação vetorial das palavras que trazem melhores resultados. Essas inserções nos espaços vetoriais começaram a capturar os significados para identificar em que contexto de proximidade essas palavras ocorrem; c) A presença do word2vec, vetor que tem sensibilidade ao contexto; d)  Codificações sequência a sequência dos vetores para transpor em uma outra língua; d) Modelos transformers que fazem camadas e camadas de correlação de captura de sensibilidade ao contexto.

A atual política governamental de CT&I está equivocada ao priorizar determinadas áreas de pesquisa em detrimento de outras. É preciso investir numa política científica regida pelo princípio das novas partilhas discursivas científicas, da troca de conhecimentos entre os diferentes pesquisadores e pesquisadoras em diferentes campos do saber.

Os Modelos pré-treinados ocorrem de maneira não supervisionada, com um corpus gigantesco (bilhões de palavras), com quantidades enormes de recursos computacionais (diversas CPU e GPU). Após o treinamento, com uma quantidade menor de dados, é possível se especializar: por exemplo, análise de sentimento, ou algum outro tipo de aplicação com vocabulário em quantidade menor a partir de um modelo pré-treinado de linguagem. Modelos pré-treinados permitem aprendizado por transferência.

O projeto[9], suscintamente descrito, embora esteja engatinhando com poucos resultados ainda, nos mostra o quanto a atual política governamental de CT&I, está equivocada ao priorizar determinadas áreas de pesquisa em detrimento de outras. Diferentemente dessa política de triagem, que principia pela exclusão (Zilberberg, 2003), isto é, advoga a separação do que é essencial do que é supostamente não essencial, cujo traço de sentido primeiro de exclusão, que também está na base dos discursos totalitários, é preciso investir numa política de CT&I de mistura (Zilberberg, 2003), regida pelo princípio das novas partilhas discursivas científicas, da participação, da interação, do diálogo, da troca de conhecimentos entre os diferentes pesquisadores e pesquisadoras em diferentes campos do saber, como por exemplo, tem feito a Abralin, por meio do Abralin ao Vivo.


[1] A portaria em questão pode ser acessada em http://www.mctic.gov.br/mctic/opencms/legislacao/portarias/Portaria_MCTIC_n_1122_de_19032020.html

[2] Essa portaria teve uma alteração em 27/03/2020 com a seguinte redação: “Parágrafo único. São também considerados prioritários, diante de sua característica essencial e transversal, os projetos de pesquisa básica, humanidades e ciências sociais que contribuam para o desenvolvimento das áreas definidas nos incisos I a V do caput’’ (Grifos nossos).

[3] Sobre esse conceito ver o importante artigo de Ivana Bentes, publicado na Revista Cult, em 12/08/2020. Disponível em https://revistacult.uol.com.br/home/nos-os-brancos-e-a-nova-partilhadiscursiva/#.Xzh3AntPPUI.whatsapp

[4] Designamos como efeito colateral, pois a nova partilha do sensível acadêmico não era o objetivo primeiro do Abralin ao Vivo.

[5] Informações retiradas do site da Abralin: https://www.abralin.org/site/evento/abralin-ao-vivo/

[6] Um bom esse exemplo dessa nova partilha do sensível nas redes sociais pode ser observado na polêmica  envolvendo a antropóloga Lilia Schwarcz, após a publicação de seu texto na Folha de S. Paulo, em 02/08/2020, intitulado “Filme de Beyoncé erra ao glamorizar a negritude com estampa de oncinha”. Disponível em https://www1.folha.uol.com.br/ilustrada/2020/08/filme-de-beyonce-erra-ao-glamorizar-negritude-com-estampa-de-oncinha.shtml

[7] Disponível em: https://youtu.be/YH6YzJRUkU0. Acesso em 19/07/20

[8] Website do SPIRA: https://spira.ime.usp.br/

[9] Um pequeno vídeo intitulado Insuficiência respiratória identificada pela voz, que explica resumidamente o SPIRA, pode ser acessado gratuitamente em https://agencia.fapesp.br/videos/#XR5S55dzl4U