O projeto Yẽgatu Digital foi o resultado de um processo que começou com o desenvolvimento de tecnologias básicas pela IBM Research e pela Universidade de São Paulo, e sua exploração inicial com uma escola comunitária Guarani Mbya em São Paulo. Após esse engajamento inicial, as ferramentas foram portadas para a língua Nheengatu e, seguindo os protocolos da Federação das Organizações Indígenas do Rio Negro (FOIRN), foi estabelecida uma parceria com duas comunidades locais na Amazônia para testar as ferramentas em suas escolas para fomentar o uso digital do Nheengatu.
O laboratório da IBM Research no Brasil, em parceria com a Universidade de São Paulo (USP), vem desenvolvendo ferramentas de leitura/escrita baseadas em IA para línguas indígenas nos últimos 3 anos no contexto do projeto PROLIND do Centro de Inteligência Artificial criado pela USP, IBM e FAPESP em 2020 (C4AI). As ferramentas de apoio à escrita são essenciais para facilitar o uso de idiomas indígenas na Internet e nas mídias sociais.
A IBM Research tem desenvolvido tradutores, corretores ortográficos, dicionários eletrônicos e completadores de palavras para línguas indígenas. Essas ferramentas, desenvolvidas usando tecnologias de IA/LLM de última geração, foram incorporadas em aplicativos móveis e da web fáceis de usar. As ferramentas foram desenvolvidas a partir de dados linguísticos (como dicionários) seguindo diretrizes éticas, sem qualquer tipo de coleta de dados de grupos indígenas.
Desde o início do projeto PROLIND em 2022, temos nos envolvido com muitas comunidades no Brasil, incluindo os povos Guarani Mbya, Guarani Kaiowá, Guarani Nhandewa, Tupi, Terena, Baré, Wassu, Tukano, Pankararu, Zoé, Baniwa e Mehinako. No início de 2023, após uma série de reuniões com a comunidade Tenondé Porã, que fala o Guarani Mbya na periferia da cidade de São Paulo, fomos convidados pela comunidade a explorar o uso de auxiliares de escrita por estudantes indígenas do ensino médio e a realizar atividades de fomento à documentação e análise linguística liderada pela comunidade.
O convite dessa comunidade Guarani Mbya levou a oficinas semanais de 2 horas, onde várias tecnologias e protótipos de assistentes de escrita foram apresentados e usados por alunos de uma escola secundária bilíngue indígena local. Usamos esses protótipos como ''technology probes'', uma variação da ideia de ''cultural probes'', também conhecidas como ''design probes''. A ideia principal era inserir algum tipo de artefato tecnológico na sala de aula que pudesse obter respostas dos alunos no contexto de tarefas reais de escrita.
No total, 14 workshops foram realizados ao longo de três meses, durante os quais diferentes versões do protótipo do assistente de escrita e seus componentes foram usadas e discutidas no contexto de várias atividades de escrita. Embora esse primeiro engajamento tenha tido resultados limitados em termos de criação de tecnologia de alta qualidade ou implantação de ferramentas de escrita reais, ele demonstrou a necessidade de boas ferramentas e métodos de escrita para apoiar uma geração de alunos que, apesar de serem fluentes em sua língua nativa, ainda estavam aprendendo a escrever nela. Enquanto esses jovens estavam ativamente envolvidos na escrita de mensagens entre si, na leitura das mídias sociais e no compartilhamento de conteúdo, a presença de texto em Guarani Mbya em suas vidas digitais parecia ser quase inexistente. Concluiu-se que há uma necessidade premente de desenvolver ferramentas de apoio à escrita digital entre os jovens, que encontram dificuldades em traduzir em texto conceitos e ideias que possam facilmente expressar verbalmente.
Após nosso envolvimento com os Guaranis, decidimos nos concentrar em outra língua indígena, o Nheengatu, que é falado por aproximadamente 20.000 pessoas em três áreas diferentes da Amazônia e no Nordeste do Brasil. Essa língua é usada por vários povos e etnias, inclusive nos casos em que a língua foi adotada por grupos após a perda de sua língua original, como os Baré. Para o Nheengatu, a equipe de pesquisa da IBM construiu protótipos iniciais em 2024 de tradutores de e para a língua portuguesa, corretores ortográficos e completadores de palavras próximas, que foram empacotados em três protótipos de assistentes de redação. Foram utilizados apenas dados disponíveis de fontes linguísticas na Internet.
Consideramos que um bom ponto de partida poderia ser o uso das ferramentas de IA no contexto de escolas indígenas de ensino fundamental e médio da etnia Baré em comunidades próximas a São Gabriel da Cachoeira, Brasil, em uma das áreas de maior diversidade linguística da Amazônia. O processo começou em abril de 2024 com uma apresentação de um membro da nossa equipe sobre o projeto durante uma assembleia do CAIBARNX, quando a comunidade aprovou a ideia de explorar uma parceria e a entrada dos pesquisadores e técnicos na terra indígena.
Com o apoio da FOIRN e do CAIBARNX, em setembro de 2024 uma equipe visitou duas dessas comunidades, Juruti e Tabocal dos Pereira. São aldeias indígenas típicas das margens do Rio Negro, e são acessíveis apenas por pequenas embarcações, a cerca de 5 horas de viagem de São Gabriel da Cachoeira.
A comunidade de Juruti abriga cerca de 20 famílias, tem uma escola de ensino fundamental e só recentemente obteve acesso à Internet de alta velocidade por meio de um provedor de Internet via satélite. Tivemos três encontros com líderes e professores desta comunidade, cerca de 15 pessoas no total, onde nos falaram sobre as preocupações da comunidade com o uso excessivo da Internet por seus jovens, e como o fortalecimento do uso de sua língua é essencial para criar um forte senso de identidade. Durante uma das conversas, mostramos a eles um vídeo do assistente de redação para a língua Nheengatu que estávamos desenvolvendo e, na discussão seguinte, a maioria das pessoas concordou que poderia ser uma ferramenta a ser testada na escola com os alunos, como uma forma de fazê-los escrever mais e melhor. Sugerimos a realização de oficinas semanais explorando o uso de ferramentas de escrita digital como parte das aulas de Nheengatu da escola, para o que eles concordaram se pudéssemos fornecer também a infraestrutura.
A segunda comunidade que visitamos, Tabocal dos Pereira, é maior que a primeira, cerca de 100 famílias, com um programa escolar bilíngue abrangendo ensino fundamental e médio bem estabelecido. Fomos recebidos no tradicional local de encontro da comunidade onde foram feitas demonstrações das habilidades dos alunos na escrita da língua Nheengatu. Em seguida, passamos por uma série de reuniões, onde vimos novamente as preocupações dos professores locais com o impacto da chegada da Internet via satélite. Também conversamos com os alunos do ensino médio que confirmaram a percepção dos professores de que, embora usem o Nheengatu como língua preferida para interações faladas dentro da comunidade, nunca o utilizam na Internet, nem mesmo em segmentos falados nas mídias sociais. A proposta de estabelecer uma oficina semanal com os alunos do ensino fundamental e médio também foi bem recebida pelos professores, que queriam um forte foco em facilitar o uso do Nheengatu na Internet e na criação de conteúdo no idioma para atrair e motivar os jovens. No entanto, isso deve ser feito na ortografia particular da língua Nheengatu usada na área, o que motivou modificações importantes nas ferramentas que haviam sendo desenvolvidas.
Em maio de 2025, foi assinado um acordo de cooperação entre a FOIRN (Federação das Organizações Indígenas do Rio Negro) e a Universidade de São Paulo (USP), através do CIAAM (Centro de Inteligência Artificial e Aprendizado de Máquina), com a participação do Centro de Inteligência Artificial da USP (C4AI) e da IBM Research Brasil.
A FOIRN, que há mais de três décadas atua como a principal referência institucional para os povos indígenas do Rio Negro, tem assumido um papel de liderança no processo como articuladora de ações comunitárias e coordenadora da política de fortalecimento da língua Yẽgatu (Nheengatu na ortografia local) no território. A USP, por meio do CIAAM, inaugurou uma participação pioneira nas ações de vitalização das línguas indígenas com o uso de tecnologias digitais avançadas em combinação com métodos de pesquisa linguística.
O acordo estabeleceu compromissos bilaterais nas áreas de educação digital, pesquisa aplicada e desenvolvimento de tecnologias da linguagem, com base em protocolos de escuta, corresponsabilidade e autonomia indígena, por meio da construção de duas salas de aula digitais, para educação a distância e colaboração com as comunidades Baré de Juruti e Tabocal dos Pereira. O C4AI contribui para a base técnica e científica para o desenvolvimento de soluções de linguagem natural e inteligência artificial adaptadas às línguas indígenas, inicialmente exploradas no projeto PROLIND.
Este acordo representa um marco na construção de alianças institucionais centradas na soberania linguística indígena e na produção intercultural de conhecimento, nas quais ciência e ancestralidade andam de mãos dadas.