Trabalho intitulado "BERTimbau" em Processamento de Linguagem Natural é premiado como melhor artigo do 9th Brazilian Conference on Intelligent Systems (BRACIS)

Em dezembro do ano passado, o Google anunciou a implantação de um novo algoritmo em seu motor de buscas: o BERT (Bidirectional Encoder Representations from Transformers). A solução consiste em um modelo de linguagem pré-treinado para processamento de linguagem natural, que permite melhor entendimento do que está sendo pesquisado pelo usuário e, por consequência, fornece resultados mais assertivos.

A fim de popularizar o uso do algoritmo na língua portuguesa, um time de pesquisa da FEEC-UNICAMP treinou o algoritmo em grandes quantidades de textos em português e disponibilizou-o publicamente. O time foi o primeiro a fornecer a solução no idioma brasileiro.

“O que fizemos foi treinar o BERT para língua portuguesa. Foi um trabalho que necessitou de vários dias de treinamento em hardware otimizado para redes neurais (TPUs), além de várias semanas de preparação dos dados e meses de avaliação da qualidade dos modelos”, afirma o principal desenvolvedor do projeto, o aluno de mestrado Fábio Capuano de Souza. O artigo resultante do trabalho ganhou o prêmio de melhor artigo na conferência BRACIS 2020 e os modelos publicados tem mais de 30,000 downloads mensais.

Estima-se que 15% das procuras feitas na plataforma do Google, diariamente, sejam formuladas de forma inédita. Por isso, é preciso chegar ao real significado da busca para garantir a entrega do resultado ideal, através de correlações, associações, entre outros métodos. É esperado que uma em cada dez buscas feitas seja impactada com a adoção do algoritmo. “O BERT permitiu que praticamente todas as tarefas de Linguagem Natural fossem melhor resolvidas, muitas vezes ultrapassando o desempenho humano”, avalia o professor Roberto de Alencar Lotufo, que coordenou o projeto.

A solução é um grande ganho para a comunidade de pesquisa bem como para empresas que queiram adotá-la. Interessados devem acessar o GitHub abaixo para ter acesso aos modelos treinados.

Artigo BRACIS 2020: https://link.springer.com/chapter/10.1007/978-3-030-61377-8_28

  • Fábio Souza, Rodrigo Nogueira, Roberto Lotufo. BERTimbau: Pretrained BERT Models for Brazilian Portuguese. In the Brazilian Conference on Intelligent Systems, {BRACIS}, Rio Grande do Sul, Brazil, October, 2020.

Código e modelos: www.github.com/neuralmind-ai/portuguese-bert