O Centro de Pesquisa em Inteligência Artificial do Brasil (C4IA), iniciativa da parceria entre IBM, Universidade de São Paulo (USP) e Fapesp (Fundação de Amparo à Pesquisa do Estado de São Paulo), fez um ano e as organizações envolvidas aproveitaram para apresentar os avanços nas pesquisas. O C4IA realizou avanços nas frentes de Processamento de Linguagem Natural (PLN), saúde e meio ambiente, com pesquisas relacionadas ao aprimoramento do PLN em português, trabalhos para a caracterização automática de acidentes vasculares cerebrais (AVCs) e no desenvolvimento de uma base interativa e inteligente sobre a costa brasileira.
Conhecida como Amazônia Azul, a vasta região do oceano Atlântico na costa brasileira é rica em biodiversidade e recursos energéticos. A intenção é construir um agente de conversação que domine o conhecimento existente sobre a Amazônia Azul e a primeira novidade do centro é o Pirá, conjunto de dados de perguntas e respostas de grande porte em português e inglês.
Ele contém mais de 160 mil pares de perguntas e respostas em inglês sobre a costa oceânica brasileira, criadas a partir de textos científicos e oito mil pares de perguntas em português criadas manualmente. A sua existência irá contribuir substancialmente para a evolução de tecnologias de conversação, incluindo as de assistentes virtuais no Brasil, e pretende responder às perguntas mais diversas sobre o ecossistema marinho.
Diagnóstico e recuperação de AVC para apoio a médicos
No projeto de pesquisa focado no modelamento de AVCs (Acidente Vascular Cerebral) com técnicas de IA, foi realizada uma coleta de dados de eletroencefalogramas (EEGs) com auxílio do Laboratório de Neuromodulação do Instituto de Medicina Física e Reabilitação do Hospital das Clínicas da Faculdade de Medicina da USP.
A partir desses dados, foi desenvolvido um sistema inicial de classificação de AVC usando redes complexas, que utilizam técnicas de aprendizado de máquina e com dados multimodais. Foram também desenvolvidos um sistema para filtragem de dados usando IA e uma plataforma para manipulação, visualização e análise de EEGs
As aplicações de aprendizado de máquina na medicina, frequentemente, precisam lidar com conjuntos de dados heterogêneos e dinâmicos de grande escala, como textos, imagens e biomarcadores genéticos. A integração destas informações é essencial para tratar corretamente os problemas de saúde, permitindo que médicos e profissionais da área selecionem e entendam quais atributos são mais relevantes para a classificação de um AVC, fornecendo informações importantes para a tomada de decisões.
Processamento da língua natural em português
O C4IA está disponibilizando três conjuntos de dados fundamentais para o avanço do processamento computacional do idioma. Estes conjuntos de dados contêm textos de fontes diversas, minuciosamente anotados por estudantes de linguística, e gravações da língua portuguesa de diversas regiões do Brasil.
Todo esse trabalho tem como objetivo produzir e coletar dados e ferramentas que permitam um alto nível de desempenho no Processamento de Linguagem Natural em português, assim como já existe para outros idiomas, e desenvolver soluções computacionais de suporte ao idioma, possibilitando a criação de aplicativos de última geração. As pesquisas estão concentradas tanto na modalidade escrita, quanto falada do português.