Pesquisadores criam software capaz de reconhecer e descrever o conteúdo de fotos e vídeos

0

Dois grupos de cientistas, que trabalham de forma independente, criaram um software que utiliza recursos de inteligência artificial e é capaz de reconhecer e descrever o conteúdo de fotografias e vídeos com uma precisão jamais vista antes, às vezes, imitando até o nível humano de compreensão.

Até agora, a chamada visão de computador tem sido essencialmente limitada ao reconhecimento de objetos individuais. O novo software, descrito na segunda-feira, 17, por pesquisadores do Google e da Universidade de Stanford, na Califórnia, pode identificar cenas inteiras: um grupo de jovens jogando frisbee, por exemplo, ou uma manada de elefantes marchando na planície do Serengueti, na África.

O software escreve uma legenda em inglês que descreve a imagem. Em comparação com as observações humanas, os pesquisadores descobriram que as descrições do computador são surpreendentemente precisas.

Os avanços podem melhorar a catalogação e a busca de bilhões de imagens e horas de vídeos disponíveis online, que geralmente mal descritos e arquivados. Ferramentas de buscas como o Google dependem em grande parte da escrita que acompanha uma imagem ou vídeo para verificar o que ele contém.

No longo prazo, o novo software poderá ajudar cegos e robôs a caminharem em ambientes naturais, além da possibilidade de uso para vigilância. Durante os últimos 15 anos, câmeras de vídeo foram colocadas em um grande número de espaços públicos e privados. No futuro, o software que opera as câmeras não só será capaz de identificar determinadas pessoas através do reconhecimento facial, dizem os especialistas, como também de reconhecer certos tipos de comportamento, talvez até mesmo alertando automaticamente as autoridades.

Há cerca de dois anos, pesquisadores do Google criaram um software de reconhecimento de imagem ao qual foram expostas 10 milhões de imagens tiradas a partir de vídeos do YouTube. Sem orientação humana, o programa foi capaz de reconhecer gatos. Os atuais programas de inteligência artificial instalados em automóveis já são capazes de identificar pedestres e ciclistas, por meio de câmeras posicionadas no topo do pára-brisa, e podem brecar o carro automaticamente se o motorista não tomar medidas para evitar um atropelamento.

Mas "apenas o reconhecimento de objetos simples não é muito benéfico", disse Ali Farhadi ao The New York Times, cientista da computação da Universidade de Washington, que publicou a pesquisa sobre software que gera frases a partir de imagens digitais. "Temos focado em objetos, e nós ignoramos verbos", disse ele, acrescentando que esses programas ainda não entendem o que está acontecendo em uma imagem.

Ambos os grupos do Google e de Stanford abordaram o problema através de programas de software de refino conhecidos como redes neurais, inspirados no funcionamento do cérebro. As redes neurais podem "treinar" a si mesmos para descobrir semelhanças e padrões nos dados, mesmo quando os seus criadores humanos não sabem que existem os padrões. Através do reconhecimento de padrões, os computadores estão aprendendo a identificar padrões de fala e imagens, com precisão cada vez maior. Os avanços são evidentes para aqueles que usam o assistente pessoal Siri, da Apple, por exemplo, ou busca de imagens do Google.

As equipes do Google e da Universidade de Stanford disseram que acreditam num aumento significativo na precisão do software.

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.