Dados sintéticos vs dados naturais: o limite da inteligência artificial no treinamento de modelos

0

A escassez de dados naturais — ou seja, dados originados diretamente da experiência humana no mundo real — se deve ao fato de que já exploramos amplamente os recursos disponíveis nas principais fontes digitais gerados pela humanidade, como textos, imagens e vídeos disponíveis publicamente. Com o crescimento acelerado dos modelos de IA, a demanda por dados aumentou exponencialmente, mas a produção de novos dados reais não acompanha esse ritmo, seja por questões legais, éticas, de privacidade ou simplesmente porque muito do que era acessível já foi coletado. Além disso, muitos dos dados disponíveis não estão suficientemente anotados ou estruturados para uso em treinamento. 

Embora exista um caminho promissor para expandir o conceito de dados naturais — incorporando experiências multissensoriais como visão, audição e tato por meio de sensores e tecnologias imersivas — essa abordagem ainda enfrenta desafios técnicos e de infraestrutura para ser adotada em larga escala. Por isso, os dados sintéticos surgem como alternativa imediata para suprir a escassez de dados reais no presente.

Segundo a Gartner, 75% das empresas usarão IA generativa para criar dados sintéticos até 2026. Há dois anos, era menos de 5%.

A partir do momento que as IAs estão usando esse tipo de dado para treinamento, podemos encontrar distorções e alucinações sendo reproduzidas. É sobre isso que falaremos neste artigo.

O que são dados sintéticos?

Os dados sintéticos são aqueles que não foram criados por humanos e, dessa forma, imitam os dados do mundo real. Eles são criados a partir de métodos computacionais, algoritmos e simulações baseados na tecnologia de inteligência artificial.

Importante ressaltar que os dados sintéticos tentam replicar ou simular as mesmas propriedades estatísticas dos dados naturais para o propósito específico do modelo ou experimento em questão. Muitas empresas usam os sintéticos em pesquisas de machine learning, testes, pesquisas e outras atividades do desenvolvimento – inclusive, testes de modelos de IA.

Qual o problema no uso indiscriminado de dados sintéticos?

Vamos fazer uma analogia: no mito da caverna de Platão, as pessoas moram em uma caverna e acreditam que o mundo é resumido às sombras do mundo real que veem refletidas. 

Em vez de ter contato com a realidade – dados naturais – acredita-se somente nas sombras – dados sintéticos. Quer dizer, as pessoas se tornam refém de uma cópia da realidade. Conheça algumas das problemáticas dos dados sintéticos:

  • Loop de feedback: Pensando nessa analogia, um dos desafios de usar dados sintéticos no treinamento de IAs é o "loop de feedback", segundo a especialista em IA, Dora Kaufman. Esse conceito entende que erros gerados pela IA podem ser utilizados para treinar outro modelo de IA generativa, reproduzindo e ampliando os erros e comprometendo os resultados. Esse erro pode escalar ao ponto dos resultados serem irreconhecíveis, colapsando o modelo de IA.
  • Aprendizado e reprodução de vieses: Um banco de dados artificial pode valorizar um determinado grupo enquanto desvaloriza outro. Dessa forma, a lógica de decisão será distorcida e afetará as respostas. (imagine por exemplo, que o dataset de treinamento tenha um dado afirmando que a "Terra é plana" e essa informação seja recorrentemente reforçada). 
  • Combinações Artificiais Irreais:  A intersecção cruza dados demográficos, como idade e gênero, ao usar a IA para criar dados artificiais com base no treinamento, a ferramenta pode gerar combinações que não existem no mundo real. Por exemplo, o banco de dados sintéticos inadequado pode não representar com exatidão minorias e representar com dados inflados maiorias.
  • Colapso do modelo: A dependência total de dados sintéticos pode levar a queda da qualidade e ao colapso do modelo, com a deterioração do algoritmo. Kaufman cita como um "loop autoconsumível" quando a própria IA é usada para treinar outros modelos de forma repetida e descontrolada.
  • Overfitting: Esse fenômeno ocorre quando um modelo de IA se adapta excessivamente às particularidades ou ruídos presentes no conjunto específico de dados utilizado durante o treinamento. Como resultado, o modelo passa a ter dificuldades em generalizar suas respostas para novos dados ou contextos diferentes daqueles vistos anteriormente, reduzindo sua eficácia prática. O uso excessivo ou exclusivo de dados sintéticos, especialmente quando estes contêm padrões artificiais ou ruídos que não ocorrem naturalmente, pode intensificar o risco de overfitting.

Por que isso acontece?

Os dados sintéticos enfrentam desafios durante a sua geração. Dentre eles está a necessidade de um controle de qualidade para garantir que os dados estão precisos e de acordo com a realidade. Muitas vezes, a verificação manual é necessária, o que demanda tempo no caso de grandes quantidades de dados.

Para esse controle, é preciso que profissionais dominem as técnicas e regras antes de começar a gerar dados sintéticos. Os próprios dados naturais possuem anomalias que um algoritmo normalmente não consegue criar, por isso ainda é necessária a supervisão do ser humano para garantir a assertividade.

Uso saudável dos dados sintéticos

A IA já faz parte do cotidiano da nossa sociedade, por isso é importante regulamentar as informações dos datasets para treinamento dos modelos  e construir regras de governança para o uso desses dados com responsabilidade e ética, evitando vieses e o colapsos.

Para isso, a Unesco listou uma lista de boas práticas para diferenciar conteúdos naturais e artificiais que pode ser um bom começo na administração de dados sintéticos:

  • Uso de marcas d'água em conteúdos gerados por IA;

  • Realizar a moderação de conteúdo para identificar, rotular e gerenciar conteúdos sintéticos;

  • Criar regimes de consentimento, reparação e responsabilidade ao usar dados pessoais para criar conteúdo sintético.

Conclusão

Os dados sintéticos já são uma realidade indispensável no desenvolvimento da inteligência artificial, especialmente diante da crescente demanda por dados para treinamento de modelos. No entanto, é fundamental adotar boas práticas e estabelecer limites claros para seu uso, garantindo qualidade, precisão e representatividade adequada. 

Combinar estrategicamente dados sintéticos e naturais, reforçar a supervisão humana especializada e promover regulamentações eficazes são passos essenciais para mitigar riscos como vieses, alucinações e o perigoso ciclo de retroalimentação de erros. 

Ao manter esse equilíbrio, podemos garantir que a inteligência artificial permaneça conectada à complexidade e autenticidade do mundo real, evitando assim o risco apontado na metáfora da caverna de Platão: viver em um mundo onde a realidade é substituída por suas sombras.

Marcos Bonas, Vice-Presidente de Engenharia, Arquitetura, Marketing e Vendas para o Brasil e Estados Unidos na Zup Innovation – empresa de tecnologia do Itaú Unibanco.

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.