O escândalo Panama Papers, que veio à tona com o vazamento de mais de 11 milhões de documentos da firma panamenha Mossack Fonseca e a revelação da existência de contas offshore, legais e ilegais, em paraísos fiscais de chefes de Estado, grandes empresas e celebridades, foi desvendado com a ajuda de um software de OCR, do inglês Optical Character Recognition (reconhecimento ótico de caracteres), desenvolvido pela empresa australiana Nuix. O OCR é um método aplicado de maneira a permitir que o conteúdo escrito em um documento no formato de imagem seja reconhecido e transformado em um arquivo de texto editável.
O software da Nuix tornou os documentos compreensíveis, localizando os arquivos e fazendo a conversão de imagens em texto. Em uma entrevista ao site IDG Connect, Carl Barron, consultor sênior de soluções da Nuix, explicou como a história se desenrolou. Segundo ele, a Nuix mantém um relacionamento estreito com o Consórcio Internacional de Jornalismo Investigativo (ICIJ, na sigla em inglês) há mais de cinco anos, em decorrência de ter colaborado em uma investigação de fraude corporativa na companhia australiana Firepower.
Em razão disso, Barron conta que o ICIJ recomendou a Nuix ao jornal alemão Süddeutsche Zeitung (SZ), que faz parte do consórcio e estava envolvido na investigação dos Panama Papers. "O SZ nos consultou e passamos a trabalhar com eles para implantação de hardware e processos de fluxo de trabalho", disse. "Estávamos envolvidos tanto com o SZ quanto com o ICIJ. A investigação começou por volta de setembro do ano passado, mas ainda não era um lote grande de dados."
Os dados mantidos pelo ICIJ e o Süddeutsche Zeitung continham alguns desafios de reconhecimento ótico de caracteres, conta Barron. "Havia muitos dados no formato eletrônico, mas [alguns deles] estavam em papéis. Havia grandes quantidades de e-mails. Isso tudo estava dividido em 11,5 milhões de arquivos diferentes e quase 5 milhões de e-mails. Havia arquivos em PDF e imagens que precisavam de um software de OCR para a conversão dos textos em formato eletrônico", explicou, acrescentando que a equipe levou cerca de 1,5 dia para indexar os 11,5 milhões de arquivos de 2,6 terabytes [coleção].
O software da Nuix foi utilizado para pesquisar os documentos, identificar a relação entre os arquivos e indexá-los. "O software tem um mecanismo de indexação muito poderoso, que extrai o texto a partir desses arquivos e de metadados, e então você pode executar consultas muito simples ou muito complexas. Ele também pode ser usado para verificação dos relacionamentos, como nomes em documentos ou o remetente de e-mails", contou Barron.
O consultor da Nuix disse ainda que o projeto começou a partir de um desktop pequeno, mas que mais tarde o SZ comprou um servidor com Windows para processar os dados. "O volume de dados era bastante moderado", disse Barron. "Não era uma grande quantidade de dados, mas havia uma boa quantidade de OCR, por isso há sempre o desafio de leitura de dados."
Segundo o executivo, depois de alguma consultoria inicial para implantação de hardware e de processos de fluxo de trabalho, o SZ e a equipe do ICIJ foram capazes de analisar as informações, que também tiveram a proteção de um firewall para manter a privacidade do trabalho. Barron disse que há espaço para mais revelações, uma vez que os jornalistas e pesquisadores poderão adicionar mais critérios de pesquisa e construir relacionamentos entre nomes e dados.
O CEO Nuix, Eddie Sheehy, tem um blog (em inglês) sobre o projeto que pode ser acessado aqui.