"Dados são o novo petróleo". Esta frase criada por Clive Humby, matemático londrino especializado em ciência de dados, revela que aproveitar todo o potencial deles pode transformar a realidade de empresas e até de mercados. Porém, para que se possa tirar algo de valor do "petróleo", é necessário refiná-lo. As organizações têm focado nisto atualmente – refinam os dados que possuem – , mas se esquecem de um passo anterior: é indispensável ter acesso ao "petróleo" e saber qual é o tipo de insumo, a quantidade e o quanto será extraído, para só depois ser transformado e oferecido corretamente para as indústrias de combustível, de plásticos e assim por diante. Todas estas analogias exemplificam que as empresas hoje têm incontáveis dados, mas eles são pouco acessados, principalmente por não serem disponibilizados em formato relacional. De acordo com relatório da Gartner, publicado em 2022, menos da metade – 44% – das organizações acreditam ter acesso a dados suficientes para a tomada de decisões.
O maior valor para uma organização não se encontra nos dados em si, mas, sim, na capacidade de usá-los de forma analítica e aplicar as informações extraídas deles no negócio. A pouca alfabetização em dados é um forte inibidor para atingir mudanças significativas no ambiente empresarial. Por isso, é imprescindível que os dados possam ser "consumidos" pelos colaboradores, ou seja, a democratização de dados não é apenas dar acesso a eles, mas fornecer um dado que possa ser utilizado. O relatório da Gartner aponta também que apenas 29% dos executivos têm a percepção de que atingiram algum resultado transformacional em seus negócios por meio dos dados.
As áreas de vendas, operações e logística são as que mais consomem dados dentro de qualquer organização; são as camadas do negócio onde os dados são tratados e distribuídos. A informação sai de uma determinada fonte, entra em uma camada de negócio por meio de algum sistema e passa a ser disponibilizada para quem for consumí-la. O problema é que as fontes de dados são inúmeras. Existe um gargalo nas companhias por conta do volume de dados e a tendência é um agravamento deste cenário. Estima-se que o volume de dados e as fontes só vão proliferar: de 2010 a 2025, o aumento no volume de dados está estimado em 100%, chegando no próximo ano a 181 petabytes (1 PB = 1.024 terabytes). Existem empresas, por exemplo, com mais de 100 fontes de dados, o que gera um gasto excessivo – tanto de recursos humanos, como em integração com sistemas de inteligência.
A recente evolução do mercado – a virtualização e o gerenciamento de dados
Nos anos 90, as empresas começaram a criar repositórios centrais de dados, ou seja, arquiteturas que centralizavam-nos, tendo como objetivo retirá-los de suas fontes originais e colocá-los numa arquitetura única. Porém, com o advento das mídias sociais nos anos 2000, apareceram novos formatos e novas fontes de dados, provenientes das nuvens e de incontáveis aplicativos.
Com isto, entender este novo contingente de dados e cruzá-los com informações internas de faturamento, gestão de pessoas, campanhas, entre outras demandas corporativas, exigiu das empresas a criação de diversos programas. Com o passar do tempo, estes programas não deram mais suporte à entrada de um imenso volume de dados, havendo a necessidade da implementação dos Big Datas, que tornaram-se repositórios onde supostamente poderia-se gerir todos estes novos dados.
Por outro lado, os dados ficaram cada vez mais requintados e para fazer esta gestão, foram criadas novas ferramentas que passaram a ser agregadas às bases de dados, o que tornou a administração muito cara, criando problemas na utilização de dados.
O armazenamento dos dados passou a ser feito nas nuvens, no que se chama de data lake ou data warehouse, projetados para alocar dados padronizados, independentemente de seu formato ou estrutura. Isso tornou-os mais flexíveis e escaláveis, mas também deixou as análises de dados mais complexas. De acordo com recente publicação da Forrester, as empresas gastam, em média, US$ 1,2 milhão por ano em armazenamento e retenção de dados, mas 30% desse gasto é desperdiçado em armazenamento e retenção de dados desnecessários ou ineficientes, o que significa que os dados não são utilizados ou estão desatualizados ou replicados inúmeras vezes. Estima-se que 70% dos dados armazenados nos lakes não são utilizados nas corporações e quando são, o dado é replicado cinco vezes durante sua vida útil, gerando um custo gigantesco para as organizações.
Cenário Atual de Dados Distribuídos
Explorar o poder da análise de dados e automação de fluxo de trabalho é uma maneira das empresas acelerarem novas receitas e reduzirem custos. Mas, isso não é conquistado sem superar um grande desafio: os dados corporativos são armazenados em locais díspares com formatos em rápida evolução. Extrair e movimentar dados aumentam a latência e custos e reduzem a qualidade dos mesmos. Por isto, seguir uma abordagem de dados centralizados como única solução é um equívoco, uma vez que deve-se equilibrar a arquitetura de dados "centralizada" com uma arquitetura de dados "lógica".
A demanda por volumes mais rápidos e maiores de dados, que estão cada vez mais complexos, traz também considerações sobre como fornecer recursos de autoatendimento para usuários de dados, como gerar eficiência de tempo no gerenciamento de dados e como alcançar uma qualidade de dados confiável. Para enfrentar esses desafios, as organizações precisam passar de silos de dados díspares e tecnologias isoladas para uma estratégia que inclua a virtualização dos dados. É necessário adotar novos requisitos para as empresas no que diz respeito ao gerenciamento de dados.
A virtualização de dados reduz a necessidade de processos ETL – que envolvem extração, transformação, movimentação e carregamento de dados –, sendo uma camada que liga dados das mais diversas fontes, por meio de uma camada lógica de dados que consolida dados do data warehouse, data lake, web services, entre outras fontes, podendo ser usada para inúmeras funções, entre as quais, o tagging com termos comerciais para que os usuários possam encontrar facilmente os dados relevantes para seu trabalho ou mesmo para monitorar e analisar a rastreabilidade por meio de recursos de linhagem de dados ou para criar validações de qualidade.
O papel da IA generativa no gerenciamento de dados
Entre as principais tendências digitais para este ano, certamente, a Inteligência Artificial Generativa (GenAI), que continua a se desenvolver, terá um impacto considerável no gerenciamento de dados por meio de ferramentas e tecnologias mais adequadas às empresas. Uma metodologia eficiente de gestão de dados também será fundamental para o sucesso da IA generativa, pois sem dados bons e confiáveis, ela terá pouca ou nenhuma utilidade.
Fica claro que o gerenciamento de dados irá desempenhar um papel cada vez mais central na adoção bem-sucedida da IA generativa. As empresas que investirem proativamente em metodologias e capacitação para melhor gerir e utilizar seus dados em sua totalidade estarão mais bem posicionadas para liberar todo o potencial comercial dessas tecnologias avançadas. A solução dos desafios de dados abrirá caminho para inovação e crescimento sem precedentes, tornando o gerenciamento de dados o fio condutor da adoção bem-sucedida da IA generativa.
Para isso, podemos esperar que o ritmo de criação de produtos de dados empresariais acelere. Não é de surpreender que a IA generativa esteja na mente de todos e que esteja causando um impacto considerável na maneira como as empresas são administradas. A existência simbiótica do gerenciamento de dados e da IA generativa precisará se tornar uma prioridade, portanto, é previsível que o cloud computing não apenas permaneça difundida, mas continue a crescer no próximo ano. Por esse motivo, a gestão de dados distribuídos se tornará cada vez mais importante, pois permite que todas as empresas tomem decisões mais precisas sobre como gerenciar dados distribuídos da maneira mais eficiente e econômica.
Em última instância, o novo paradigma do gerenciamento de dados nas empresas aponta para uma maior agilidade na disponibilização e manutenção de produtos de dados prontos para o consumo diretamente pela área de negócio, seja no uso operacional, analítico ou estratégico.
Marco Cavallo, diretor de Vendas para o Setor Público e Canais da Denodo.