Nos últimos anos, por conta do avanço da tecnologia da informação, assistimos a uma verdadeira explosão na quantidade de dados disponíveis, prontos para serem analisados e virarem informações importantes para a inteligência de negócio. Este novo cenário se refere não só ao volume de dados, mas também à velocidade, complexidade e variedade dos tipos de informação disponibilizadas – como acontece com os dados de redes sociais, logs de acesso à internet ou dados gerados por máquinas, por exemplo. Portanto, os modelos tradicionais de data warehouse e soluções analíticas desenvolvidas para oferecer suporte a esse mundo de informações já encontram um novo desafio, relacionado, sobretudo, à manipulação desse conteúdo diante de toda essa complexidade e dinamismo: surge aí o conceito de big data.
Os big datas são dados ricos e extremamente úteis para análise, mas não são, inicialmente, disponibilizados de uma maneira estruturada, seja pela alta velocidade com que são produzidos, seja pelos mecanismos pelos quais são gerados. Sendo assim, mais do que a grande quantidade de informações disponibilizadas hoje, big data se relaciona diretamente à capacidade de manipular e analisar dados não relacionais e multiestruturados, que requerem interação rápida e adaptável.
Como suporte a essa nova realidade já estão disponíveis novas técnicas e tecnologias como o MapReduce ou Hadoop, que resolvem limitações do SQL tradicional para tratar esses tipos variados de dados complexos disponibilizados na internet ou em outras fontes. Sob o ponto de vista de hardware, o big data já pode utilizar tecnologias existentes, como arquiteturas de processamento paralelo massivo (MPP), que permitem o rápido processamento destes grandes e complexos volumes de dados.
Muitas empresas já estão começando a desenvolver suas próprias lógicas utilizando esse tipo de infraestrutura, possibilitando análises importantes, como comportamento de clientes em casos de otimização de marketing digital, interações entre usuários em redes sociais, transações e interações on-line para detecção e prevenção a fraude, eficiência operacional por dados gerados por máquinas, entre outros. Nesses cenários, surge também a figura do cientista de dados ou desenvolvedor analítico, que é um profissional responsável pelo desenvolvimento e implementação desses tipos de análises para benefício do negócio. Este não é o mesmo analista de BI (business inteligence) tradicional que conhecemos hoje; são pessoas que conhecem com detalhe a necessidade do negócio, os dados disponíveis e, ao mesmo tempo, se utilizam dessas novas tecnologias para desenvolver análises que possam trazer novos direcionamentos para a gestão estratégica.
Naturalmente, há uma questão importante a ser discutida entre usuários e seus profissionais de TI sobre a maturidade destes grupos em utilizar este potencial em benefício das empresas. Isto acontece porque muitas delas estão em volta com o desenvolvimento e implantação de projetos voltados aos sistemas, aplicações e análises tradicionais de BI, e que também são necessárias e vitais – mas que muitas vezes consistem basicamente na obtenção de dados nas suas fontes tradicionais de origem, como o ERP, a fim de disponibilizá-los em relatórios pré-prontos para os usuários.
Neste vasto universo de capacidades analíticas, o contexto big data incrementa o potencial das empresas em usufruir de novas tecnologias e ferramentas cada vez mais importantes para a análise das inesgotáveis fontes de informação que estão disponíveis hoje, trazendo conhecimento, novas perspectivas e oportunidades para vencer em um mercado cada vez mais competitivo.
*Diógenes Santo é arquiteto de soluções para a América Latina da Teradata.