Big data — termo teoricamente cunhado pela NASA, no fim da década de 1990 — é um grupo de grandes conjuntos de dados complexos que desafiam os limites computacionais tradicionais de captura, análise e armazenagem informacional.
Desde a década 1980, a tecnologia avançou a passos largos sob a lei de Moore (que diz que o poder de processamento dos computadores dobra a cada 24 meses) e invadiu a vida cotidiana. Tal invasão, somada ao crescimento social, gerou o grande fenômeno informacional que vivemos hoje e que está apenas no início. Geramos dados a todo o momento, em praticamente todos aspectos de nossa vida cotidiana: do velho e-mail, passando pelos sistemas de buscas e pelas redes sociais até chegar a febre dos smartphones.
Dada tal explosão informacional, que também aconteceu na ciência e na academia, o big data cresceu, tornando-se uma disciplina significativa, que gera e desenvolve ferramentas para lidar com os desafios e as riquezas do cenário atual. Ele também evoluiu como uma questão das ciências que analisam muitos padrões simultaneamente e exigem grandes esforços computacionais, como a física, astronomia, biologia, meteorologia etc.
O projeto genoma é um exemplo de big data e da evolução da computação científica. Afinal, o primeiro mapeamento humano (menos de uma década atrás) custou US$ 1 bilhão, dada à complexidade de captura e processamento dos dados. Hoje, o processo está para se tornar rotineiro e custa menos de US$ 5mil, ou seja, o big data não só possibilitou o crescimento do conhecimento do genoma como também a democratização do processo.
A grandiosidade informacional do big data é o principal fator de geração de benefícios em todos os aspectos sociais e econômicos. O chamado machine learning — grande aliado e pertencente ao tema big data — possibilita os computadores aprenderem a contar, qualificar e predizer infinitos aspectos da nossa vida e da natureza.
Especialistas apontam o Social Security Act — programa instituído pelo presidente dos EUA Franklin Roosevelt em 1937 — como o primeiro grande projeto de captação e catalogação de informações. Por meio de um sistema de cartões perfurados, idealizado e implantado pela IBM, o governo computou informações de 26 milhões de americanos. Hoje, para se ter uma ideia, só o Walmart processa informações de transações de mais de 1 milhão de clientes por hora.
O big data está crescendo transversalmente em todos os setores da sociedade. Como exemplo, podemos observar empresas como NetFlix e Amazon, que conseguem ter sistemas de recomendação ontime. Para isso são necessários milhões e milhões de inputs, que geram a recomendação em segundos, além de um fluxo constante de dados e da atualização de algoritmos complexos sendo aplicados em questões de milésimos de segundos.
Outro grande exemplo de big data nos negócios são as redes sociais, que possuem quantidades gigantescas de dados úteis para que as empresas entendam e melhorem seu relacionamento com o consumidor, desde gostos e interesses até eventos pessoais.
A geração dessa massa informacional está em todo lugar. Nas suas interações na web, quando você busca no algo no Google — o pai do big data — no seu celular, no seu exame médico, na previsão do tempo, na compra da sua passagem aérea e até no cinema. Por toda essa grandiosidade, um data scientist precisa entender de matemática, probabilidade, programação, às vezes linguística (NLP) e até de análise de redes sociais (SNA).
O tema e suas ferramentas possuem grandes comunidades internacionais interessadas em democratizar o assunto, inclusive algumas tradicionais faculdades de computação cientifica já o incluíram no currículo de seus cursos. Nos EUA, neste exato momento, há escassez de pessoas qualificadas no setor — mesmo no governo Obama que liberou grandes quantidades de dados na web e investiu milhões de dólares no tema. Segundo um report da McKinsey, em 2018 apenas o mercado norte-americano poderá sentir a falta (vagas versus profissionais) de mais de 140 mil pessoas especializadas em análise de dados.
O big data chegou para ficar e ainda estamos apenas molhando os pés nas diversas possibilidades e inúmeros benefícios que podemos extrair dessa tendência.
*Rodrigo Arrigoni é sócio fundador da R18, empresa especializada em social data analysis.