Do ponto de vista geral, Data Science pode ser definido como a ciência que estuda os dados. Porém, quando falamos de uma perspectiva prática, é considerada um novo campo interdisciplinar que envolve diversas áreas do conhecimento, como estatística, computação, matemática, gestão e sociologia. Todo esse método tem como objetivo estudar os dados de uma empresa, por meio de um processo que vai desde a captura até a transformação de dados.
Com a última etapa alcançada, é possível transformar estes dados em insights, seguindo métodos e processos de um sistema científico, extraindo informações e agregando valor aos objetivos do negócio. O resultado da aplicação desta ciência de dados gera o que chamamos de "produtos" de dados, termo este que, na grande maioria, é abstrato e pode ser uma descoberta de oportunidade e auxílio nas tomadas de decisões.
Embora exista há aproximadamente 30 anos, este campo de estudo ganhou destaque nos últimos anos devido à evolução da capacidade de armazenamento, processamento e uma grande disponibilidade de dados. O crescimento da área e o impulsionamento dos produtos baseados em dados, trazem para a tecnologia diversos benefícios.
As vantagens vão desde o desenvolvimento de um campo totalmente novo, que impulsiona novas carreiras e possibilita englobar pessoas de diversas áreas como saúde, biológicas e política, até o desenvolvimento de novos conceitos em Engenharia de Software para lidar com o "workflow" de desenvolvimento dos produtos de dados, que difere da criação de software tradicional.
Apesar do surgimento destas novas áreas e dos conhecimentos gerados para a tecnologia, a ciência de dados irá impactar muito mais o processo de desenvolvimento de software, seja pelo uso da inteligência artificial, para detectar bugs e problemas de segurança, ou para fazer análises de dados direcionadas às novas releases de produtos, facilitando a compreensão da jornada do usuário.
Atualmente, a ciência de dados ainda está se estabelecendo dentro das indústrias. As principais aplicações em data science ainda são voltadas ao entendimento das informações, auxiliando, assim, na tomada de decisão. Ou seja, a fase mais importante de todo "workflow" de um projeto de dados é a análise exploratória, em que a empresa entende estes dados, cria e valida hipóteses.
É o caso da Alura, plataforma online de ensino de tecnologia e negócios digitais, que utiliza dados para auxiliar na tomada de decisão de diversas áreas. Um bom exemplo disso é o setor de conteúdo, em que os projetos de dados tem como objetivo entender o comportamento dos nossos alunos para maximizar a possibilidade de sucesso dos estudantes.
Em um futuro breve, esse trabalho de exploração e entendimento dos dados não será mais feito, em sua maior parte, por um cientista de dados. Isso porque, com a implementação de uma cultura de dados dentro da empresa, em que praticamente todos os colaboradores serão capazes de analisar e tirar conclusões baseadas em dados, o papel deste cientista passará a ser menos "analista" e mais "científico". Desta forma, ele desenvolverá novos modelos e algoritmos de "machine learning" e se aprofundará em problemas mais complexos, como o de processamento de linguagem natural e visão computacional.
Thiago G. Santos, responsável pela área de Machine Learning e Data Science na Alura.