Os cientistas de dados precisam justificar a necessidade de correr grandes riscos ao usar métodos complexos para resolver problemas. De fato, é contraproducente usar mais potência do que o necessário para resolver desafios analíticos.
Uma grande variedade de ferramentas de análise de código aberto está livremente disponível para cientistas de dados e estudantes, sendo que todos podem se empolgar com os concursos do Kaggle – conhecida plataforma de competições de modelagem preditiva pertence ao Google, e sua prevalência da comunidade analítica, é em si um tópico de preocupação. Meu questionamento é se sua abordagem seria apropriada ou não no mundo real – o encorajamento de se investir o máximo de potência analítica possível para resolver seus quebra-cabeças.
Um exemplo de como esse tipo de exagero analítico leva a resultados contaminados é o dumping de dados: despejar o maior número possível de fontes de dados num modelo para obter uma pequena melhoria em seu poder preditivo, sem entender quais relações novas (e possivelmente sem sentido) estão sendo aprendidas, ou considerando a confluência da complexidade do modelo.
"Open source junkies" é o termo que utilizo para cientistas de dados que são viciados em usar poder analítico excessivo para resolver qualquer problema. A boa notícia é que há um caminho direto para a reabilitação. Nesse sentido, as perguntas que precisamos nos fazer são:
- O quão bem entendemos o problema que estamos resolvendo? Devemos falar com o negócio para obter insights fundamentais para projetar o modelo?
- Quais são as fontes de dados apropriadas para incluirmos? Que variáveis/características-chave vamos derivar dessas fontes?
- Qual é a performance do nosso modelo mais simples? Ele atende aos requisitos do negócio? O que dirige este modelo?
- À medida que adicionamos complexidade ao modelo, o que ganhamos em termos de previsão, e perdemos em explicações? Robustez? Ética?
- Devemos mudar para modelos de aprendizado de máquina interpretáveis?
Essencialmente, precisamos justificar a necessidade do risco incremental que assumimos ao usar métodos mais complicados. Como cientistas de dados, devemos perguntar: o que estamos tentando alcançar, quais são as ferramentas certas para nos levar até lá e quais são as compensações? Contrapartidas inaceitáveis incluem violações da LGPD e da inteligência artificial que são antiéticas. Dessa forma, é fundamental termos uma perspectiva mais ampla, não apenas sobre nossa tecnologia, mas sobre o contexto empresarial e social no qual o projeto será utilizado.
Scott Zoldi, Chief Analytics Officer da FICO.