DATA DRIVEN

Viciados em código aberto: quanto poder analítico é necessário?

Por

Scott Zoldi

3 de dezembro de 2021

Os cientistas de dados precisam justificar a necessidade de correr grandes riscos ao usar métodos complexos para resolver problemas. De fato, é contraproducente usar mais potência do que o necessário para resolver desafios analíticos.

Uma grande variedade de ferramentas de análise de código aberto está livremente disponível para cientistas de dados e estudantes, sendo que todos podem se empolgar com os concursos do Kaggle – conhecida plataforma de competições de modelagem preditiva pertence ao Google, e sua prevalência da comunidade analítica, é em si um tópico de preocupação. Meu questionamento é se sua abordagem seria apropriada ou não no mundo real – o encorajamento de se investir o máximo de potência analítica possível para resolver seus quebra-cabeças.

Um exemplo de como esse tipo de exagero analítico leva a resultados contaminados é o dumping de dados: despejar o maior número possível de fontes de dados num modelo para obter uma pequena melhoria em seu poder preditivo, sem entender quais relações novas (e possivelmente sem sentido) estão sendo aprendidas, ou considerando a confluência da complexidade do modelo.

"Open source junkies" é o termo que utilizo para cientistas de dados que são viciados em usar poder analítico excessivo para resolver qualquer problema. A boa notícia é que há um caminho direto para a reabilitação. Nesse sentido, as perguntas que precisamos nos fazer são:

O quão bem entendemos o problema que estamos resolvendo? Devemos falar com o negócio para obter insights fundamentais para projetar o modelo?
Quais são as fontes de dados apropriadas para incluirmos? Que variáveis/características-chave vamos derivar dessas fontes?
Qual é a performance do nosso modelo mais simples? Ele atende aos requisitos do negócio? O que dirige este modelo?
À medida que adicionamos complexidade ao modelo, o que ganhamos em termos de previsão, e perdemos em explicações? Robustez? Ética?
Devemos mudar para modelos de aprendizado de máquina interpretáveis?

Essencialmente, precisamos justificar a necessidade do risco incremental que assumimos ao usar métodos mais complicados. Como cientistas de dados, devemos perguntar: o que estamos tentando alcançar, quais são as ferramentas certas para nos levar até lá e quais são as compensações? Contrapartidas inaceitáveis incluem violações da LGPD e da inteligência artificial que são antiéticas. Dessa forma, é fundamental termos uma perspectiva mais ampla, não apenas sobre nossa tecnologia, mas sobre o contexto empresarial e social no qual o projeto será utilizado.

Scott Zoldi, Chief Analytics Officer da FICO.

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	Este cookie é definido pelo plug-in GDPR Cookie Consent. O cookie é usado para armazenar o consentimento do usuário para os cookies na categoria "Analytics".
cookielawinfo-checkbox-functional	11 months	O cookie é definido pelo consentimento do cookie GDPR para registrar o consentimento do usuário para os cookies na categoria "Funcional".
cookielawinfo-checkbox-necessary	11 months	Este cookie é definido pelo plug-in GDPR Cookie Consent. O cookie é usado para armazenar o consentimento do usuário para os cookies na categoria "Necessário".
cookielawinfo-checkbox-others	11 months	Este cookie é definido pelo plug-in GDPR Cookie Consent. O cookie é usado para armazenar o consentimento do usuário para os cookies na categoria "Outros".
cookielawinfo-checkbox-performance	11 months	Este cookie é definido pelo plug-in GDPR Cookie Consent. O cookie é usado para armazenar o consentimento do usuário para os cookies na categoria "Desempenho".
viewed_cookie_policy	11 months	O cookie é definido pelo plug-in GDPR Cookie Consent e é usado para armazenar se o usuário consentiu ou não com o uso de cookies. Ele não armazena nenhum dado pessoal.

Panorama do IoT no Brasil

Conheça os investimentos em cybersegurança das empresas no Brasil

Desafios da jornada do cliente em serviços financeiros

Saiba como usar os novos recursos de tecnologia para se relacionar…

Digital Workplace: Working anywhere ressignificando o trabalho

DEIXE UMA RESPOSTA Cancelar resposta