Não se apresse para implementar o Machine Learning

Uma abordagem simples pode dar conta do recado

Publicado:

27/09/2021 às 18:41

Leitura

5 minutos

Acontece que a melhor maneira de fazer Machine Learning (ML), às vezes, é não fazer nenhum. Mesmo. Na verdade, de acordo com o Cientista Aplicado da Amazon, Eugene Yan, “A primeira regra do aprendizado de máquina [é] começar sem o aprendizado de máquina”.

Sim, é legal apresentar modelos de ML meticulosamente elaborados ao longo de meses de árduo esforço. Também não é necessariamente a abordagem mais eficaz. Não quando existem métodos mais simples e acessíveis.

Pode ser uma simplificação exagerada dizer, como o cientista de dados Noah Lorang fez anos atrás, que “os cientistas de dados, em sua maioria, apenas fazem aritmética”. Mas ele não está muito longe, e certamente ele e Yan estão certos de que, por mais que possamos complicar o processo de colocar os dados para funcionar, na maioria das vezes é melhor começar pequeno.

Complexidade exagerada

Cientistas de dados são muito bem pagos. Portanto, talvez seja tentador tentar justificar esse pagamento envolvendo coisas como análise preditiva em jargões complicados e modelos pesados. Mas não. O insight de Lorang sobre a ciência de dados é tão verdadeiro hoje quanto quando ele o proferiu há alguns anos: “Há um subconjunto muito pequeno de problemas de negócios que são mais bem resolvidos pelo aprendizado de máquina; a maioria deles só precisa de bons dados e uma compreensão do que isso significa.” Lorang recomenda métodos mais simples, como “consultas SQL para obter dados,… aritmética básica sobre esses dados (calcular diferenças, percentis, etc.), representar graficamente os resultados e [escrever] parágrafos de explicação ou recomendação”.

Não estou sugerindo que seja fácil. Estou dizendo que o aprendizado de máquina não é onde você começa ao tentar obter insights dos dados. Nem é o caso que grandes quantidades de dados são necessariamente necessárias. Na verdade, como argumenta a CEO elegível Katelyn Gleason, é importante “começar com os pequenos dados [porque] são as anomalias oculares que me levaram a algumas das minhas melhores descobertas”. Às vezes, pode ser suficiente plotar distribuições para verificar padrões óbvios.

Sim, é isso mesmo: os dados podem ser “pequenos o suficiente” para que um humano possa detectar padrões e descobrir insights.

Não é de se admirar, então, que o cientista de dados da iRobot Brandon Rohrer sugira descaradamente: “Quando você tiver um problema, crie duas soluções – um transformador bayesiano profundo em execução em Kubernetes com várias nuvens e uma consulta SQL baseada em uma pilha de suposições extremamente simplificadoras. Coloque um em seu currículo e o outro em produção. Todo mundo vai para casa feliz. ”

Novamente, isso não quer dizer que você nunca deve usar Machine Learning, e definitivamente não é um argumento de que o ML não oferece valor real. Longe disso. É apenas um argumento contra começar com ML.

Humanos conhecendo dados

Primeiro, Yan observa, é importante reconhecer o quão difícil é extrair significado dos dados, dados os ingredientes essenciais: “Você precisa de dados. Você precisa de um pipeline robusto para suportar seus fluxos de dados. E, acima de tudo, você precisa de etiquetas de alta qualidade. ”

Em outras palavras, as entradas são complicadas o suficiente que pode não ser particularmente útil começar jogando modelos de ML no problema. Nesse ponto, você está apenas começando a conhecer seus dados. Tente resolver o problema manualmente ou com heurísticas (métodos práticos ou atalhos). Yan destaca esse raciocínio de Hamel Hussain, engenheiro de Machine Learning do GitHub: “Isso o forçará a se familiarizar intimamente com o problema e os dados, que é a primeira etapa mais importante”.

Supondo que você esteja lidando com dados tabulares, Yan diz que vale a pena começar com uma amostra dos dados para executar estatísticas, começando com correlações simples, e visualizar os dados, talvez usando gráficos de dispersão. Por exemplo, em vez de construir um modelo complicado de aprendizado de máquina para recomendações, você poderia simplesmente “recomendar itens de melhor desempenho do período anterior”, argumenta Yan, e procurar padrões nos resultados. Isso ajuda o praticante de ML a se familiarizar mais com seus dados, o que, por sua vez, o ajudará a construir modelos melhores, se for necessário.

Quando o aprendizado de máquina se torna necessário ou pelo menos aconselhável?

De acordo com Yan, o Machine Learning começa a fazer sentido quando manter seu sistema heurístico não-ML se torna excessivamente complicado. Em outras palavras, “depois de ter uma linha de base não ML que funciona razoavelmente bem, e o esforço de manter e melhorar essa linha de base supera o esforço de construir e implantar um sistema baseado em ML”.

Não há ciência de quando isso acontece, é claro, mas se suas heurísticas não são mais atalhos práticos e, em vez disso, continuam quebrando, é hora de considerar o aprendizado de máquina, especialmente se você tiver pipelines de dados sólidos e rótulos de dados de alta qualidade, indicando bom dados.

Sim, é tentador começar com modelos complexos de Machine Learning, mas sem dúvida uma das habilidades mais importantes que um cientista de dados pode ter é o bom senso, saber quando confiar na análise de regressão ou em algumas declarações se/então, em vez de ML.