Husky ou Lobo?

Um algoritmo de IA da Universidade de Washington conseguiu distinguir Lobos de Huskies, com 90% de acurácia! Um feito fantástico, considerando que são muito parecidos.

Os protocolos usuais, como separar dados de treinamento e de testes, tinham sido obedecidos, e por todas as métricas, o algoritmo era excelente.

Analisando a fundo, os pesquisadores descobriram a mágica. Ele estava reconhecendo a neve no fundo da foto. Se tinha neve, era lobo, se não tinha, era husky!

Nos modelos atuais, entramos com dados e resultados, e o que acontece lá dentro é uma caixa-preta. Hoje em dia, nem precisamos saber a matemática envolvida (infelizmente).

Uma foto de husky pode ser inofensiva, porém, imagine um carro autônomo que não reconhece pedestres com máscara e chapéu, por exemplo.

Por isso, precisamos evoluir para uma IA Explicável, a fim de entender o que está acontecendo, estabelecer relações causais e colocar restrições além do que é possível no método caixa-preta.

Este foi um dos temas discutidos no Informs 2020, que acontece on-line essa semana.

As Linguagens de Analytics

No último fórum da Informs (a mais importante associação americana de Operations Research), em Chicago, citaram Pythons umas 6 vezes, Excel também umas 6 vezes, Java uma vez (de um fornecedor que disse que estava mudando para Python), R nenhuma mênção.

Isto mostra a força do Python como a língua franca do Analytics da atualidade.

O pessoal que citou Excel o fez metade das vezes para falar mal, outra metade para dizer que o usuário final utiliza. Isto mostra a resiliência do Excel, que apesar de todas as críticas, continua firme e forte nas grandes corporações – por seu poder e facilidade de uso. Há até uma piada que diz: “Todo o sistema financeiro mundial é baseado em Excel”.

Um último comentário: no final das contas, não interessa muito a linguagem, e sim ter uma base teórica forte e capacidade de execução. Linguagens e ferramentas vêm e vão. Até hoje tem gente utilizando Fortran muito bem, por exemplo.

Alguns recursos para aprofundar em Data Science

A ciência de dados vai se tornar cada vez mais importante no dia-a-dia profissional.

A grade universitária em geral encontra-se no século passado. Não dá para comparar com a quantidade e velocidade de transformação. Felizmente, há diversas opções on-line surgindo.

Algumas recomendações, para desenvolvimento profissional.

A EDX (https://www.edx.org/) oferece vários cursos introdutórios, a preços bastante acessíveis.

Stanford e MIT têm versões on-line de aulas em geral: https://www.stanford.edu/ http://web.mit.edu/

A Kaggle (https://www.kaggle.com/) oferece diversos desafios de data science. Há um ranking com o desempenho, e os melhores trabalhos ganham uma premiação.

Num nível mais hard, a Udacity tem nanodegrees (pagos e caros), num nível bem alto, sobre temas como carros autônomos, por exemplo.

O MIT professional é mais caro ainda, esse ainda não testei.

e O INFORMS tem uma certificação em Analytics, o CAP (https://www.certifiedanalytics.org/). É, no mínimo, um guia para estudos e uma prova para testar os conhecimentos. No BR, não é algo muito famoso. Até porque o que vale é fazer o trabalho,  e não ter certificados.

Outra dica é criar um perfil no Github, e se acostumar a publicar bons trabalhos e pesquisar sobre outros existentes.

E um perfil no LinkedIn, rede para conexão de profissionais. 

Uma boa ideia é as empresas pagaram alguns cursos básicos para o pessoal com aptidão e fome analítica. É barato e dá um incentivo positivo para o desenvolvimento destes e da companhia.

Mais dicas? Favor postar nos comentários.