Como (não) fraudar dados e falar sobre honestidade

Dan Ariely é um palestrante internacionalmente conhecido, autor de best seller sobre economia comportamental, figura carimbada em TED talks e tem até série na Netflix. Há alguns dias, pesquisadores investigativos publicaram evidências fortes de que um de seus estudos é fruto de fraude.

Como o autor de “A (honesta) verdade sobre a desonestidade” pode ter ele mesmo fabricado dados e conclusões? Ele e os demais envolvidos afirmam que também não sabiam da manipulação.

Independente ou não de má fé, sua imagem fica extremamente arranhada.

Vale muito a pena entender a análise investigativa completa. Foi um trabalho de “Sherlock Holmes” de informação, publicado no blog Data Colada: https://datacolada.org/98

Segue um resumo:

A tese de Ariely é de que assinar formulários prometendo honestidade antes de preencher os dados faz as pessoas serem mais honestas do que assinar só no final.

Essa tese levou diversos governos e empresas a mudarem seus formulários. O problema é que a conclusão não conseguiu ser replicada em estudos similares, o que levou os próprios autores a alertarem sobre o fato, e publicarem os dados crus do estudo original, de 2012.

Os dados originais eram de uma seguradora, e os clientes informavam a milhagem dos carros segurados (13.488 registros).

Uma distribuição comum de milhagem segue uma normal, já a distribuição de parte dos dados era mais parecida com uma uniforme, que pode ser facilmente gerada com um ‘randbetween’ do Excel.

(Figura do The Economist, sobre o artigo citado)

Todos os carros que apresentavam distribuição uniforme tinham valor abaixo de 50.000 milhas – o valor máximo foi 49.997. É extremamente implausível que uma distribuição até 50 mil tenha alta frequência, e não haja nenhum valor maior (ou seja, foi algo como um ‘randbetween 50.000’). Os investigadores também garantem que não teve um corte para gerar o gráfico, são os dados brutos que estão estranhos mesmo.

Quando uma pessoa preenche um formulário desses, ou ela realmente consulta o odômetro e anota certinho, ou dá uma arrendondada de cabeça. A frequência de números arredondados, terminando em zero, tende a ser maior. Nas bases do próprio estudo, uma base realmente tinha maior frequência em números terminando em 0. Porém, outra base tinha igual frequência em todos os dígitos (de novo, o randbetween é uma explicação fácil).

A fonte utilizada na tabela estava diferente, como explica este resumo da revista The Economist, baseada no artigo.

Figura da revista The Economist, sobre o artigo

Não dá para afirmar que Ariely propositalmente manipulou dados, mas algo que ele deveria ter feito, minimamente, era analisar a consistência dos mesmos.

Algumas lições, para quem trabalha com dados:
1) Nunca, de forma alguma, crie informações falsas.
2) Tenha sempre as bases de dados e o racional auditáveis.
3) Conheça bem as informações que tem, faça checagens de consistência.

Por fim, uma ótima reflexão de Sílvio Meira. Os dados não são o “novo petróleo”. Estão mais para “novo urânio”. Isso porque os dados devem ser tratados, refinados, e atingir massa crítica para gerar valor, e o descarte é um perigo, para o negócio e para o ecossistema.

Links:

https://www.timesofisrael.com/claims-swirl-around-academic-ariely-after-honesty-study-found-to-be-dishonest/amp/

https://www.economist.com/graphic-detail/2021/08/20/a-study-on-dishonesty-was-based-on-fraudulent-data

https://www.economist.com/graphic-detail/2021/08/28/how-data-detectives-spotted-fake-numbers-in-a-widely-cited-paper