P-Hacking

Testes de Hipóteses, com o seu famoso p-value, são métodos extremamente científicos e embasados estatisticamente para chegar a conclusões robustas, certo? Nem tanto. Há uma prática chamada p-hacking, que significa “hackear o p-value”.

Há um incentivo para que autores publiquem artigos, e para artigos serem publicados, os dados devem ter validade estatística. Para tal, é comum utilizar testes de hipóteses, que, conforme o nome indica, servem para testar o quanto a hipótese é devido a uma coincidência, ao acaso, ou não.

O p-hacking é uma prática questionável em pesquisa científica onde os dados são analisados de várias maneiras até que se encontre um resultado estatisticamente significativo, geralmente um p-valor menor que 0,05.

Se o valor de referência é 0,05, então os pesquisadores podem dar uma “forçada” para que os resultados fiquem dentro deste valor.

Um artigo interessante é o “P-hacking in Top-tier Management Journals”, por Joel A.C. Baum and Philip Bromiley. Eles analisaram dados de revistas de prestígio (Academy of Management Journal, Administrative Science Quarterly)

A curva contínua indica a frequência teórica de p-values, e é tirada do paper citado.

A linha vermelha, valores experimentais coletados, o que indica um viés de seleção: vários valores muito próximos, mas menores, que 0,05; poucos maiores.

Aqui estão algumas formas comuns de p-hacking:

  • Coletar mais dados: Continuar a coletar dados até que o resultado desejado seja alcançado.
  • Selecionar variáveis: Testar várias variáveis e só reportar aquelas que mostram significância.
  • Reanalisar dados: Reanalisar os dados de diferentes maneiras até encontrar um resultado significativo.
  • Excluir outliers: Remover pontos de dados que não suportam a hipótese.
  • Formular hipóteses após dados favoráveis: O ideal é ter a hipótese e levantar dados para testar, não o inverso.

O problema com o p-hacking é que ele aumenta a probabilidade de encontrar resultados significativos por acaso, comprometendo a integridade da pesquisa. Para evitar isso, os pesquisadores devem pré-registrar seus estudos e análises, ser transparentes sobre todas as análises realizadas e idealmente publicar até mesmo se não obteve o resultado esperado.

Deixe um comentário