O jogo do Bandido de Múltiplos braços

Segue no link uma implementação lúdica, do problema do bandido de múltiplos braços.

https://asgunzi.neocities.org/ArteMatematica/bandido

O “one-armed bandit” é um caça-níqueis comum, chamado assim porque tem um braço só, e porque é um ladrão de recursos. 

Você está em um cassino com N caça-níqueis (daí o termo, multi-armed bandit). Cada máquina tem uma probabilidade de recompensa diferente (e desconhecida para você). Seus recursos são finitos. Seu objetivo é maximizar o ganho total ao longo de uma série de jogadas.

Qual a estratégia ótima a adotar?

Este é o clássico dilema entre explore (exploração, no sentido de descobrir coisas novas) e exploit (exploração, no sentido de aproveitar ao máximo).

Uma primeira estratégia pode ser distribuir igualmente as fichas em todas as N máquinas.

Uma segunda estratégia pode ser apostar todas as suas fichas em uma das máquinas.

Ambas são ruins, porque na primeira vou deixar de explorar mais as melhores máquinas; na segunda, vou correr um risco enorme de escolher a máquina errada. Numa, ser conservador demais; na outra, ousado demais.

As melhores estratégias se baseiam em: 1 – explorar horizontalmente as opções, a fim de coletar informações; 2 – escolher somente as mais promissoras, explorando verticalmente as mesmas.

Há diversas variações possíveis, sobre este conceito básico, sobre quanto e quando aproveitar.

Este problema é legal, porque tem várias aplicações em problemas reais, como testes A/B em marketing, alocação dinâmica de recursos.

Neste jogo específico, você tem 12 fichas em 5 rodadas, para testar 4 máquinas e extrair o máximo possível delas.

https://asgunzi.neocities.org/ArteMatematica/bandido

Deixe um comentário