CodaLab -

> Kullback-Leibler divergence

Pour la classe KLUCBAgent, il me semble qu'on ait besoin de définir la divergence de Kullback-Leibler.
Habituellement, celle-ci se définit ainsi pour des distributions de Bernoulli : kl(x,y) = x * log(x / y) + (1 - x) * log((1 - x) / (1 - y))
Cependant, dans notre cas, x et y ne sont pas forcément compris entre 0 et 1. Comment adapter la formule ci-dessus pour qu'elle soit valable dans notre cas?

Merci,

Jeremy

Posted by: jjos @ Dec. 17, 2018, 7:23 p.m.

Pour les deux agents KLUCB et Thompson sampling, on suppose que les rewards suivent une distribution gaussienne (donc caracteriser par une moyenne et la variance).

Le DKL entre deux gaussiennes est définit par:

KL(p, q) = log(sigma_q / sigma_p) + [(sigma_p^2 + (mean_p - mean_q)^2 ) / (2 * sigma_q^2)] - 1/2

Posted by: herilalaina @ Dec. 18, 2018, 6:51 p.m.

Post in this thread

Forums

Master AIC - RL courses - Bandits (2018 - 2019) Forum

> Kullback-Leibler divergence