Pour la classe KLUCBAgent, il me semble qu'on ait besoin de définir la divergence de Kullback-Leibler.
Habituellement, celle-ci se définit ainsi pour des distributions de Bernoulli : kl(x,y) = x * log(x / y) + (1 - x) * log((1 - x) / (1 - y))
Cependant, dans notre cas, x et y ne sont pas forcément compris entre 0 et 1. Comment adapter la formule ci-dessus pour qu'elle soit valable dans notre cas?
Merci,
Jeremy
Posted by: jjos @ Dec. 17, 2018, 7:23 p.m.Pour les deux agents KLUCB et Thompson sampling, on suppose que les rewards suivent une distribution gaussienne (donc caracteriser par une moyenne et la variance).
Le DKL entre deux gaussiennes est définit par:
KL(p, q) = log(sigma_q / sigma_p) + [(sigma_p^2 + (mean_p - mean_q)^2 ) / (2 * sigma_q^2)] - 1/2
Posted by: herilalaina @ Dec. 18, 2018, 6:51 p.m.