====== Perplexity statistics ======
Mean PPL(Q)                   :   8.165871 ±   0.058188
Mean PPL(base)                :   7.669212 ±   0.052592
Cor(ln(PPL(Q)), ln(PPL(base))):  98.99%
Mean ln(PPL(Q)/PPL(base))     :   0.062749 ±   0.001031
Mean PPL(Q)/PPL(base)         :   1.064760 ±   0.001097
Mean PPL(Q)-PPL(base)         :   0.496659 ±   0.009661

====== KL divergence statistics ======
Mean    KLD:   0.047858 ±   0.000270
Maximum KLD:   6.150911
99.9%   KLD:   1.249913
99.0%   KLD:   0.432030
99.0%   KLD:   0.432030
Median  KLD:   0.022468
10.0%   KLD:   0.000611
 5.0%   KLD:   0.000131
 1.0%   KLD:   0.000012
Minimum KLD:  -0.000036

====== Token probability statistics ======
Mean    Δp:  0.098 ± 0.016 %
Maximum Δp: 78.740%
99.9%   Δp: 35.019%
99.0%   Δp: 17.900%
95.0%   Δp:  8.799%
90.0%   Δp:  5.473%
75.0%   Δp:  1.381%
Median  Δp:  0.002%
25.0%   Δp: -0.804%
10.0%   Δp: -4.551%
 5.0%   Δp: -8.393%
 1.0%   Δp: -21.492%
 0.1%   Δp: -50.963%
Minimum Δp: -98.116%
RMS Δp    :  6.307 ± 0.041 %
Same top p: 90.491 ± 0.075 %