====== Perplexity statistics ======
Mean PPL(Q)                   :  10.139939 ±   0.073658
Mean PPL(base)                :  10.036835 ±   0.072696
Cor(ln(PPL(Q)), ln(PPL(base))):  99.75%
Mean ln(PPL(Q)/PPL(base))     :   0.010220 ±   0.000518
Mean PPL(Q)/PPL(base)         :   1.010273 ±   0.000523
Mean PPL(Q)-PPL(base)         :   0.103104 ±   0.005308

====== KL divergence statistics ======
Mean    KLD:   0.014417 ±   0.000070
Maximum KLD:   3.952321
99.9%   KLD:   0.271614
99.0%   KLD:   0.107147
99.0%   KLD:   0.107147
Median  KLD:   0.008493
10.0%   KLD:   0.000243
 5.0%   KLD:   0.000047
 1.0%   KLD:   0.000002
Minimum KLD:  -0.000098

====== Token probability statistics ======
Mean    Δp: -0.146 ± 0.008 %
Maximum Δp: 90.019%
99.9%   Δp: 18.437%
99.0%   Δp:  9.000%
95.0%   Δp:  4.047%
90.0%   Δp:  2.286%
75.0%   Δp:  0.407%
Median  Δp: -0.001%
25.0%   Δp: -0.621%
10.0%   Δp: -2.714%
 5.0%   Δp: -4.622%
 1.0%   Δp: -10.223%
 0.1%   Δp: -22.645%
Minimum Δp: -68.862%
RMS Δp    :  3.110 ± 0.023 %
Same top p: 94.018 ± 0.061 %