====== Perplexity statistics ======
Mean PPL(Q)                   :  26.638550 ±   0.259075
Mean PPL(base)                :  24.931431 ±   0.241228
Cor(ln(PPL(Q)), ln(PPL(base))):  98.51%
Mean ln(PPL(Q)/PPL(base))     :   0.066230 ±   0.001677
Mean PPL(Q)/PPL(base)         :   1.068473 ±   0.001792
Mean PPL(Q)-PPL(base)         :   1.707120 ±   0.046752

====== KL divergence statistics ======
Mean    KLD:   0.115060 ±   0.000427
Maximum KLD:   6.862354
99.9%   KLD:   1.668972
99.0%   KLD:   0.747263
99.0%   KLD:   0.747263
Median  KLD:   0.065809
10.0%   KLD:   0.001661
 5.0%   KLD:   0.000301
 1.0%   KLD:   0.000018
Minimum KLD:  -0.000103

====== Token probability statistics ======
Mean    Δp: -1.254 ± 0.021 %
Maximum Δp: 92.550%
99.9%   Δp: 43.219%
99.0%   Δp: 21.697%
95.0%   Δp:  8.707%
90.0%   Δp:  4.022%
75.0%   Δp:  0.260%
Median  Δp: -0.015%
25.0%   Δp: -1.839%
10.0%   Δp: -8.696%
 5.0%   Δp: -15.122%
 1.0%   Δp: -31.087%
 0.1%   Δp: -57.206%
Minimum Δp: -96.125%
RMS Δp    :  8.252 ± 0.042 %
Same top p: 83.845 ± 0.095 %