====== Perplexity statistics ======
Mean PPL(Q)                   :   7.853283 ±   0.054726
Mean PPL(base)                :   7.669212 ±   0.052592
Cor(ln(PPL(Q)), ln(PPL(base))):  99.59%
Mean ln(PPL(Q)/PPL(base))     :   0.023718 ±   0.000635
Mean PPL(Q)/PPL(base)         :   1.024001 ±   0.000651
Mean PPL(Q)-PPL(base)         :   0.184071 ±   0.005304

====== KL divergence statistics ======
Mean    KLD:   0.018656 ±   0.000110
Maximum KLD:   7.140765
99.9%   KLD:   0.458232
99.0%   KLD:   0.158482
99.0%   KLD:   0.158482
Median  KLD:   0.009102
10.0%   KLD:   0.000233
 5.0%   KLD:   0.000051
 1.0%   KLD:   0.000004
Minimum KLD:  -0.000059

====== Token probability statistics ======
Mean    Δp:  0.092 ± 0.010 %
Maximum Δp: 66.433%
99.9%   Δp: 22.960%
99.0%   Δp: 11.428%
95.0%   Δp:  5.667%
90.0%   Δp:  3.452%
75.0%   Δp:  0.841%
Median  Δp:  0.001%
25.0%   Δp: -0.535%
10.0%   Δp: -2.891%
 5.0%   Δp: -5.201%
 1.0%   Δp: -12.426%
 0.1%   Δp: -30.269%
Minimum Δp: -71.296%
RMS Δp    :  3.911 ± 0.026 %
Same top p: 93.716 ± 0.062 %