====== Perplexity statistics ======
Mean PPL(Q)                   :   7.058128 ±   0.043917
Mean PPL(base)                :   6.554978 ±   0.040159
Cor(ln(PPL(Q)), ln(PPL(base))):  98.13%
Mean ln(PPL(Q)/PPL(base))     :   0.073955 ±   0.001199
Mean PPL(Q)/PPL(base)         :   1.076758 ±   0.001291
Mean PPL(Q)-PPL(base)         :   0.503150 ±   0.008958

====== KL divergence statistics ======
Mean    KLD:   0.082098 ±   0.000506
Maximum KLD:   7.242301
99.9%   KLD:   2.677090
99.0%   KLD:   0.797781
99.0%   KLD:   0.797781
Median  KLD:   0.039636
10.0%   KLD:   0.002107
 5.0%   KLD:   0.000626
 1.0%   KLD:   0.000097
Minimum KLD:   0.000000

====== Token probability statistics ======
Mean    Δp: -1.456 ± 0.023 %
Maximum Δp: 80.443%
99.9%   Δp: 35.332%
99.0%   Δp: 17.314%
95.0%   Δp:  7.970%
90.0%   Δp:  4.563%
75.0%   Δp:  0.769%
Median  Δp: -0.104%
25.0%   Δp: -2.423%
10.0%   Δp: -8.113%
 5.0%   Δp: -13.666%
 1.0%   Δp: -36.371%
 0.1%   Δp: -79.787%
Minimum Δp: -99.572%
RMS Δp    :  8.722 ± 0.061 %
Same top p: 87.098 ± 0.088 %