====== Perplexity statistics ======
Mean PPL(Q)                   :   7.840359 ±   0.054591
Mean PPL(base)                :   7.669212 ±   0.052592
Cor(ln(PPL(Q)), ln(PPL(base))):  99.59%
Mean ln(PPL(Q)/PPL(base))     :   0.022071 ±   0.000635
Mean PPL(Q)/PPL(base)         :   1.022316 ±   0.000649
Mean PPL(Q)-PPL(base)         :   0.171147 ±   0.005250

====== KL divergence statistics ======
Mean    KLD:   0.018718 ±   0.000116
Maximum KLD:   6.114595
99.9%   KLD:   0.485730
99.0%   KLD:   0.163399
99.0%   KLD:   0.163399
Median  KLD:   0.008838
10.0%   KLD:   0.000234
 5.0%   KLD:   0.000050
 1.0%   KLD:   0.000004
Minimum KLD:  -0.000041

====== Token probability statistics ======
Mean    Δp:  0.076 ± 0.010 %
Maximum Δp: 66.396%
99.9%   Δp: 23.998%
99.0%   Δp: 11.662%
95.0%   Δp:  5.532%
90.0%   Δp:  3.344%
75.0%   Δp:  0.813%
Median  Δp:  0.002%
25.0%   Δp: -0.545%
10.0%   Δp: -2.911%
 5.0%   Δp: -5.225%
 1.0%   Δp: -12.402%
 0.1%   Δp: -30.453%
Minimum Δp: -76.318%
RMS Δp    :  3.956 ± 0.029 %
Same top p: 93.916 ± 0.061 %