====== Perplexity statistics ======
Mean PPL(Q)                   :  10.349753 ±   0.074664
Mean PPL(base)                :  10.036835 ±   0.072696
Cor(ln(PPL(Q)), ln(PPL(base))):  99.18%
Mean ln(PPL(Q)/PPL(base))     :   0.030701 ±   0.000925
Mean PPL(Q)/PPL(base)         :   1.031177 ±   0.000954
Mean PPL(Q)-PPL(base)         :   0.312918 ±   0.009631

====== KL divergence statistics ======
Mean    KLD:   0.048768 ±   0.000209
Maximum KLD:   3.758030
99.9%   KLD:   0.887181
99.0%   KLD:   0.364024
99.0%   KLD:   0.364024
Median  KLD:   0.029039
10.0%   KLD:   0.001092
 5.0%   KLD:   0.000244
 1.0%   KLD:   0.000018
Minimum KLD:  -0.000019

====== Token probability statistics ======
Mean    Δp: -1.020 ± 0.015 %
Maximum Δp: 79.699%
99.9%   Δp: 30.611%
99.0%   Δp: 14.151%
95.0%   Δp:  5.746%
90.0%   Δp:  2.903%
75.0%   Δp:  0.312%
Median  Δp: -0.060%
25.0%   Δp: -1.929%
10.0%   Δp: -6.302%
 5.0%   Δp: -10.024%
 1.0%   Δp: -20.875%
 0.1%   Δp: -43.369%
Minimum Δp: -76.104%
RMS Δp    :  5.764 ± 0.034 %
Same top p: 89.288 ± 0.080 %