====== Perplexity statistics ======
Mean PPL(Q)                   :   6.570115 ±   0.040324
Mean PPL(base)                :   6.554978 ±   0.040159
Cor(ln(PPL(Q)), ln(PPL(base))):  99.90%
Mean ln(PPL(Q)/PPL(base))     :   0.002306 ±   0.000270
Mean PPL(Q)/PPL(base)         :   1.002309 ±   0.000271
Mean PPL(Q)-PPL(base)         :   0.015136 ±   0.001781

====== KL divergence statistics ======
Mean    KLD:   0.004383 ±   0.000032
Maximum KLD:   2.212321
99.9%   KLD:   0.132681
99.0%   KLD:   0.034646
99.0%   KLD:   0.034646
Median  KLD:   0.002591
10.0%   KLD:   0.000106
 5.0%   KLD:   0.000027
 1.0%   KLD:   0.000002
Minimum KLD:  -0.000056

====== Token probability statistics ======
Mean    Δp: -0.000 ± 0.005 %
Maximum Δp: 49.226%
99.9%   Δp: 11.768%
99.0%   Δp:  5.638%
95.0%   Δp:  2.842%
90.0%   Δp:  1.720%
75.0%   Δp:  0.416%
Median  Δp:  0.000%
25.0%   Δp: -0.391%
10.0%   Δp: -1.680%
 5.0%   Δp: -2.766%
 1.0%   Δp: -5.808%
 0.1%   Δp: -15.176%
Minimum Δp: -72.891%
RMS Δp    :  2.003 ± 0.019 %
Same top p: 96.391 ± 0.049 %