====== Perplexity statistics ======
Mean PPL(Q)                   :   8.110625 ±   0.057574
Mean PPL(base)                :   7.669212 ±   0.052592
Cor(ln(PPL(Q)), ln(PPL(base))):  99.13%
Mean ln(PPL(Q)/PPL(base))     :   0.055961 ±   0.000952
Mean PPL(Q)/PPL(base)         :   1.057557 ±   0.001006
Mean PPL(Q)-PPL(base)         :   0.441413 ±   0.008805

====== KL divergence statistics ======
Mean    KLD:   0.040448 ±   0.000234
Maximum KLD:   6.379222
99.9%   KLD:   1.053216
99.0%   KLD:   0.360273
99.0%   KLD:   0.360273
Median  KLD:   0.018671
10.0%   KLD:   0.000506
 5.0%   KLD:   0.000109
 1.0%   KLD:   0.000010
Minimum KLD:  -0.000056

====== Token probability statistics ======
Mean    Δp:  0.051 ± 0.015 %
Maximum Δp: 74.698%
99.9%   Δp: 33.122%
99.0%   Δp: 16.452%
95.0%   Δp:  8.086%
90.0%   Δp:  4.929%
75.0%   Δp:  1.204%
Median  Δp:  0.002%
25.0%   Δp: -0.779%
10.0%   Δp: -4.283%
 5.0%   Δp: -7.905%
 1.0%   Δp: -19.413%
 0.1%   Δp: -47.356%
Minimum Δp: -94.695%
RMS Δp    :  5.835 ± 0.039 %
Same top p: 91.224 ± 0.073 %