====== Perplexity statistics ======
Mean PPL(Q)                   :  10.469704 ±   0.076871
Mean PPL(base)                :  10.036835 ±   0.072696
Cor(ln(PPL(Q)), ln(PPL(base))):  99.20%
Mean ln(PPL(Q)/PPL(base))     :   0.042224 ±   0.000927
Mean PPL(Q)/PPL(base)         :   1.043128 ±   0.000967
Mean PPL(Q)-PPL(base)         :   0.432869 ±   0.010328

====== KL divergence statistics ======
Mean    KLD:   0.044002 ±   0.000201
Maximum KLD:   5.247561
99.9%   KLD:   0.866438
99.0%   KLD:   0.326842
99.0%   KLD:   0.326842
Median  KLD:   0.025367
10.0%   KLD:   0.000731
 5.0%   KLD:   0.000142
 1.0%   KLD:   0.000009
Minimum KLD:  -0.000234

====== Token probability statistics ======
Mean    Δp: -0.465 ± 0.014 %
Maximum Δp: 82.693%
99.9%   Δp: 28.711%
99.0%   Δp: 14.576%
95.0%   Δp:  6.726%
90.0%   Δp:  3.801%
75.0%   Δp:  0.673%
Median  Δp: -0.005%
25.0%   Δp: -1.170%
10.0%   Δp: -5.104%
 5.0%   Δp: -8.747%
 1.0%   Δp: -19.949%
 0.1%   Δp: -42.515%
Minimum Δp: -96.762%
RMS Δp    :  5.550 ± 0.036 %
Same top p: 89.641 ± 0.079 %