Generate perplexity and kld scores

Browse files

Files changed (12) hide show

scores/hammer2.1-7b-iq3_m.log +37 -0
scores/hammer2.1-7b-iq3_s.log +37 -0
scores/hammer2.1-7b-iq4_nl.log +37 -0
scores/hammer2.1-7b-q3_k_l.log +37 -0
scores/hammer2.1-7b-q3_k_m.log +37 -0
scores/hammer2.1-7b-q3_k_s.log +37 -0
scores/hammer2.1-7b-q4_k_m.log +37 -0
scores/hammer2.1-7b-q4_k_s.log +37 -0
scores/hammer2.1-7b-q5_k_m.log +37 -0
scores/hammer2.1-7b-q5_k_s.log +37 -0
scores/hammer2.1-7b-q6_k.log +37 -0
scores/hammer2.1-7b-q8_0.log +37 -0

scores/hammer2.1-7b-iq3_m.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  10.349753 ±   0.074664
+Mean PPL(base)                :  10.036835 ±   0.072696
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.18%
+Mean ln(PPL(Q)/PPL(base))     :   0.030701 ±   0.000925
+Mean PPL(Q)/PPL(base)         :   1.031177 ±   0.000954
+Mean PPL(Q)-PPL(base)         :   0.312918 ±   0.009631
+====== KL divergence statistics ======
+Mean    KLD:   0.048768 ±   0.000209
+Maximum KLD:   3.758030
+99.9%   KLD:   0.887181
+99.0%   KLD:   0.364024
+99.0%   KLD:   0.364024
+Median  KLD:   0.029039
+10.0%   KLD:   0.001092
+ 5.0%   KLD:   0.000244
+ 1.0%   KLD:   0.000018
+Minimum KLD:  -0.000019
+====== Token probability statistics ======
+Mean    Δp: -1.020 ± 0.015 %
+Maximum Δp: 79.699%
+99.9%   Δp: 30.611%
+99.0%   Δp: 14.151%
+95.0%   Δp:  5.746%
+90.0%   Δp:  2.903%
+75.0%   Δp:  0.312%
+Median  Δp: -0.060%
+25.0%   Δp: -1.929%
+10.0%   Δp: -6.302%
+ 5.0%   Δp: -10.024%
+ 1.0%   Δp: -20.875%
+ 0.1%   Δp: -43.369%
+Minimum Δp: -76.104%
+RMS Δp    :  5.764 ± 0.034 %
+Same top p: 89.288 ± 0.080 %

scores/hammer2.1-7b-iq3_s.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  10.401451 ±   0.075250
+Mean PPL(base)                :  10.036835 ±   0.072696
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.14%
+Mean ln(PPL(Q)/PPL(base))     :   0.035684 ±   0.000949
+Mean PPL(Q)/PPL(base)         :   1.036328 ±   0.000983
+Mean PPL(Q)-PPL(base)         :   0.364616 ±   0.010024
+====== KL divergence statistics ======
+Mean    KLD:   0.050746 ±   0.000215
+Maximum KLD:   3.334370
+99.9%   KLD:   0.923916
+99.0%   KLD:   0.376239
+99.0%   KLD:   0.376239
+Median  KLD:   0.030081
+10.0%   KLD:   0.001119
+ 5.0%   KLD:   0.000250
+ 1.0%   KLD:   0.000020
+Minimum KLD:  -0.000007
+====== Token probability statistics ======
+Mean    Δp: -0.975 ± 0.015 %
+Maximum Δp: 72.807%
+99.9%   Δp: 31.246%
+99.0%   Δp: 14.309%
+95.0%   Δp:  6.030%
+90.0%   Δp:  3.075%
+75.0%   Δp:  0.343%
+Median  Δp: -0.055%
+25.0%   Δp: -1.867%
+10.0%   Δp: -6.234%
+ 5.0%   Δp: -10.091%
+ 1.0%   Δp: -21.519%
+ 0.1%   Δp: -44.651%
+Minimum Δp: -88.497%
+RMS Δp    :  5.862 ± 0.035 %
+Same top p: 89.036 ± 0.081 %

scores/hammer2.1-7b-iq4_nl.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  10.188365 ±   0.074008
+Mean PPL(base)                :  10.036835 ±   0.072696
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.71%
+Mean ln(PPL(Q)/PPL(base))     :   0.014985 ±   0.000549
+Mean PPL(Q)/PPL(base)         :   1.015097 ±   0.000557
+Mean PPL(Q)-PPL(base)         :   0.151531 ±   0.005697
+====== KL divergence statistics ======
+Mean    KLD:   0.016340 ±   0.000073
+Maximum KLD:   1.379349
+99.9%   KLD:   0.306994
+99.0%   KLD:   0.123776
+99.0%   KLD:   0.123776
+Median  KLD:   0.009530
+10.0%   KLD:   0.000284
+ 5.0%   KLD:   0.000056
+ 1.0%   KLD:   0.000003
+Minimum KLD:  -0.000110
+====== Token probability statistics ======
+Mean    Δp: -0.221 ± 0.009 %
+Maximum Δp: 58.518%
+99.9%   Δp: 19.108%
+99.0%   Δp:  9.095%
+95.0%   Δp:  4.085%
+90.0%   Δp:  2.282%
+75.0%   Δp:  0.400%
+Median  Δp: -0.002%
+25.0%   Δp: -0.680%
+10.0%   Δp: -2.932%
+ 5.0%   Δp: -5.028%
+ 1.0%   Δp: -11.387%
+ 0.1%   Δp: -25.096%
+Minimum Δp: -63.543%
+RMS Δp    :  3.306 ± 0.023 %
+Same top p: 93.581 ± 0.064 %

scores/hammer2.1-7b-q3_k_l.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  10.455858 ±   0.076831
+Mean PPL(base)                :  10.036835 ±   0.072696
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.30%
+Mean ln(PPL(Q)/PPL(base))     :   0.040901 ±   0.000871
+Mean PPL(Q)/PPL(base)         :   1.041749 ±   0.000907
+Mean PPL(Q)-PPL(base)         :   0.419023 ±   0.009775
+====== KL divergence statistics ======
+Mean    KLD:   0.039060 ±   0.000178
+Maximum KLD:   5.251009
+99.9%   KLD:   0.766137
+99.0%   KLD:   0.290706
+99.0%   KLD:   0.290706
+Median  KLD:   0.022797
+10.0%   KLD:   0.000638
+ 5.0%   KLD:   0.000122
+ 1.0%   KLD:   0.000007
+Minimum KLD:  -0.000132
+====== Token probability statistics ======
+Mean    Δp: -0.404 ± 0.014 %
+Maximum Δp: 84.448%
+99.9%   Δp: 27.062%
+99.0%   Δp: 13.834%
+95.0%   Δp:  6.500%
+90.0%   Δp:  3.713%
+75.0%   Δp:  0.682%
+Median  Δp: -0.003%
+25.0%   Δp: -1.065%
+10.0%   Δp: -4.833%
+ 5.0%   Δp: -8.289%
+ 1.0%   Δp: -18.737%
+ 0.1%   Δp: -40.529%
+Minimum Δp: -97.396%
+RMS Δp    :  5.260 ± 0.034 %
+Same top p: 90.124 ± 0.077 %

scores/hammer2.1-7b-q3_k_m.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  10.469704 ±   0.076871
+Mean PPL(base)                :  10.036835 ±   0.072696
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.20%
+Mean ln(PPL(Q)/PPL(base))     :   0.042224 ±   0.000927
+Mean PPL(Q)/PPL(base)         :   1.043128 ±   0.000967
+Mean PPL(Q)-PPL(base)         :   0.432869 ±   0.010328
+====== KL divergence statistics ======
+Mean    KLD:   0.044002 ±   0.000201
+Maximum KLD:   5.247561
+99.9%   KLD:   0.866438
+99.0%   KLD:   0.326842
+99.0%   KLD:   0.326842
+Median  KLD:   0.025367
+10.0%   KLD:   0.000731
+ 5.0%   KLD:   0.000142
+ 1.0%   KLD:   0.000009
+Minimum KLD:  -0.000234
+====== Token probability statistics ======
+Mean    Δp: -0.465 ± 0.014 %
+Maximum Δp: 82.693%
+99.9%   Δp: 28.711%
+99.0%   Δp: 14.576%
+95.0%   Δp:  6.726%
+90.0%   Δp:  3.801%
+75.0%   Δp:  0.673%
+Median  Δp: -0.005%
+25.0%   Δp: -1.170%
+10.0%   Δp: -5.104%
+ 5.0%   Δp: -8.747%
+ 1.0%   Δp: -19.949%
+ 0.1%   Δp: -42.515%
+Minimum Δp: -96.762%
+RMS Δp    :  5.550 ± 0.036 %
+Same top p: 89.641 ± 0.079 %

scores/hammer2.1-7b-q3_k_s.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  10.774104 ±   0.078933
+Mean PPL(base)                :  10.036835 ±   0.072696
+Cor(ln(PPL(Q)), ln(PPL(base))):  98.73%
+Mean ln(PPL(Q)/PPL(base))     :   0.070884 ±   0.001163
+Mean PPL(Q)/PPL(base)         :   1.073456 ±   0.001249
+Mean PPL(Q)-PPL(base)         :   0.737270 ±   0.013581
+====== KL divergence statistics ======
+Mean    KLD:   0.072166 ±   0.000301
+Maximum KLD:   4.513918
+99.9%   KLD:   1.255733
+99.0%   KLD:   0.525244
+99.0%   KLD:   0.525244
+Median  KLD:   0.043659
+10.0%   KLD:   0.001389
+ 5.0%   KLD:   0.000295
+ 1.0%   KLD:   0.000023
+Minimum KLD:  -0.000033
+====== Token probability statistics ======
+Mean    Δp: -1.248 ± 0.018 %
+Maximum Δp: 86.155%
+99.9%   Δp: 34.118%
+99.0%   Δp: 16.809%
+95.0%   Δp:  7.276%
+90.0%   Δp:  3.730%
+75.0%   Δp:  0.431%
+Median  Δp: -0.052%
+25.0%   Δp: -2.217%
+10.0%   Δp: -7.749%
+ 5.0%   Δp: -12.608%
+ 1.0%   Δp: -27.291%
+ 0.1%   Δp: -55.755%
+Minimum Δp: -90.520%
+RMS Δp    :  7.155 ± 0.041 %
+Same top p: 86.887 ± 0.087 %

scores/hammer2.1-7b-q4_k_m.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  10.130249 ±   0.073552
+Mean PPL(base)                :  10.036835 ±   0.072696
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.79%
+Mean ln(PPL(Q)/PPL(base))     :   0.009264 ±   0.000475
+Mean PPL(Q)/PPL(base)         :   1.009307 ±   0.000479
+Mean PPL(Q)-PPL(base)         :   0.093414 ±   0.004859
+====== KL divergence statistics ======
+Mean    KLD:   0.012012 ±   0.000059
+Maximum KLD:   2.987801
+99.9%   KLD:   0.227534
+99.0%   KLD:   0.085719
+99.0%   KLD:   0.085719
+Median  KLD:   0.007136
+10.0%   KLD:   0.000206
+ 5.0%   KLD:   0.000040
+ 1.0%   KLD:   0.000002
+Minimum KLD:  -0.000146
+====== Token probability statistics ======
+Mean    Δp: -0.144 ± 0.007 %
+Maximum Δp: 88.099%
+99.9%   Δp: 17.014%
+99.0%   Δp:  8.223%
+95.0%   Δp:  3.729%
+90.0%   Δp:  2.080%
+75.0%   Δp:  0.351%
+Median  Δp: -0.002%
+25.0%   Δp: -0.591%
+10.0%   Δp: -2.522%
+ 5.0%   Δp: -4.245%
+ 1.0%   Δp: -9.152%
+ 0.1%   Δp: -21.093%
+Minimum Δp: -54.638%
+RMS Δp    :  2.845 ± 0.021 %
+Same top p: 94.427 ± 0.059 %

scores/hammer2.1-7b-q4_k_s.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  10.139939 ±   0.073658
+Mean PPL(base)                :  10.036835 ±   0.072696
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.75%
+Mean ln(PPL(Q)/PPL(base))     :   0.010220 ±   0.000518
+Mean PPL(Q)/PPL(base)         :   1.010273 ±   0.000523
+Mean PPL(Q)-PPL(base)         :   0.103104 ±   0.005308
+====== KL divergence statistics ======
+Mean    KLD:   0.014417 ±   0.000070
+Maximum KLD:   3.952321
+99.9%   KLD:   0.271614
+99.0%   KLD:   0.107147
+99.0%   KLD:   0.107147
+Median  KLD:   0.008493
+10.0%   KLD:   0.000243
+ 5.0%   KLD:   0.000047
+ 1.0%   KLD:   0.000002
+Minimum KLD:  -0.000098
+====== Token probability statistics ======
+Mean    Δp: -0.146 ± 0.008 %
+Maximum Δp: 90.019%
+99.9%   Δp: 18.437%
+99.0%   Δp:  9.000%
+95.0%   Δp:  4.047%
+90.0%   Δp:  2.286%
+75.0%   Δp:  0.407%
+Median  Δp: -0.001%
+25.0%   Δp: -0.621%
+10.0%   Δp: -2.714%
+ 5.0%   Δp: -4.622%
+ 1.0%   Δp: -10.223%
+ 0.1%   Δp: -22.645%
+Minimum Δp: -68.862%
+RMS Δp    :  3.110 ± 0.023 %
+Same top p: 94.018 ± 0.061 %

scores/hammer2.1-7b-q5_k_m.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  10.071679 ±   0.073178
+Mean PPL(base)                :  10.036835 ±   0.072696
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.93%
+Mean ln(PPL(Q)/PPL(base))     :   0.003466 ±   0.000272
+Mean PPL(Q)/PPL(base)         :   1.003472 ±   0.000273
+Mean PPL(Q)-PPL(base)         :   0.034844 ±   0.002769
+====== KL divergence statistics ======
+Mean    KLD:   0.003501 ±   0.000018
+Maximum KLD:   1.326304
+99.9%   KLD:   0.063485
+99.0%   KLD:   0.024422
+99.0%   KLD:   0.024422
+Median  KLD:   0.002144
+10.0%   KLD:   0.000053
+ 5.0%   KLD:   0.000008
+ 1.0%   KLD:  -0.000001
+Minimum KLD:  -0.000235
+====== Token probability statistics ======
+Mean    Δp:  0.013 ± 0.004 %
+Maximum Δp: 34.867%
+99.9%   Δp:  9.405%
+99.0%   Δp:  4.684%
+95.0%   Δp:  2.228%
+90.0%   Δp:  1.306%
+75.0%   Δp:  0.272%
+Median  Δp:  0.000%
+25.0%   Δp: -0.249%
+10.0%   Δp: -1.227%
+ 5.0%   Δp: -2.154%
+ 1.0%   Δp: -4.685%
+ 0.1%   Δp: -10.648%
+Minimum Δp: -30.875%
+RMS Δp    :  1.532 ± 0.011 %
+Same top p: 96.908 ± 0.045 %

scores/hammer2.1-7b-q5_k_s.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  10.092163 ±   0.073418
+Mean PPL(base)                :  10.036835 ±   0.072696
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.92%
+Mean ln(PPL(Q)/PPL(base))     :   0.005497 ±   0.000290
+Mean PPL(Q)/PPL(base)         :   1.005513 ±   0.000291
+Mean PPL(Q)-PPL(base)         :   0.055329 ±   0.002985
+====== KL divergence statistics ======
+Mean    KLD:   0.004008 ±   0.000021
+Maximum KLD:   1.392368
+99.9%   KLD:   0.076297
+99.0%   KLD:   0.029280
+99.0%   KLD:   0.029280
+Median  KLD:   0.002400
+10.0%   KLD:   0.000055
+ 5.0%   KLD:   0.000008
+ 1.0%   KLD:  -0.000002
+Minimum KLD:  -0.000235
+====== Token probability statistics ======
+Mean    Δp:  0.003 ± 0.004 %
+Maximum Δp: 44.164%
+99.9%   Δp: 10.258%
+99.0%   Δp:  4.882%
+95.0%   Δp:  2.317%
+90.0%   Δp:  1.357%
+75.0%   Δp:  0.286%
+Median  Δp: -0.000%
+25.0%   Δp: -0.264%
+10.0%   Δp: -1.302%
+ 5.0%   Δp: -2.305%
+ 1.0%   Δp: -5.091%
+ 0.1%   Δp: -11.711%
+Minimum Δp: -28.870%
+RMS Δp    :  1.636 ± 0.011 %
+Same top p: 96.720 ± 0.046 %

scores/hammer2.1-7b-q6_k.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  10.063662 ±   0.073025
+Mean PPL(base)                :  10.036835 ±   0.072696
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.97%
+Mean ln(PPL(Q)/PPL(base))     :   0.002669 ±   0.000186
+Mean PPL(Q)/PPL(base)         :   1.002673 ±   0.000186
+Mean PPL(Q)-PPL(base)         :   0.026827 ±   0.001889
+====== KL divergence statistics ======
+Mean    KLD:   0.001360 ±   0.000005
+Maximum KLD:   0.216463
+99.9%   KLD:   0.021616
+99.0%   KLD:   0.008655
+99.0%   KLD:   0.008655
+Median  KLD:   0.000893
+10.0%   KLD:   0.000021
+ 5.0%   KLD:   0.000003
+ 1.0%   KLD:  -0.000002
+Minimum KLD:  -0.000123
+====== Token probability statistics ======
+Mean    Δp: -0.011 ± 0.002 %
+Maximum Δp: 26.248%
+99.9%   Δp:  5.746%
+99.0%   Δp:  2.880%
+95.0%   Δp:  1.388%
+90.0%   Δp:  0.805%
+75.0%   Δp:  0.157%
+Median  Δp: -0.000%
+25.0%   Δp: -0.176%
+10.0%   Δp: -0.830%
+ 5.0%   Δp: -1.418%
+ 1.0%   Δp: -2.952%
+ 0.1%   Δp: -6.178%
+Minimum Δp: -16.853%
+RMS Δp    :  0.953 ± 0.006 %
+Same top p: 98.010 ± 0.036 %

scores/hammer2.1-7b-q8_0.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  10.039829 ±   0.072796
+Mean PPL(base)                :  10.036835 ±   0.072696
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.99%
+Mean ln(PPL(Q)/PPL(base))     :   0.000298 ±   0.000120
+Mean PPL(Q)/PPL(base)         :   1.000298 ±   0.000120
+Mean PPL(Q)-PPL(base)         :   0.002994 ±   0.001202
+====== KL divergence statistics ======
+Mean    KLD:   0.000162 ±   0.000001
+Maximum KLD:   0.031653
+99.9%   KLD:   0.002376
+99.0%   KLD:   0.000973
+99.0%   KLD:   0.000973
+Median  KLD:   0.000112
+10.0%   KLD:   0.000003
+ 5.0%   KLD:   0.000000
+ 1.0%   KLD:  -0.000004
+Minimum KLD:  -0.000071
+====== Token probability statistics ======
+Mean    Δp: -0.006 ± 0.001 %
+Maximum Δp:  7.425%
+99.9%   Δp:  1.985%
+99.0%   Δp:  0.955%
+95.0%   Δp:  0.463%
+90.0%   Δp:  0.270%
+75.0%   Δp:  0.053%
+Median  Δp: -0.000%
+25.0%   Δp: -0.064%
+10.0%   Δp: -0.293%
+ 5.0%   Δp: -0.489%
+ 1.0%   Δp: -0.973%
+ 0.1%   Δp: -1.929%
+Minimum Δp: -9.811%
+RMS Δp    :  0.319 ± 0.002 %
+Same top p: 99.303 ± 0.022 %