Spaces:

lovodkin93
/

FuseReviews-Leaderboard

Running

App Files Files Community

FuseReviews-Leaderboard / visitbench_leaderboard_Single~Image_Sep252023.tsv

lovodkin93's picture

Upload 4 files

a2ed20e verified 11 months ago

832 Bytes

	Category Model Elo # Matches Win vs. Reference (w/ # ratings)
	Single Image Human Verified Reference 1382 5880 ---
	Single Image LLaVA-Plus (13B) 🥇 1203 678 35.07% (n=134)
	Single Image LLaVA (13B) 🥈 1095 5420 18.53% (n=475)
	Single Image mPLUG-Owl 🥉 1087 5440 15.83% (n=480)
	Single Image LlamaAdapter-v2 1066 5469 14.14% (n=488)
	Single Image Lynx(8B) 1037 787 11.43% (n=140)
	Single Image idefics (9B) 1020 794 9.72% (n=144)
	Single Image InstructBLIP 1000 5469 14.12% (n=503)
	Single Image Otter 962 5443 7.01% (n=499)
	Single Image Visual Gpt (Davinci003) 941 5437 1.57% (n=510)
	Single Image MiniGPT-4 926 5448 3.36% (n=506)
	Single Image Octopus V2 925 790 8.90% (n=146)
	Single Image OpenFlamingo V1 851 5479 2.95% (n=509)
	Single Image PandaGPT (13B) 775 5465 2.70% (n=519)
	Single Image MultimodalGPT 731 5471 0.19% (n=527)