Hugging Face Open LLM Leaderboard
Beschreibung: Technisches Benchmark-Leaderboard für Open-Source LLMs mit 6 standardisierten Tests
Website: https://huggingface.co/open-llm-leaderboard
Das Hugging Face Open LLM Leaderboard ist die zentrale Anlaufstelle für objektive Benchmarks von Open-Source-Sprachmodellen. Es nutzt standardisierte Tests, um echten Fortschritt von Marketing zu trennen.
Evaluierungs-Methodik
6 Kernbenchmarks über Eleuther AI Evaluation Harness:
- IFEval: Instruction-Following mit strikten Format-Vorgaben
- BBH: 23 schwierige Tasks (Arithmetik, Reasoning, Sprachverständnis)
- MATH Lvl 5: Highschool-Mathematik-Wettbewerbe
- GPQA: Graduierten-Level Fragen (Biologie, Physik, Chemie)
- MuSR: Multistep Soft Reasoning
Features
- Filterbar: Nach Modellgröße, Lizenz, Architektur
- Detaillierte Metriken: Volle Benchmark-Ergebnisse pro Modell
- Community-driven: 17-köpfiges Team, 1.696+ Follower
- Transparenz: Alle Evaluation-Datasets öffentlich
Nutzung
Ideal für Entwickler, die objektiv vergleichen möchten, welches Open-Source-Modell für ihren Anwendungsfall am besten geeignet ist.