Hugging Face Open LLM Leaderboard

Beschreibung: Technisches Benchmark-Leaderboard für Open-Source LLMs mit 6 standardisierten Tests

Website: https://huggingface.co/open-llm-leaderboard

Das Hugging Face Open LLM Leaderboard ist die zentrale Anlaufstelle für objektive Benchmarks von Open-Source-Sprachmodellen. Es nutzt standardisierte Tests, um echten Fortschritt von Marketing zu trennen.

Evaluierungs-Methodik

6 Kernbenchmarks über Eleuther AI Evaluation Harness:

IFEval: Instruction-Following mit strikten Format-Vorgaben
BBH: 23 schwierige Tasks (Arithmetik, Reasoning, Sprachverständnis)
MATH Lvl 5: Highschool-Mathematik-Wettbewerbe
GPQA: Graduierten-Level Fragen (Biologie, Physik, Chemie)
MuSR: Multistep Soft Reasoning

Features

Filterbar: Nach Modellgröße, Lizenz, Architektur
Detaillierte Metriken: Volle Benchmark-Ergebnisse pro Modell
Community-driven: 17-köpfiges Team, 1.696+ Follower
Transparenz: Alle Evaluation-Datasets öffentlich

Nutzung

Ideal für Entwickler, die objektiv vergleichen möchten, welches Open-Source-Modell für ihren Anwendungsfall am besten geeignet ist.