DeepSeek V3 & R1
Beschreibung: Chinesische Open-Source MoE-Modelle mit exzellenter Reasoning-Performance
Website: https://deepseeksr1.com
DeepSeek hat mit V3 und R1 zwei beeindruckende Open-Source-Modelle unter MIT-Lizenz veröffentlicht, die mit führenden proprietären Modellen konkurrieren.
DeepSeek-V3
- Parameter: 671 Milliarden (MoE), ~37B aktiv pro Token
- Context: Bis zu 128K Token
- Training: ~14.8 Billionen diverse Tokens
- Effizienz: Nur 2.788M H800 GPU-Stunden für Training
Verfügbar in V3.1 (Dual-Mode Thinking) und V3.2-Exp (DeepSeek Sparse Attention).
DeepSeek-R1
Spezialisiertes Reasoning-Modell trainiert mit Reinforcement Learning:
- Größen: Distilled Versionen von 1.5B bis 70B
- Anwendung: Schritt-für-Schritt Reasoning für Mathe, Logik, Coding
- Use Cases: Tutoren, Research Assistants, Debugging
Verfügbarkeit
MIT-Lizenz für Self-Hosting. Verfügbar auf Hugging Face und GitHub. Web-Interface, Mobile Apps und Developer API.
Besonderheit
Vergleichbare Performance zu proprietären Top-Modellen bei vollständiger Offenheit.