Kimi K2.5
Beschreibung: 1 Trillion Parameter MoE-Modell mit visuellen Fähigkeiten und Agent Swarm
Website: https://www.kimi.com
Kimi K2.5 ist ein hochmodernes multimodales KI-Modell von Moonshot AI mit Mixture-of-Experts (MoE) Architektur. Mit 1 Trillion Parametern (32B aktiviert pro Token) und 256K Token Context-Window bietet es native visuelle Fähigkeiten, Code-Generierung und parallele Agenten-Ausführung.
Technische Spezifikationen
- Architektur: Mixture-of-Experts (MoE) mit 384 Experten (8 aktiviert pro Token)
- Parameter: 1 Trillion total, 32 Milliarden aktiviert pro Token
- Context-Window: 256.000 Tokens
- Vision Encoder: MoonViT mit 400M Parametern
- Training: ~15 Trillion gemischte visuelle und Text-Tokens
- Quantisierung: Native INT4-Unterstützung
- Layers: 61 Schichten (1 Dense Layer)
Besondere Fähigkeiten
Native Multimodalität: Vortrainiert auf gemischten visuellen und Text-Daten für echtes cross-modales Verständnis. Verarbeitet Text, Bilder und Videos nahtlos.
Visual Coding: Generiert produktionsreifen Frontend-Code direkt aus Text-, Bild- und Video-Eingaben. Unterstützt interaktive Layouts und Animationen.
Agent Swarm (Beta): Koordiniert bis zu 100 parallele Sub-Agenten, die gleichzeitig bis zu 1.500 Tool-Aufrufe ausführen können. Reduziert Ausführungszeit für komplexe Tasks um bis zu 4.5x.
Mehrere Modi: Verfügbar als Instant, Thinking, Agent und Agent Swarm (Beta) Modi für verschiedene Anwendungsfälle.
Performance-Benchmarks
- AIME 2025: 96.1 (Mathematik und logisches Denken)
- SWE-Bench Verified: 76.8 (Software-Engineering)
- MathVista (mini): 90.1 (Visuelles mathematisches Verständnis)
- OCRBench: 92.3 (Optische Zeichenerkennung)
Lokale Ausführung
K2.5 kann lokal mit Inferenz-Engines wie vLLM, SGLang und KTransformers ausgeführt werden. Erfordert transformers ≥ 4.57.1. Native INT4-Quantisierung ermöglicht effizientere Nutzung auf Consumer-Hardware.
Anwendungsfälle
- Visuelle Code-Generierung: Frontend-Entwicklung aus Screenshots und Mockups
- Komplexe Aufgaben-Automatisierung: Parallele Agenten für Multi-Step-Workflows
- Multimodale Analyse: Dokumente, Bilder und Videos gleichzeitig verarbeiten
- Deep Research: Umfassende Recherche mit automatischer Tool-Nutzung
Verfügbar über kimi.com als Cloud-Service und als Open-Source-Modell auf Hugging Face.