AI on Demandpowered by MiniMaxAI

MiniMax-M2.5: ein Mixture-of-Experts-Modell mit 230 Milliarden Parametern — davon sind pro Anfrage nur 10 Milliarden aktiv. Trainiert in über 200'000 realen Entwicklungsumgebungen und mehr als 10 Programmiersprachen, betrieben von stepping stone auf Schweizer Infrastruktur.

MiniMax-M2.5 ist ein Open-Weight-Sprachmodell mit Mixture-of-Experts-Architektur (MoE). Von den 230 Milliarden Parametern sind pro Anfrage nur rund 10 Milliarden aktiv — das macht das Modell schnell und kosteneffizient, ohne Kompromisse bei der Leistung.

Das Modell wurde gezielt für Coding und agentische Aufgaben trainiert: in über 200'000 realen Entwicklungsumgebungen und mehr als 10 Programmiersprachen. Es plant wie ein Software-Architekt, zerlegt komplexe Aufgaben in handhabbare Schritte und arbeitet selbständig mit Tools. stepping stone betreibt MiniMax-M2.5 auf Schweizer Infrastruktur — keine Daten verlassen das Land.

Entwicklungsteams und Unternehmen, die KI-gestützt programmieren, automatisieren oder agentische Workflows aufbauen wollen — ohne Abhängigkeit von US-Anbietern. Besonders geeignet für Organisationen, die Frontier-Leistung brauchen, aber Kosten und Datensouveränität im Blick behalten.

Typische Einsatzbereiche: KI-gestützte Softwareentwicklung und Code Reviews, agentische Workflows mit Tool-Integration und Websuche, automatisierte Dokumentenerstellung (Word, Excel, PowerPoint), komplexe mehrstufige Aufgaben mit autonomer Planung.

Open Weights (Modified MIT). Schweizer Rechenzentren. Kein Vendor Lock-in.

Dank MoE-Architektur liefert MiniMax-M2.5 Frontier-Leistung zu einem Bruchteil der üblichen Kosten — 10- bis 20-mal günstiger als vergleichbare proprietäre Modelle. Das Modell beherrscht über 10 Programmiersprachen und arbeitet eigenständig mit Tools, Suchmaschinen und Dateien. Persönliche Beratung und Betrieb durch stepping stone aus Bern.

Leistungsumfang

KI-Modell auf Abruf

Zugriff auf MiniMax-M2.5 für Coding, agentische Workflows und komplexe Textaufgaben. Frontier-Leistung auf Augenhöhe mit den besten proprietären Modellen — zu einem Bruchteil der Kosten.

GPU-Leistung nach Bedarf

Skalierbare Rechenleistung für Schweizer Infrastruktur. Dank MoE-Architektur besonders effizient: 230 Milliarden Parameter, nur 10 Milliarden aktiv pro Anfrage.

Betreuter Betrieb

Bereitstellung, Monitoring, Wartung und Support auf Schweizer Infrastruktur mit persönlicher Beratung. stepping stone kümmert sich um den Betrieb, damit Sie sich auf den Nutzen konzentrieren können.

Einsatzgebiete

Softwareentwicklung

MiniMax-M2.5 wurde gezielt für professionelle Softwareentwicklung trainiert — in mehr als 10 Programmiersprachen und realen Produktionsumgebungen.

Es generiert, analysiert und reviewed Code auf Frontier-Niveau: 10- bis 20-mal günstiger als vergleichbare proprietäre Modelle. Teams nutzen es als Coding Assistant, für automatisierte Code Reviews und zur Beschleunigung von Entwicklungszyklen.

Agentische Workflows

Das Modell plant wie ein Software-Architekt: Es zerlegt komplexe Aufgaben, arbeitet eigenständig mit Tools und liefert strukturierte Ergebnisse.

MiniMax-M2.5 unterstützt Function Calling, Websuche und Dateioperationen — ideal für mehrschrittige Automatisierungen. Es erstellt selbständig Word-, Excel- und PowerPoint-Dokumente und eignet sich für agentische Setups ohne US-Cloud-Abhängigkeit.

Benchmark

Die Benchmarks wurden mit dem vllm-Benchmark-Tool am produktiven API-Gateway gemessen. Die Standardgrössen für die Eingabe betrugen 1'024 Token und für die Ausgabe 256 Token, was etwa 2–3 Buchseiten oder 500–750 Wörtern entspricht.

Bei Bedarf können grössere Eingabemengen festgelegt werden.

Aufruf

# Persönlichen Schlüssel festlegen:
STONEY_KEY=sk-...

# Schlüssel für das Bench-Skript sichtbar machen:
export OPENAI_API_KEY=$STONEY_KEY

# Benchmark starten:
vllm bench serve \
 --backend openai-chat \
 --model "MiniMaxAI/MiniMax-M2.5" \
 --base-url llm.stoney-cloud.com \
 --endpoint /v1/chat/completions \
 --dataset-name random \
 --random-input-len 1024 \
 --random-output-len 256 \
 --num-prompts 50 \
 --max-concurrency 1 \
--tokenizer "Qwen/Qwen2.5-7B-Instruct" \
 --percentile-metrics ttft

Resultat

============ Serving Benchmark Result ============
Successful requests:                     48        
Failed requests:                         2         
Maximum request concurrency:             1         
Benchmark duration (s):                  187.20    
Total input tokens:                      73622     
Total generated tokens:                  12288     
Request throughput (req/s):              0.26      
Output token throughput (tok/s):         65.64     
Peak output token throughput (tok/s):    257.00    
Peak concurrent requests:                2.00      
Total token throughput (tok/s):          458.92    
---------------Time to First Token----------------
Mean TTFT (ms):                          3740.68   
Median TTFT (ms):                        3756.77   
P99 TTFT (ms):                           3871.80   
==================================================

Legende

  • Successful requests: Erfolgreiche Prompt Anfragen
  • Failed requests: Nicht erfolgreiche Prompts
  • Maximum request concurrency: Wie viele Anfragen verarbeitet das Model gleichzeitig.
  • Benchmark duration (s): Die Dauer des Benchmarkdurchlaufs in Sekunden.
  • Total input tokens: Die Gesamtanzahl der eingegeben Tokens.
  • Total generated tokens: Die Summe der vom Modell generierten Tokens.
  • Request throughput (req/s): Die Anzahl Anfragen welche pro Sekunde verarbeitet werden.
  • Output token throughput (tok/s): Die durchschnittliche Anzahl der Tokens, welche pro Sekunde generiert werden.
  • Peak output token throughput (tok/s): Die maximale gemessene Anzahl der Output tokens pro Sekunde.
  • Peak concurrent requests: Die maximale gemessene Anzahl der gleichzeitig verarbeiteten Anfragen.
  • Total token throughput (tok/s): Der Durchschnitt aller verarbeiteten Tokens während der Messung.
  • Mean Time to first Token (TTFT) (ms): Der Durchschnitt der vergangenen Zeit zwischen Eingabe und erster sichtbaren Ausgabe.
  • Median TTFT (ms): Die zuerwartende Zeit zwischen Eingabe und erster sichtbaren Ausgabe. Wird auch TTFT p50 genannt.
  • p99 TTFT (ms): Die im "worst case" vergangene Zeit bis der erste Token generiert wird.
  • Tokenizer: Der Tokenizer wird benutzt, um dem gemessenen Modell während einem Benchmark Anfragen zu übermitteln. Das sind in der Regel öffentliche kleine Modelle, wie zum Beispiel Qwen/Qwen2.5-7B-Instruct.

Preise

ModellKontextlängeInput/MTokOutput/MTok
MiniMax-M2.5196k1.94009.7000
Alle Preise in CHF/MTok exkl. Mehrwertsteuer.