AI on Demandpowered by NVIDIA

NVIDIA Nemotron 3 Super: Hybride Mamba-Transformer-Architektur mit Mixture-of-Experts, 120 Milliarden Parametern und einem Kontextfenster von bis zu 1 Million Tokens. 12 Milliarden Parameter aktiv pro Anfrage — betrieben von stepping stone auf Schweizer Infrastruktur.

NVIDIA Nemotron 3 Super ist ein Open-Weight-Sprachmodell mit einer hybriden Mamba-Transformer-Architektur und Mixture-of-Experts (MoE). Von den 120 Milliarden Parametern sind pro Anfrage nur rund 12 Milliarden aktiv — das ermöglicht Frontier-Leistung bei effizientem Ressourceneinsatz.

Das Modell verarbeitet Kontexte von bis zu 1 Million Tokens — genug für ganze Dokumentensammlungen, Codebases oder mehrstündige Gesprächsverläufe in einer Anfrage. Es beherrscht 7 Sprachen (darunter Deutsch), bietet konfigurierbares Reasoning und ist gezielt für agentische Workflows, Tool-Integration und RAG-Szenarien trainiert. stepping stone betreibt Nemotron 3 Super vollständig auf Schweizer Infrastruktur — Ihre Daten bleiben in der Schweiz.

Unternehmen und Entwicklungsteams, die ein leistungsstarkes Sprachmodell für komplexe Aufgaben brauchen — ohne Abhängigkeit von US-Cloud-Diensten. Besonders geeignet für Organisationen mit langen Dokumenten, mehrsprachigen Anforderungen oder agentischen Workflows.

Typische Einsatzbereiche: Analyse und Zusammenfassung grosser Dokumentenbestände, agentische Workflows mit Tool-Anbindung und autonomer Planung, RAG-Szenarien mit umfangreichem Kontext, Code-Generierung und Code Reviews, Automatisierung von IT-Workflows und wiederkehrenden Aufgaben.

Open Weights (NVIDIA Nemotron Open Model License). Schweizer Rechenzentren. Kein Vendor Lock-in.

Bis zu 1 Million Token Kontextfenster — eines der grössten am Markt. Dank MoE-Architektur effizient trotz 120 Milliarden Parametern. Konfigurierbares Reasoning: ein- oder ausschaltbar je nach Aufgabe. NVIDIA als Entwickler steht für Zuverlässigkeit und kontinuierliche Weiterentwicklung. Persönliche Beratung und Betrieb durch stepping stone aus Bern.

Leistungsumfang

KI-Modell auf Abruf

Zugriff auf NVIDIA Nemotron 3 Super für Reasoning, agentische Workflows und komplexe Textaufgaben. Bis zu 1 Million Token Kontextfenster für die Verarbeitung ganzer Dokumentensammlungen in einer Anfrage.

GPU-Leistung nach Bedarf

Skalierbare Rechenleistung auf Schweizer Infrastruktur. Dank MoE-Architektur besonders effizient: 120 Milliarden Parameter, nur 12 Milliarden aktiv pro Anfrage.

Betreuter Betrieb

Bereitstellung, Monitoring, Wartung und Support auf Schweizer Infrastruktur mit persönlicher Beratung. stepping stone kümmert sich um den Betrieb, damit Sie sich auf den Nutzen konzentrieren können.

Einsatzgebiete

Dokumentenanalyse

Mit 1 Million Token Kontextfenster verarbeitet Nemotron 3 Super ganze Dokumentensammlungen, Codebases oder mehrstündige Gesprächsverläufe in einer einzigen Anfrage.

Unternehmen nutzen es für die Analyse umfangreicher Berichte, rechtlicher Dokumente und technischer Dokumentationen. Konfigurierbares Reasoning lässt sich je nach Aufgabe ein- oder ausschalten — für präzise Ergebnisse ohne unnötigen Rechenaufwand.

Reasoning & Analyse

Nemotron 3 Super ist für komplexes mehrstufiges Reasoning ausgelegt — mit autonomer Aufgabenplanung und Tool-Integration.

RAG-Szenarien mit grossem Kontext, IT-Workflow-Automatisierung und Code-Generierung profitieren von der MoE-Effizienz: Frontier-Leistung bei effizientem Ressourceneinsatz, kompatibel mit Standard-API-Clients, vollständig auf Schweizer Infrastruktur.

Benchmark

Die Benchmarks wurden mit dem vllm-Benchmark-Tool am produktiven API-Gateway gemessen. Die Standardgrössen für die Eingabe betrugen 1'024 Token und für die Ausgabe 256 Token, was etwa 2–3 Buchseiten oder 500–750 Wörtern entspricht.

Bei Bedarf können grössere Eingabemengen festgelegt werden.

 

Aufruf

# Persönlichen Schlüssel festlegen:
STONEY_KEY=sk-...

# Schlüssel für das Bench-Skript sichtbar machen:
export OPENAI_API_KEY=$STONEY_KEY

# Benchmark starten:
vllm bench serve \
 --backend openai-chat \
 --model "NVIDIA/NVIDIA-Nemotron-3-Super-120B-A12B" \
 --base-url llm.stoney-cloud.com \
 --endpoint /v1/chat/completions \
 --dataset-name random \
 --random-input-len 1024 \
 --random-output-len 256 \
 --num-prompts 50 \
 --max-concurrency 1 \
--tokenizer "Qwen/Qwen2.5-7B-Instruct" \
 --percentile-metrics ttft

 

Resultat

============ Serving Benchmark Result ============
Successful requests:                     44        
Failed requests:                         6         
Maximum request concurrency:             1         
Benchmark duration (s):                  148.34    
Total input tokens:                      69315     
Total generated tokens:                  11264     
Request throughput (req/s):              0.30      
Output token throughput (tok/s):         75.94     
Peak output token throughput (tok/s):    257.00    
Peak concurrent requests:                2.00      
Total token throughput (tok/s):          543.22    
---------------Time to First Token----------------
Mean TTFT (ms):                          2964.56   
Median TTFT (ms):                        2963.51   
P99 TTFT (ms):                           3033.40

 

Legende

  • Successful requests: Erfolgreiche Prompt Anfragen
  • Failed requests: Nicht erfolgreiche Prompts
  • Maximum request concurrency: Wie viele Anfragen verarbeitet das Model gleichzeitig.
  • Benchmark duration (s): Die Dauer des Benchmarkdurchlaufs in Sekunden.
  • Total input tokens: Die Gesamtanzahl der eingegeben Tokens.
  • Total generated tokens: Die Summe der vom Modell generierten Tokens.
  • Request throughput (req/s): Die Anzahl Anfragen welche pro Sekunde verarbeitet werden.
  • Output token throughput (tok/s): Die durchschnittliche Anzahl der Tokens, welche pro Sekunde generiert werden.
  • Peak output token throughput (tok/s): Die maximale gemessene Anzahl der Output tokens pro Sekunde.
  • Peak concurrent requests: Die maximale gemessene Anzahl der gleichzeitig verarbeiteten Anfragen.
  • Total token throughput (tok/s): Der Durchschnitt aller verarbeiteten Tokens während der Messung.
  • Mean Time to first Token (TTFT) (ms): Der Durchschnitt der vergangenen Zeit zwischen Eingabe und erster sichtbaren Ausgabe.
  • Median TTFT (ms): Die zuerwartende Zeit zwischen Eingabe und erster sichtbaren Ausgabe. Wird auch TTFT p50 genannt.
  • p99 TTFT (ms): Die im "worst case" vergangene Zeit bis der erste Token generiert wird.
  • Tokenizer: Der Tokenizer wird benutzt, um dem gemessenen Modell während einem Benchmark Anfragen zu übermitteln. Das sind in der Regel öffentliche kleine Modelle, wie zum Beispiel Qwen/Qwen2.5-7B-Instruct.

Preise

ModellKontextlängeInput/MTokOutput/MTok
NVIDIA-Nemotron-3-Super-120B-A12B131k2.00005.0000
Alle Preise in CHF/MTok exkl. Mehrwertsteuer.