Produkte
Produkte

Von der Cloud bis zum Support – alles aus einer Hand, abgestimmt auf Ihre Anforderungen.

Jetzt entdecken
Onboarding
Onboarding

Sicher in die Cloud. Schritt für Schritt. Unsere sieben Onboarding-Schritte geben Orientierung, reduzieren Risiken und schaffen ein Fundament, das trägt.

Jetzt entdecken
Über uns
Über uns

Ein Schweizer Cloud Partner mit Haltung.

Jetzt entdecken
- Team
- Karriere
- Infrastruktur
- Kontakt

$TYPO3\CMS\Extbase\Domain\Model\FileReference:382$

AI on Demandpowered by NVIDIA

NVIDIA Nemotron 3 Super: Hybride Mamba-Transformer-Architektur mit Mixture-of-Experts, 120 Milliarden Parametern und einem Kontextfenster von bis zu 1 Million Tokens. 12 Milliarden Parameter aktiv pro Anfrage — betrieben von stepping stone auf Schweizer Infrastruktur.

NVIDIA Nemotron 3 Super ist ein Open-Weight-Sprachmodell mit einer hybriden Mamba-Transformer-Architektur und Mixture-of-Experts (MoE). Von den 120 Milliarden Parametern sind pro Anfrage nur rund 12 Milliarden aktiv — das ermöglicht Frontier-Leistung bei effizientem Ressourceneinsatz.

Das Modell verarbeitet Kontexte von bis zu 1 Million Tokens — genug für ganze Dokumentensammlungen, Codebases oder mehrstündige Gesprächsverläufe in einer Anfrage. Es beherrscht 7 Sprachen (darunter Deutsch), bietet konfigurierbares Reasoning und ist gezielt für agentische Workflows, Tool-Integration und RAG-Szenarien trainiert. stepping stone betreibt Nemotron 3 Super vollständig auf Schweizer Infrastruktur — Ihre Daten bleiben in der Schweiz.

Unternehmen und Entwicklungsteams, die ein leistungsstarkes Sprachmodell für komplexe Aufgaben brauchen — ohne Abhängigkeit von US-Cloud-Diensten. Besonders geeignet für Organisationen mit langen Dokumenten, mehrsprachigen Anforderungen oder agentischen Workflows.

Typische Einsatzbereiche: Analyse und Zusammenfassung grosser Dokumentenbestände, agentische Workflows mit Tool-Anbindung und autonomer Planung, RAG-Szenarien mit umfangreichem Kontext, Code-Generierung und Code Reviews, Automatisierung von IT-Workflows und wiederkehrenden Aufgaben.

Open Weights (NVIDIA Nemotron Open Model License). Schweizer Rechenzentren. Kein Vendor Lock-in.

Bis zu 1 Million Token Kontextfenster — eines der grössten am Markt. Dank MoE-Architektur effizient trotz 120 Milliarden Parametern. Konfigurierbares Reasoning: ein- oder ausschaltbar je nach Aufgabe. NVIDIA als Entwickler steht für Zuverlässigkeit und kontinuierliche Weiterentwicklung. Persönliche Beratung und Betrieb durch stepping stone aus Bern.

Persönliche Beratung

Yannick Denzer

CDO & System Techniker

+41 77 450 53 58

+41 31 332 53 63

yannick.denzer@stepping-stone.ch

Make Appointment

Leistungsumfang

KI-Modell auf Abruf

Zugriff auf NVIDIA Nemotron 3 Super für Reasoning, agentische Workflows und komplexe Textaufgaben. Bis zu 1 Million Token Kontextfenster für die Verarbeitung ganzer Dokumentensammlungen in einer Anfrage.

GPU-Leistung nach Bedarf

Skalierbare Rechenleistung auf Schweizer Infrastruktur. Dank MoE-Architektur besonders effizient: 120 Milliarden Parameter, nur 12 Milliarden aktiv pro Anfrage.

Betreuter Betrieb

Bereitstellung, Monitoring, Wartung und Support auf Schweizer Infrastruktur mit persönlicher Beratung. stepping stone kümmert sich um den Betrieb, damit Sie sich auf den Nutzen konzentrieren können.

Einsatzgebiete

Dokumentenanalyse

Mit 1 Million Token Kontextfenster verarbeitet Nemotron 3 Super ganze Dokumentensammlungen, Codebases oder mehrstündige Gesprächsverläufe in einer einzigen Anfrage.

Unternehmen nutzen es für die Analyse umfangreicher Berichte, rechtlicher Dokumente und technischer Dokumentationen. Konfigurierbares Reasoning lässt sich je nach Aufgabe ein- oder ausschalten — für präzise Ergebnisse ohne unnötigen Rechenaufwand.

Reasoning & Analyse

Nemotron 3 Super ist für komplexes mehrstufiges Reasoning ausgelegt — mit autonomer Aufgabenplanung und Tool-Integration.

RAG-Szenarien mit grossem Kontext, IT-Workflow-Automatisierung und Code-Generierung profitieren von der MoE-Effizienz: Frontier-Leistung bei effizientem Ressourceneinsatz, kompatibel mit Standard-API-Clients, vollständig auf Schweizer Infrastruktur.

Benchmark

Die Benchmarks wurden mit dem vllm-Benchmark-Tool am produktiven API-Gateway gemessen. Die Standardgrössen für die Eingabe betrugen 1'024 Token und für die Ausgabe 256 Token, was etwa 2–3 Buchseiten oder 500–750 Wörtern entspricht.

Bei Bedarf können grössere Eingabemengen festgelegt werden.

Aufruf

# Persönlichen Schlüssel festlegen:
STONEY_KEY=sk-...

# Schlüssel für das Bench-Skript sichtbar machen:
export OPENAI_API_KEY=$STONEY_KEY

# Benchmark starten:
vllm bench serve \
 --backend openai-chat \
 --model "NVIDIA/NVIDIA-Nemotron-3-Super-120B-A12B" \
 --base-url llm.stoney-cloud.com \
 --endpoint /v1/chat/completions \
 --dataset-name random \
 --random-input-len 1024 \
 --random-output-len 256 \
 --num-prompts 50 \
 --max-concurrency 1 \
--tokenizer "Qwen/Qwen2.5-7B-Instruct" \
 --percentile-metrics ttft

Resultat

============ Serving Benchmark Result ============
Successful requests:                     44        
Failed requests:                         6         
Maximum request concurrency:             1         
Benchmark duration (s):                  148.34    
Total input tokens:                      69315     
Total generated tokens:                  11264     
Request throughput (req/s):              0.30      
Output token throughput (tok/s):         75.94     
Peak output token throughput (tok/s):    257.00    
Peak concurrent requests:                2.00      
Total token throughput (tok/s):          543.22    
---------------Time to First Token----------------
Mean TTFT (ms):                          2964.56   
Median TTFT (ms):                        2963.51   
P99 TTFT (ms):                           3033.40

Legende

Successful requests: Erfolgreiche Prompt Anfragen
Failed requests: Nicht erfolgreiche Prompts
Maximum request concurrency: Wie viele Anfragen verarbeitet das Model gleichzeitig.
Benchmark duration (s): Die Dauer des Benchmarkdurchlaufs in Sekunden.
Total input tokens: Die Gesamtanzahl der eingegeben Tokens.
Total generated tokens: Die Summe der vom Modell generierten Tokens.
Request throughput (req/s): Die Anzahl Anfragen welche pro Sekunde verarbeitet werden.
Output token throughput (tok/s): Die durchschnittliche Anzahl der Tokens, welche pro Sekunde generiert werden.
Peak output token throughput (tok/s): Die maximale gemessene Anzahl der Output tokens pro Sekunde.
Peak concurrent requests: Die maximale gemessene Anzahl der gleichzeitig verarbeiteten Anfragen.
Total token throughput (tok/s): Der Durchschnitt aller verarbeiteten Tokens während der Messung.
Mean Time to first Token (TTFT) (ms): Der Durchschnitt der vergangenen Zeit zwischen Eingabe und erster sichtbaren Ausgabe.
Median TTFT (ms): Die zuerwartende Zeit zwischen Eingabe und erster sichtbaren Ausgabe. Wird auch TTFT p50 genannt.
p99 TTFT (ms): Die im "worst case" vergangene Zeit bis der erste Token generiert wird.
Tokenizer: Der Tokenizer wird benutzt, um dem gemessenen Modell während einem Benchmark Anfragen zu übermitteln. Das sind in der Regel öffentliche kleine Modelle, wie zum Beispiel Qwen/Qwen2.5-7B-Instruct.

Preise

Modell	Kontextlänge	Input/MTok	Output/MTok
NVIDIA-Nemotron-3-Super-120B-A12B	131k	2.0000	5.0000

Alle Preise in CHF/MTok exkl. Mehrwertsteuer.

AI on Demandpowered by NVIDIA

Persönliche Beratung

Yannick Denzer

Leistungsumfang

KI-Modell auf Abruf

GPU-Leistung nach Bedarf

Betreuter Betrieb

Einsatzgebiete

Benchmark

Preise

Produktanfrage für

Konditionen:

AI on Demandpowered by NVIDIA

Produktbeschreibung

Einsatzbereiche

Vorteile

Yannick Denzer

KI-Modell auf Abruf

GPU-Leistung nach Bedarf

Betreuter Betrieb

Preise

Produktanfrage für

Konditionen: