AI on Demandpowered by Qwen

Qwen — Alibabas Open-Source-Sprachmodellfamilie, von 0.6 bis 235 Milliarden Parametern. stepping stone betreibt sie vollständig auf Schweizer GPU-Infrastruktur: als API, nach Verbrauch, ohne US-Abhängigkeit.

Unternehmen erhalten bei stepping stone Zugriff auf KI-Leistung, Modelle, GPU-Ressourcen, Speicher, Schnittstellen und Beratung, flexibel nach Bedarf. Also nicht ein starres Produktpaket, sondern eine skalierbare KI-Umgebung, die sicher in Schweizer Rechenzentren betrieben wird und zu den Anforderungen des Unternehmens passt.

Die Qwen-Modelle laufen vollständig auf Schweizer Infrastruktur. Keine Daten verlassen das Land. Zugang über eine OpenAI-kompatible API, direkt integrierbar in bestehende Anwendungen und Workflows.

Schweizer Unternehmen, die KI produktiv einsetzen wollen, ohne eigene GPU-Infrastruktur aufzubauen oder Daten an US-Anbieter zu übergeben. Besonders geeignet für regulierte Branchen, Behörden und KMU, die den Schritt von KI-Experimenten zur produktiven Anwendung machen wollen.

Typische Einsatzbereiche: Chatbots und Assistenzsysteme, Automatisierung und Analyse, Coding Assistenten, Dokumentenverarbeitung, agentische Workflows.

Schweizer Rechenzentren. Open-Source-Modelle. Ihre Daten, Ihre Regeln. Sie behalten die volle Kontrolle über Ihre KI-Strategie, ohne Abhängigkeit von OpenAI, Google oder Amazon.

Persönliche Beratung von stepping stone, von der Modellwahl bis zur Integration. Und ein Preismodell, das nach Verbrauch abrechnet. Sie zahlen nur, was Sie nutzen.

Einsatzgebiete

Assistenz

Qwen eignet sich für den Aufbau intelligenter Assistenzsysteme — von einfachen Chatbots bis zur komplexen Dialogsteuerung.

Teams setzen es ein für automatisierten Kundendienst, interne Wissenssuche und mehrsprachige Analyseworkflows. Dank der Modellbreite lässt sich das richtige Modell für jeden Zweck wählen — vom kompakten 0.6B für Edge-Anwendungen bis zum 235B-Flaggschiff für anspruchsvolle Aufgaben.

Entwicklung

Als Coding Assistant und Basis für agentische Workflows hat sich Qwen in der Entwicklerpraxis bewährt.

Das Modell generiert, analysiert und reviewed Code in über 20 Programmiersprachen. Für agentische Setups unterstützt es Function Calling, Tool-Integration und mehrschrittige Aufgabenplanung — auf Schweizer Infrastruktur, integrierbar über eine OpenAI-kompatible API.

Benchmark

Die Benchmarks wurden mit dem vllm-Benchmark-Tool am produktiven API-Gateway gemessen. Die Standardgrössen für die Eingabe betrugen 1'024 Token und für die Ausgabe 256 Token, was etwa 2–3 Buchseiten oder 500–750 Wörtern entspricht.

Bei Bedarf können grössere Eingabemengen festgelegt werden.

Aufruf

# Persönlichen Schlüssel festlegen:
STONEY_KEY=sk-...

# Schlüssel für das Bench-Skript sichtbar machen:
export OPENAI_API_KEY=$STONEY_KEY

# Benchmark starten:
vllm bench serve \
 --backend openai-chat \
 --model "Qwen/Qwen3-Coder-Next" \
 --base-url llm.stoney-cloud.com \
 --endpoint /v1/chat/completions \
 --dataset-name random \
 --random-input-len 1024 \
 --random-output-len 256 \
 --num-prompts 50 \
 --max-concurrency 1 \
--tokenizer "Qwen/Qwen2.5-7B-Instruct" \
 --percentile-metrics ttft

Resultat

============ Serving Benchmark Result ============
Successful requests:                     49
Failed requests:                         1
Maximum request concurrency:             1
Benchmark duration (s):                  162.16
Total input tokens:                      50568
Total generated tokens:                  12544
Request throughput (req/s):              0.30
Output token throughput (tok/s):         77.36
Peak output token throughput (tok/s):    257.00
Peak concurrent requests:                2.00
Total token throughput (tok/s):          389.20
---------------Time to First Token----------------
Mean TTFT (ms):                          3239.52
Median TTFT (ms):                        3239.48
P99 TTFT (ms):                           3365.96
==================================================

Legende

  • Successful requests: Erfolgreiche Prompt Anfragen
  • Failed requests: Nicht erfolgreiche Prompts
  • Maximum request concurrency: Wie viele Anfragen verarbeitet das Model gleichzeitig.
  • Benchmark duration (s): Die Dauer des Benchmarkdurchlaufs in Sekunden.
  • Total input tokens: Die Gesamtanzahl der eingegeben Tokens.
  • Total generated tokens: Die Summe der vom Modell generierten Tokens.
  • Request throughput (req/s): Die Anzahl Anfragen welche pro Sekunde verarbeitet werden.
  • Output token throughput (tok/s): Die durchschnittliche Anzahl der Tokens, welche pro Sekunde generiert werden.
  • Peak output token throughput (tok/s): Die maximale gemessene Anzahl der Output tokens pro Sekunde.
  • Peak concurrent requests: Die maximale gemessene Anzahl der gleichzeitig verarbeiteten Anfragen.
  • Total token throughput (tok/s): Der Durchschnitt aller verarbeiteten Tokens während der Messung.
  • Mean Time to first Token (TTFT) (ms): Der Durchschnitt der vergangenen Zeit zwischen Eingabe und erster sichtbaren Ausgabe.
  • Median TTFT (ms): Die zuerwartende Zeit zwischen Eingabe und erster sichtbaren Ausgabe. Wird auch TTFT p50 genannt.
  • p99 TTFT (ms): Die im "worst case" vergangene Zeit bis der erste Token generiert wird.
  • Tokenizer: Der Tokenizer wird benutzt, um dem gemessenen Modell während einem Benchmark Anfragen zu übermitteln. Das sind in der Regel öffentliche kleine Modelle, wie zum Beispiel Qwen/Qwen2.5-7B-Instruct.

Preise

ModellKontextlängeInput/MTokOutput/MTok
Qwen3.5-35B-A3B-FP8131k0.17001.0000
Qwen3-Coder-Next262k0.34001.7000
Alle Preise in CHF/MTok exkl. Mehrwertsteuer.