AI on Demandpowered by LightOn

Schnelle, präzise Texterkennung auf Schweizer Infrastruktur. stepping stone betreibt LightOnOCR — ein kompaktes europäisches OCR-Modell, das bei Layouts, Scans, Tabellen und Formularen überzeugt.

LightOnOCR-2-1B ist ein End-to-End-Modell für optische Zeichenerkennung, entwickelt von der französischen Firma LightOn AI. Mit nur 1 Milliarde Parametern ist es rund 9-mal kleiner als vergleichbare Modelle — und dabei schneller: bis zu 3-mal höhere Verarbeitungsgeschwindigkeit bei State-of-the-Art-Ergebnissen.

Das Modell erkennt zuverlässig Text in komplexen Layouts, Scans, wissenschaftlichen Dokumenten, Tabellen und Formularen. stepping stone betreibt LightOnOCR vollständig auf Schweizer Infrastruktur. Zugang über eine OpenAI-kompatible API, direkt integrierbar in bestehende Workflows. Ihre Dokumente bleiben in der Schweiz.

Unternehmen und Behörden, die grosse Dokumentenmengen effizient digitalisieren wollen — schnell, präzise und ohne Daten an US-Anbieter zu übergeben. Besonders geeignet, wenn Geschwindigkeit und Kosteneffizienz entscheidend sind.

Typische Einsatzbereiche: Massenverarbeitung von Rechnungen, Verträgen und Formularen, Digitalisierung von Archiven und Altbeständen, Extraktion aus mehrspaltigen Layouts und wissenschaftlichen Dokumenten, OCR-Integration in automatisierte Dokumenten-Pipelines.

Open Source (Apache 2.0). Europäisches Modell. Schweizer Rechenzentren. Keine Daten bei US-Anbietern.

Kompakt und effizient: LightOnOCR verarbeitet bis zu 493'000 Seiten pro Tag auf einer einzigen GPU — für unter CHF 0.01 pro 1'000 Seiten. Kein externes OCR-Toolkit nötig, alles End-to-End. Persönliche Beratung und Betrieb durch stepping stone aus Bern.

Leistungsumfang

Dokumentenerkennung auf Abruf

Zugriff auf LightOnOCR für schnelle, präzise Texterkennung. Stark bei Tabellen, Formularen, mehrspaltigen Layouts, wissenschaftlichen Dokumenten und Scans. Bis zu 3-mal schneller als vergleichbare Modelle.

GPU-Leistung nach Bedarf

Skalierbare Rechenleistung für einzelne Dokumente oder ganze Archive. Dank des kompakten Modells besonders kosteneffizient — Sie zahlen nach Verbrauch.

Betreuter Betrieb

Bereitstellung, Monitoring, Wartung und Support auf Schweizer Infrastruktur mit persönlicher Beratung. stepping stone kümmert sich um den Betrieb, damit Sie sich auf den Nutzen konzentrieren können.

Einsatzgebiete

Massenverarbeitung

LightOnOCR ist auf hohen Durchsatz ausgelegt — bis zu 493'000 Seiten pro Tag auf einer einzigen GPU.

Unternehmen verarbeiten damit grosse Mengen an Rechnungen, Verträgen und Formularen effizient und kostengünstig. Für unter CHF 0.01 pro 1'000 Seiten lassen sich auch umfangreiche Archivbestände wirtschaftlich digitalisieren.

Dokumenten-Pipelines

LightOnOCR fügt sich als kompakter Baustein in automatisierte Dokumentenverarbeitungsprozesse ein.

Dank OpenAI-kompatibler API lässt es sich direkt in bestehende Workflows integrieren — ohne externes OCR-Toolkit. Es verarbeitet komplexe Layouts, Tabellen, Formulare und wissenschaftliche Dokumente Ende-zu-Ende auf Schweizer Infrastruktur.

Benchmark

Der Benchmark verarbeitet 50 Lebensläufe (insgesamt 100 Seiten). Eine Schritt-für-Schritt-Anleitung und das erforderliche Python-Skript können von GitHub heruntergeladen werden.

Bei Bedarf können höhere Parallelitäts- und Seitenbegrenzungen festgelegt werden.

Aufruf

# Persönlichen Schlüssel festlegen:
STONEY_KEY=sk-...

# Schlüssel für das Bench-Skript sichtbar machen:
export OPENAI_API_KEY=$STONEY_KEY

# Benchmark starten:
python cv_bench_endpoint.py \
 --endpoint llm.stoney-cloud.com/v1/chat/completions \
 --data cv_bench_data \
 --model "lightonai/LightOnOCR-2-1B" \
 --api-key $STONEY_KEY \
 --concurrency 1 \
 --limit 100

Resultat

concurrency   : 1
requested     : 50
ok            : 50
failed        : 0
duration_s    : 93.958
pages_s       : 0.532
pages_min     : 31.9
out_tok_s     : 419.4
latency_p50_s : 1.63
latency_p99_s : 10.016

 

Legende

  • concurrency: Wie viele Anfragen verarbeitet das Model gleichzeitig.
  • requested: Wie viele Anfragen wurden verschickt.
  • ok: Anzahl der Akzeptierten Anfragen (hier CVs).
  • failed: Anzahl der nicht akzeptierten Anfragen.
  • duration_s: Die Dauer des Benchmarkdurchlaufs.
  • pages_s: Die Anzahl der Seiten, die im Schnitt pro Sekunde abgearbeitet werden können.
  • pages_min: Die Anzahl der Seiten die im Schnitt pro Minute abgearbeitet werden können.
  • out_tok_s: Die Anzahl der Tokens welche pro Sekunde generiert werden.
  • latency_p50_s: Die im Schnitt benötigte Antwortzeit in Sekunden.
  • latency_p99_s: Die im "worst case" benötigte Antwortzeit in Sekunden.

Preise

ModellKontextlängeInput/MTokOutput/MTok
LightOnOCR-2-1B16k0.02000.0600
Alle Preise in CHF/MTok exkl. Mehrwertsteuer.