AI on Demandpowered by Ai2

olmOCR von Ai2 (Allen Institute for AI): ein Vision-Language-Modell, das klassische OCR-Systeme dort übertrifft, wo Tabellen, Formeln und schlechte Scans scheitern lassen. Betrieben von stepping stone auf Schweizer Infrastruktur.

Das Vision-Language-Modell olmOCR von Ai2 (Allen Institute for AI) ist spezialisiert auf optische Zeichenerkennung. Es erkennt Text in Dokumenten, die klassische OCR-Systeme vor Probleme stellen: komplexe Tabellen, mathematische Formeln, mehrspaltige Layouts und schlecht gescannte Vorlagen.

stepping stone betreibt olmOCR vollständig auf Schweizer Infrastruktur. Zugang über eine OpenAI-kompatible API, direkt integrierbar in bestehende Dokumenten-Workflows. Ihre Dokumente bleiben in der Schweiz.

Unternehmen, Behörden und Bildungseinrichtungen, die grosse Mengen an Dokumenten digitalisieren oder durchsuchbar machen müssen — ohne Daten an US-Anbieter zu übergeben. Besonders geeignet für regulierte Branchen mit sensiblen Dokumenten.

Typische Einsatzbereiche: Digitalisierung von Archiven und Altbeständen, automatisierte Rechnungs- und Vertragsverarbeitung, Extraktion von Tabellen und Finanzdaten, Verarbeitung wissenschaftlicher Dokumente mit Formeln.

Open Source (Apache 2.0). Schweizer Rechenzentren. Keine Daten bei US-Anbietern.

Wo klassische OCR an Tabellen, Formeln oder schlechten Scans scheitert, liefert olmOCR zuverlässige Ergebnisse. Persönliche Beratung von stepping stone — von der Integration bis zur Skalierung. Betrieb aus Bern.

Leistungsumfang

Dokumentenerkennung auf Abruf

Zugriff auf olmOCR für präzise Texterkennung in Dokumenten. Besonders stark bei Tabellen, mathematischen Formeln, mehrspaltigen Layouts und schlecht gescannten Vorlagen.

GPU-Leistung nach Bedarf

Skalierbare Rechenleistung für die Verarbeitung einzelner Dokumente oder ganzer Archive. Sie zahlen nach Verbrauch.

Betreuter Betrieb

Bereitstellung, Monitoring, Wartung und Support auf Schweizer Infrastruktur mit persönlicher Beratung. stepping stone kümmert sich um den Betrieb, damit Sie sich auf den Nutzen konzentrieren können.

Einsatzgebiete

Archiv & Compliance

olmOCR macht Dokumentenarchive durchsuchbar — auch wenn die Qualität der Vorlagen schlecht ist.

Behörden und Unternehmen setzen es ein, um Altbestände, Akten und regulatorisch relevante Dokumente zu digitalisieren. Da alle Daten auf Schweizer Infrastruktur verbleiben, eignet es sich besonders für sensible Unterlagen in regulierten Branchen.

Datenextraktion

Tabellen, Finanzdaten und wissenschaftliche Formeln lassen sich mit olmOCR strukturiert aus Dokumenten extrahieren.

Rechnungen, Verträge und wissenschaftliche Publikationen werden automatisch verarbeitet und in maschinenlesbare Formate überführt. Die Ergebnisse lassen sich direkt in Downstream-Workflows, Datenbanken oder RAG-Pipelines einspeisen.

Benchmark

Der Benchmark verarbeitet 50 Lebensläufe (insgesamt 100 Seiten). Eine Schritt-für-Schritt-Anleitung und das erforderliche Python-Skript können von GitHub heruntergeladen werden.

Bei Bedarf können höhere Parallelitäts- und Seitenbegrenzungen festgelegt werden.

Aufruf

# Persönlichen Schlüssel festlegen:
STONEY_KEY=sk-...

# Schlüssel für das Bench-Skript sichtbar machen:
export OPENAI_API_KEY=$STONEY_KEY

# Benchmark starten:
python cv_bench_endpoint.py \
 --endpoint llm.stoney-cloud.com/v1/chat/completions \
 --data cv_bench_data \
 --model "allenai/olmOCR-2-7B" \
 --api-key $STONEY_KEY \
 --concurrency 1 \
 --limit 100

Resultat

concurrency   : 1
requested     : 50
ok            : 50
failed        : 0
duration_s    : 193.5
pages_s       : 0.26
pages_min     : 15.5
out_tok_s     : 140
latency_p50_s : 3.73
latency_p99_s : 8.67

 

Legende

  • concurrency: Wie viele Anfragen verarbeitet das Model gleichzeitig.
  • requested: Wie viele Anfragen wurden verschickt.
  • ok: Anzahl der Akzeptierten Anfragen (hier CVs).
  • failed: Anzahl der nicht akzeptierten Anfragen.
  • duration_s: Die Dauer des Benchmarkdurchlaufs.
  • pages_s: Die Anzahl der Seiten, die im Schnitt pro Sekunde abgearbeitet werden können.
  • pages_min: Die Anzahl der Seiten die im Schnitt pro Minute abgearbeitet werden können.
  • out_tok_s: Die Anzahl der Tokens welche pro Sekunde generiert werden.
  • latency_p50_s: Die im Schnitt benötigte Antwortzeit in Sekunden.
  • latency_p99_s: Die im "worst case" benötigte Antwortzeit in Sekunden.

Preise

ModellKontextlängeInput/MTokOutput/MTok
olmOCR-2-7B8k0.06000.2900
Alle Preise in CHF/MTok exkl. Mehrwertsteuer.