AI on Demand powered by OpenDataLab

MinerU2.5 von OpenDataLab: ein spezialisiertes Vision-Language-Modell mit 1.2 Milliarden Parametern für Dokumenten-Parsing in zwei Schritten — Layout-Analyse, dann Inhaltserkennung in nativer Auflösung. Betrieben von stepping stone auf Schweizer Infrastruktur.

MinerU2.5 von OpenDataLab ist ein spezialisiertes Vision-Language-Modell für Dokumenten-Parsing. Anders als klassische OCR-Systeme analysiert es zunächst das gesamte Seitenlayout und erkennt anschliessend Inhalte wie Text, Tabellen und Formeln in nativer Auflösung — in zwei getrennten Schritten für maximale Präzision.

Mit nur 1.2 Milliarden Parametern ist MinerU2.5 besonders ressourcenschonend. Es liefert strukturiertes Markdown mit korrekter Zuordnung aller Seitenelemente: Überschriften, Listen, Codeblöcke, Referenzen, Kopf- und Fusszeilen. Das Modell bewältigt auch Sonderfälle wie gedrehte Tabellen, randlose Tabellen und komplexe mathematische Formeln. stepping stone betreibt MinerU2.5 vollständig auf Schweizer Infrastruktur — Ihre Dokumente bleiben in der Schweiz.

Unternehmen und Organisationen, die Dokumente nicht nur digitalisieren, sondern in ihrer Struktur erhalten wollen — ohne Daten an US-Anbieter zu übergeben. Besonders geeignet für Dokumenten-Pipelines, in denen das Layout eine Rolle spielt: Berichte, wissenschaftliche Arbeiten, technische Dokumentationen.

Typische Einsatzbereiche: strukturierte Extraktion aus PDF-Dokumenten für RAG-Pipelines, Verarbeitung von Berichten und Studien mit komplexen Layouts, Tabellen- und Formelerkennung in technischen und wissenschaftlichen Dokumenten, Aufbereitung von Dokumentenbeständen für Wissensdatenbanken und Archive.

Open Source (AGPL-3.0). Schweizer Rechenzentren. Keine Daten bei US-Anbietern.

Nicht nur Texterkennung, sondern echtes Dokumenten-Parsing: MinerU2.5 versteht die Struktur einer Seite und gibt sie als sauberes Markdown zurück. Besonders stark bei schwierigen Layouts — gedrehte Tabellen, randlose Tabellen, gemischtsprachige Formeln. Mit nur 1.2 Milliarden Parametern effizient im Betrieb. Direkt integrierbar in RAG-Pipelines über LangChain und LlamaIndex. Persönliche Beratung und Betrieb durch stepping stone aus Bern.

Leistungsumfang

Dokumenten-Parsing auf Abruf

Zugriff auf MinerU2.5 für die strukturierte Extraktion von Dokumenten. Layout-Analyse und Inhaltserkennung in zwei Schritten — vom PDF zu sauberem Markdown mit korrekter Elementzuordnung.

GPU-Leistung nach Bedarf

Skalierbare Rechenleistung für einzelne Dokumente oder ganze Archive. Dank des kompakten Modells besonders kosteneffizient — Sie zahlen nach Verbrauch.

Betreuter Betrieb

Bereitstellung, Monitoring, Wartung und Support auf Schweizer Infrastruktur mit persönlicher Beratung. stepping stone kümmert sich um den Betrieb, damit Sie sich auf den Nutzen konzentrieren können.

Einsatzgebiete

Strukturierte Extraktion

MinerU2.5 versteht die Struktur einer Seite — und gibt sie als sauberes, strukturiertes Markdown zurück.

Tabellen, Formeln, Kopf- und Fusszeilen, Referenzen und Codeblöcke werden korrekt erkannt und zugeordnet. Selbst schwierige Sonderfälle wie gedrehte Tabellen, randlose Tabellen und gemischtsprachige Formeln werden zuverlässig verarbeitet.

Wissensdatenbanken

Dokumente, die strukturiert vorliegen, lassen sich direkt in Wissensdatenbanken und Suchsysteme einspeisen.

MinerU2.5-Output ist nativ kompatibel mit LangChain und LlamaIndex — ideal für den Aufbau von RAG-Pipelines aus bestehenden PDF-Archiven. Unternehmen nutzen es, um Berichte, Studien und technische Dokumentationen für ihre KI-Anwendungen zugänglich zu machen.

Benchmark

Der Benchmark verarbeitet 50 Lebensläufe (insgesamt 100 Seiten). Eine Schritt-für-Schritt-Anleitung und das erforderliche Python-Skript können von GitHub heruntergeladen werden.

Bei Bedarf können höhere Parallelitäts- und Seitenbegrenzungen festgelegt werden.

 

Aufruf

# Persönlichen Schlüssel festlegen:
STONEY_KEY=sk-...

# Schlüssel für das Bench-Skript sichtbar machen:
export OPENAI_API_KEY=$STONEY_KEY

# Benchmark starten:
python cv_bench_endpoint.py \
 --endpoint llm.stoney-cloud.com/v1/chat/completions \
 --data cv_bench_data \
 --model "MinerU2.5-2509-1.2B" \
 --api-key $STONEY_KEY \
 --concurrency 1 \
 --limit 100

 

Resultat

concurrency   : 1
requested     : 50
ok            : 50
failed        : 0
duration_s    : 136.42
pages_s       : 0.36
pages_min     : 23.2
out_tok_s     : 480.8
latency_p50_s : 1.54
latency_p99_s : 8.52

 

Legende

  • concurrency: Wie viele Anfragen verarbeitet das Model gleichzeitig.
  • requested: Wie viele Anfragen wurden verschickt.
  • ok: Anzahl der Akzeptierten Anfragen (hier CVs).
  • failed: Anzahl der nicht akzeptierten Anfragen.
  • duration_s: Die Dauer des Benchmarkdurchlaufs.
  • pages_s: Die Anzahl der Seiten, die im Schnitt pro Sekunde abgearbeitet werden können.
  • pages_min: Die Anzahl der Seiten die im Schnitt pro Minute abgearbeitet werden können.
  • out_tok_s: Die Anzahl der Tokens welche pro Sekunde generiert werden.
  • latency_p50_s: Die im Schnitt benötigte Antwortzeit in Sekunden.
  • latency_p99_s: Die im "worst case" benötigte Antwortzeit in Sekunden.

Preise

ModellKontextlängeInput/MTokOutput/MTok
MinerU2.5-2509-1.2B16k0.02000.0600
Alle Preise in CHF/MTok exkl. Mehrwertsteuer.