Zum Hauptinhalt springen

PDF-Dokumente

PDF-Dokumente können direkt in die Wissensdatenbank hochgeladen und indexiert werden. Jede Seite des Dokuments wird dabei als eigenständiger Eintrag in der Wissensdatenbank erfasst.

info

Bilder in PDF-Dokumenten werden bei der Indexierung ignoriert. Nur der Textinhalt wird extrahiert.

Dokument hochladen

Das PDF wird per Drag-and-Drop oder über die Dateiauswahl hochgeladen. Nach dem Upload wird eine Vorschau der ersten Seite angezeigt. Der Dateiname wird automatisch als Name der Wissensquelle übernommen.

Indexierung

Nach dem Upload wird der Textinhalt automatisch extrahiert und indexiert. Jede Seite des Dokuments wird als einzelnes Dokument in der Wissensdatenbank abgelegt.

Bei der Indexierung können folgende Situationen auftreten:

StatusBeschreibung
ErfolgDie Seite wurde erfolgreich extrahiert und indexiert.
Kein InhaltDie Seite enthält keinen lesbaren Text (z.B. reine Bildseite).
ExtraktionsfehlerDer Text der Seite konnte nicht extrahiert werden.

Häufig gestellte Fragen

Werden gescannte PDF-Dokumente unterstützt?

Die Verarbeitung von gescannten PDFs mittels OCR (Optical Character Recognition) ist technisch möglich, aber keine Standardfunktion. Bei Bedarf kann diese Funktionalität für dein Projekt aktiviert werden. Kontaktiere uns, um die OCR-Unterstützung für gescannte Dokumente einzurichten.

Werden Bilder in PDF-Dokumenten verarbeitet?

Nein, Bilder in PDF-Dokumenten werden bei der Indexierung nicht verarbeitet. Nur der Textinhalt des PDFs wird extrahiert und in die Wissensdatenbank übernommen. Bildseiten oder Seiten mit ausschliesslich grafischem Inhalt werden als 'Kein Inhalt' markiert.