PDF-Dokumente
PDF-Dokumente können direkt in die Wissensdatenbank hochgeladen und indexiert werden. Jede Seite des Dokuments wird dabei als eigenständiger Eintrag in der Wissensdatenbank erfasst.
Bilder in PDF-Dokumenten werden bei der Indexierung ignoriert. Nur der Textinhalt wird extrahiert.
Dokument hochladen
Das PDF wird per Drag-and-Drop oder über die Dateiauswahl hochgeladen. Nach dem Upload wird eine Vorschau der ersten Seite angezeigt. Der Dateiname wird automatisch als Name der Wissensquelle übernommen.
Indexierung
Nach dem Upload wird der Textinhalt automatisch extrahiert und indexiert. Jede Seite des Dokuments wird als einzelnes Dokument in der Wissensdatenbank abgelegt.
Bei der Indexierung können folgende Situationen auftreten:
| Status | Beschreibung |
|---|---|
| Erfolg | Die Seite wurde erfolgreich extrahiert und indexiert. |
| Kein Inhalt | Die Seite enthält keinen lesbaren Text (z.B. reine Bildseite). |
| Extraktionsfehler | Der Text der Seite konnte nicht extrahiert werden. |
Häufig gestellte Fragen
Werden gescannte PDF-Dokumente unterstützt?
Die Verarbeitung von gescannten PDFs mittels OCR (Optical Character Recognition) ist technisch möglich, aber keine Standardfunktion. Bei Bedarf kann diese Funktionalität für dein Projekt aktiviert werden. Kontaktiere uns, um die OCR-Unterstützung für gescannte Dokumente einzurichten.
Werden Bilder in PDF-Dokumenten verarbeitet?
Nein, Bilder in PDF-Dokumenten werden bei der Indexierung nicht verarbeitet. Nur der Textinhalt des PDFs wird extrahiert und in die Wissensdatenbank übernommen. Bildseiten oder Seiten mit ausschliesslich grafischem Inhalt werden als 'Kein Inhalt' markiert.