Zum Hauptinhalt springen

Inhaltsfilter

Für Bubble Chat wird der Content Filter aus Azure AI Foundry respektive Azure OpenAI eingesetzt. Der Filter bewertet sowohl eingehende Nutzeranfragen (Input) als auch ausgehende Modellantworten (Output) und verhindert die Ausgabe von Inhalten, die gegen definierte Sicherheits- und Compliance-Anforderungen verstossen.

Zweck des Filters

Der Azure Content Filter reduziert das Risiko, dass problematische Inhalte verarbeitet oder ausgegeben werden. Die zentrale Inhaltsklassifikation umfasst vier Kategorien:

  • Hass
  • Sexualität
  • Gewalt
  • Selbstverletzung

Zusätzlich ist Prompt Shields (Erkennung von Prompt-Angriffen) aktiv.

Input- und Output-Filter

Der Filter wird getrennt für Input und Output konfiguriert:

  • Input-Filter prüfen User-Prompts vor der Modellverarbeitung.
  • Output-Filter prüfen generierte Antworten vor der Auslieferung an den Nutzer.

Für die vier Kernkategorien können pro Richtung Schwellenwerte gesetzt werden (z. B. Blockierung ab Low, Medium oder High).

Verhalten in Bubble Chat

Wenn eine Anfrage oder eine Antwort als unzulässig eingestuft wird, reagiert das System abhängig von Richtung und Schweregrad:

  • Unzulässiger Input kann zu einer abgewiesenen Anfrage führen.
  • Unzulässiger Output wird gefiltert oder abgeschnitten.

Im Bubble Chat CMS kann für diesen Fall ausschliesslich der Antworttext definiert werden, der dem Nutzer angezeigt wird, wenn der Inhaltsfilter auslöst.