Webscraping von gesperrten Webseiten

Damit zugangsgesperrte Webseiten als Quellen für die Knowledge Base verwendet werden können, bedarf es benutzerdefinierten Einstellungen, die das scrapen dieser Webseiten ermöglichen. Die Einstellungen unterscheiden sich, abhängig davon, ob die Integration mit Basic Authentication oder mit benutzerdefinierten Headern erfolgt.

Basic Authentication
Benutzerdefinierte Header

Basic Authentication

Ist die Webseite mit Basic-Authentication geschützt, werden die Zugangsdaten (Benutzername und Passwort) direkt und in Base64-Codierung übersetzt, in den Header ergänzt. Diese Ergänzung erfolgt durch das Hinzufügen des folgenden Code-Schnipsels:


{
  "headers": {
    "Authorization": "Basic YWRtaW46MTIzNDU="
  }
}

Um den Code hinzuzufügen, muss eine URL als Quelle in die Knowledgebase ergänzt werden. Sodann kann unter Experten-Optionen der Haken bei benutzerdefiniertes Webscraping gesetzt und der Code ergänzt werden.

Um die Zugangsdaten in das passende Base64-Format zu übersetzen, kann die Webseite https://www.base64decode.org/ verwendet werden.

Benutzerdefinierte Header

Ist die Webseite durch einen benutzerdefinierten Header gesichert, erfolgt die Freigabe über das Ergänzen des Headers und dazugehörigen Wertes (im Beispiel ist der Header "moin-Ai-Scraper" und der Wert "SECRET"). Diese Ergänzung erfolgt durch das Hinzufügen des folgenden Code-Schnipsels:

{
  "headers": {
    "Moin-Ai-Scraper": "SECRET"
  }
}

Beschreibung weiterer Webscrapingparameter

Die beschriebenen Einstellungen in diesem Artikel helfen, die spezifischen Teile des Webseiteninhalts zu kontrollieren, die in den Extraktionsprozess ein- bzw. ausgeschlossen werden sollen.

Häufigste Fehlerquellen

In den meisten Fällen sind die Fehlerquellen falsche Header-Parameter, Firewall-Protection oder fehlgeschlagene BasicAuth-Authentifizierung. Um zu garantieren, dass diese Fehlerquellen ausgeschlossen sind, muss:

sichergestellt werden, dass die korrekte Header-Bezeichnung und der entsprechende Wert ergänzt wurde.
sichergestellt werden, dass Crawler in der Firewall der Webseite freigeschaltet ist.
sichergestellt werden, dass die Zugangsdaten korrekt in das Base64-Format übersetzt wurden.