Webscraping zugangsbeschränkter Webseiten

Individualisierte Einstellungen ermöglichen das Web Scraping von authentifizierungspflichtigen Websites und damit auch die Integration solcher Websites in die Knowledgebase.

Damit zugangsgesperrte Webseiten als Quellen für die Knowledgebase verwendet werden können, bedarf es benutzerdefinierten Einstellungen, die das scrapen dieser Webseiten ermöglichen. Die Einstellungen unterscheiden sich, abhängig davon, ob die Integration mit Basic Authentication oder mit benutzerdefinierten Headern erfolgt. 

 

Basic Authentication

Ist die Webseite mit Basic-Authentication geschützt, werden die Zugangsdaten (Benutzername und Passwort) direkt und in Base64-Codierung übersetzt, in den Header ergänzt. Diese Ergänzung erfolgt durch das Hinzufügen des folgenden Code-Schnipsels:


{
"headers": {
"Authorization": "Basic YWRtaW46MTIzNDU="
}
}

Um den Code hinzuzufügen, muss eine URL als Quelle in die Knowledgebase ergänzt werden. Sodann kann unter Experten-Optionen der Haken bei benutzerdefiniertes Webscraping gesetzt und der Code ergänzt werden. 

Bildschirmfoto 2024-11-19 um 10.20.32

Um die Zugangsdaten in das passende Base64-Format zu übersetzen, kann die Webseite https://www.base64decode.org/ verwendet werden.

 

Benutzerdefinierte Header 

Ist die Webseite durch einen benutzerdefinierten Header gesichert, erfolgt die Freigabe über das Ergänzen des Headers und dazugehörigen Wertes (im Beispiel ist der Header "moin-Ai-Scraper" und der Wert "SECRET"). Diese Ergänzung erfolgt durch das Hinzufügen des folgenden Code-Schnipsels:

{
"headers": {
"Moin-Ai-Scraper": "SECRET"
}
}

Um den Code hinzuzufügen, muss eine URL als Quelle in die Knowledgebase ergänzt werden. Sodann kann unter Experten-Optionen der Haken bei benutzerdefiniertes Webscraping gesetzt und der Code ergänzt werden. 

Bildschirmfoto 2024-11-19 um 10.21.02

Häufigste Fehlerquellen

In den meisten Fällen sind die Fehlerquellen falsche Header-Parameter, Firewall-Protection oder fehlgeschlagene BasicAuth-Authentifizierung. Um zu garantieren, dass diese Fehlerquellen ausgeschlossen sind, muss: 

  1. sichergestellt werden, dass die korrekte Header-Bezeichnung und der entsprechende Wert ergänzt wurde. 
  2. sichergestellt werden, dass Crawler in der Firewall der Webseite freigeschaltet ist. 
  3. sichergestellt werden, dass die Zugangsdaten korrekt in das Base64-Format übersetzt wurden.