Beschreibung der individualisierbaren Einstellungen für ein zielgerichtetes Webscraping von Webseiten
Damit zugangsgesperrte Webseiten als Quellen für die Knowledgebase verwendet werden können, bedarf es benutzerdefinierten Einstellungen, die das scrapen dieser Webseiten ermöglichen. Die Einstellungen unterscheiden sich, abhängig davon, ob die Integration mit Basic Authentication oder mit benutzerdefinierten Headern erfolgt.
Basic Authentication
Ist die Webseite mit Basic-Authentication geschützt, werden die Zugangsdaten (Benutzername und Passwort) direkt und in Base64-Codierung übersetzt, in den Header ergänzt. Diese Ergänzung erfolgt durch das Hinzufügen des folgenden Code-Schnipsels:
{
"headers": {
"Authorization": "Basic YWRtaW46MTIzNDU="
}
}
Um den Code hinzuzufügen, muss eine URL als Quelle in die Knowledgebase ergänzt werden. Sodann kann unter Experten-Optionen der Haken bei benutzerdefiniertes Webscraping gesetzt und der Code ergänzt werden.
Um die Zugangsdaten in das passende Base64-Format zu übersetzen, kann die Webseite https://www.base64decode.org/ verwendet werden.
Benutzerdefinierte Header
Ist die Webseite durch einen benutzerdefinierten Header gesichert, erfolgt die Freigabe über das Ergänzen des Headers und dazugehörigen Wertes (im Beispiel ist der Header "moin-Ai-Scraper" und der Wert "SECRET"). Diese Ergänzung erfolgt durch das Hinzufügen des folgenden Code-Schnipsels:
{
"headers": {
"Moin-Ai-Scraper": "SECRET"
}
}
Um den Code hinzuzufügen, muss eine URL als Quelle in die Knowledgebase ergänzt werden. Sodann kann unter Experten-Optionen der Haken bei benutzerdefiniertes Webscraping gesetzt und der Code ergänzt werden.
Beschreibung weiterer Webscrapingparameter:
Die beschriebenen Einstellungen helfen, die spezifischen Teile des Webseiteninhalts zu kontrollieren, die in den Extraktionsprozess ein- bzw. ausgeschlossen werden sollen:
- includeTags: Diese Option ermöglicht die Angabe, welche HTML-Tags in die Ausgabe aufgenommen werden sollen. Wenn z.B. nur Inhalte innerhalb der <p>- und <h1>-Tags extrahiert werden sollen, lautet die Angabe :
[„p“, „h1“]
. - excludeTags: Diese Option ermöglicht die Angabe, welche HTML-Tags von der Ausgabe ausgeschlossen werden sollen. Wenn z. B. alle <script>- und <style>-Tags aus dem extrahierten Inhalt entfernen möchten, lautet die Angabe:
[„script“, „style“]
. - onlyMainContent: Dieser Parameter stellt sicher, dass nur der Hauptinhalt der Webseite zurückgegeben wird, ohne Kopfzeilen, Navigationsleisten, Fußzeilen und andere unwesentliche Elemente. Er ist nützlich, um die Kerninformationen einer Webseite ohne zusätzlichen Ballast zu extrahieren. Manchmal kann der Parameter zu restriktiv sein. Wenn wichtige Inhalte auf der Seite fehlen, kann der Parameter „false“ gesetzt werden. Die Voreinstellung ist „true“.
Häufigste Fehlerquellen
In den meisten Fällen sind die Fehlerquellen falsche Header-Parameter, Firewall-Protection oder fehlgeschlagene BasicAuth-Authentifizierung. Um zu garantieren, dass diese Fehlerquellen ausgeschlossen sind, muss:
- sichergestellt werden, dass die korrekte Header-Bezeichnung und der entsprechende Wert ergänzt wurde.
- sichergestellt werden, dass Crawler in der Firewall der Webseite freigeschaltet ist.
- sichergestellt werden, dass die Zugangsdaten korrekt in das Base64-Format übersetzt wurden.