CSV Dateien in der Knowledge Base ergänzen

Neben den Quellentypen PDF, URL, Dokument und Frage-Antwort-Paar können auch CSV-Dateien genutzt werden.

Eine CSV-Datei beschreibt eine Tabelle, die eine feste Struktur besitzt. Dabei beschreibt die Titelzeile, was in den einzelnen Spalten für Informationen/Daten enthalten sind.
Die Titelzeile ist zwingend erforderlich und eine möglichst genaue Spaltenbezeichnung empfohlen. 

Der Titel einer Spalte muss dabei unique sein, um korrekte Zuordnungen zu ermöglichen.


Beim Import der CSV-Datei besteht die Möglichkeit zu definieren, welche Spalten-Titel importiert werden sollen. Standardmäßig erfolgt der Import der gesamten Tabelle. Durch Abwahl der unwichtigen Titel werden Teile der Tabelle ausgeschlossen. 


Die Titel-Spalten beschreiben hierbei den Teil, nach dem die Nutzer:innen am wahrscheinlichsten fragen.

Die zu importierenden Spalten beschreiben die Datenspalten, auf die die KI zugreift, um Anfragen zu beantworten. Hier sollten alle Spalten mit relevanten Informationen ausgewählt sein und irrelevante Spalten entfernt werden.

anpassung-csv

Je größer die Anzahl an importierten Spalten ist, desto größer ist das Potenzial für ungenaue oder fehlerhafte Antworten. 

Empfohlen ist der Einsatz von CSV-Dateien in spezifischen Themen. Die Erfahrungen zeigen, dass das Fehlerpotenzial bei Einbindung in spezifische Themen geringer ausfällt als bei Nutzung in der allgemeinen Knowledge Base. Die Nutzung von CSV-Dateien führt aufgrund der strukturierten Daten zu einer hohen Antwortqualität. 

Die Verwendung des Semikolons (;) als Trennzeichen ist empfohlen, um möglichst wenig Probleme beim Import zu verursachen.

 

Weitere mögliche Fehlerquellen beim CSV-Import können sein: 

  • Zu viele importierte Spalten oder lange Texte in Spalten: Eine große Anzahl importierter Spalten oder sehr lange Texte in einzelnen Spalten können dazu führen, dass die für eine Zeile importierten Informationen nicht vollständig verarbeitet werden. Das Einbinden langer Informationstexte in die Knowledgebase sollte über die Verwendung von Webseiten oder Artikeln erfolgen.

  • Trennzeichen konnte nicht erkannt werden: Wenn das verwendete Trennzeichen nicht eindeutig identifiziert werden kann, kann dies zum Fehlschlagen des Importierens führen. Wir empfehlen daher die Verwendung des Semikolons (;) als Trennzeichen, um mögliche Probleme zu vermeiden.

  • CSV nicht wohl geformt: Die CSV-Datei muss korrekt formatiert sein, d.h., jede Zeile sollte die gleiche Anzahl an Spalten enthalten. Uneinheitliche Zeilenlängen können dazu führen, dass der Import nicht korrekt durchgeführt wird.

  • Trennzeichen nicht richtig escaped: Wenn der Trennzeichen innerhalb einer Spalte vorkommt (z. B. in einem Textfeld), muss er ordnungsgemäß escaped werden. Ansonsten können fehlerhafte Spaltenstrukturen entstehen, die den Import behindern.

Das sorgfältige Prüfen der CSV-Datei vor dem Import und das Ausschließen der genannten Fehlerquellen, verhindert die meisten Probleme, die während des Imports auftreten können und stellt eine hohe Datenqualität sicher.