Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.lovi.ai/llms.txt

Use this file to discover all available pages before exploring further.

Crawler Library List Wenn Agent konfigurieren das Gehirn 🧠 ist, sind Crawler die Lehrbücher 📚. Hier schicken Sie Ihren Bot auf Websites, damit er über Ihre Produkte, Richtlinien oder Neuigkeiten lernen kann. Anstatt Text manuell zu kopieren und einzufügen, sagen Sie ihm einfach: “Geh auf diese Website, lies alles und merk es dir.”

🎯 Wofür ist das da?

  • Immer aktuell: Wenn Sie einen Preis auf Ihrer Website ändern, erkennt der Crawler dies beim nächsten Durchlauf.
  • Riesige Wissensdatenbank: Ideal, wenn Sie Hunderte von Hilfeartikeln oder Produktseiten haben.
  • Verifizierung: Ermöglicht dem Agenten, echte Quellen zu zitieren (“Laut unserer Website…”).

🛠️ Einen Crawler konfigurieren (Schritt für Schritt)

Wenn Sie auf + Web Crawler hinzufügen klicken, sehen Sie den Konfigurationsbildschirm. Betrachten Sie es als die Missionskarte für Ihren Crawler. Web Crawl Configuration

1. Name für den Crawler

Geben Sie ihm einen Namen, der die Quelle klar identifiziert.
  • Schlecht: “Test 1”.
  • Gut: Offizieller_Support_Hilfe oder Blog_Updates_2024.

2. Aktualisierungshäufigkeit (Der Rhythmus)

Wie oft soll er die Website erneut lesen? Verwenden Sie den Schieberegler.
  • 24 Stunden: Die Standardoption. Prüft einmal täglich auf Änderungen.
  • Häufiger: Verwenden Sie dies nur für aktuelle Nachrichten (verbraucht mehr Ressourcen).

3. Crawl-Quellen (Die Strategie)

Hier entscheiden Sie, wie der Bot Ihr Haus betritt:
  • 🌐 Website: Der Bot beginnt auf der Startseite und folgt Links einzeln (wie ein neugieriger Mensch). Gut zum Entdecken von Inhalten.
  • 🗺️ Sitemaps (Neu & Verbessert!): Sie geben ihm eine genaue Karte (sitemap.xml). Das Beste daran? Sie sind nicht mehr auf nur eine beschränkt. Sie können auf + Weitere Sitemap hinzufügen klicken, um dem Bot mehrere Karten gleichzeitig zu geben. Sie können auch die Schaltfläche Sitemaps prüfen verwenden, um zu überprüfen, ob sie ordnungsgemäß funktionieren, bevor Sie starten. Schneller, sauberer und viel effizienter.

4. Crawl-Optionen (Der Umfang)

  • Alles crawlen: Er liest alles, was er findet.
  • Unterpfade: Sie können ihn auf /blog oder /produkte beschränken, damit er keine Zeit mit der “Über uns”-Seite verschwendet.
⚠️ Wichtig: Stellen Sie sicher, dass Ihre Website Bots nicht blockiert (prüfen Sie Ihre robots.txt). Wenn Sie die Tür schließen, kann er nicht lernen!

📄 Ihr Wissen verwalten (Der “Seiten”-Tab)

Pages Management Tab Sobald Ihr Crawler eingerichtet ist, gehen Sie zum Seiten-Tab. Dies ist Ihr Kontrollzentrum für die spezifischen URLs, die der Bot liest. Wir haben einige leistungsstarke neue Tools hinzugefügt:

➕ Seite hinzufügen (Chirurgische Präzision)

Manchmal müssen Sie nicht eine ganze Website oder eine komplette Sitemap crawlen. Wenn Sie gerade einen einzelnen neuen Blogbeitrag oder einen externen Artikel veröffentlicht haben, den der Bot sofort lernen soll, klicken Sie einfach auf + Seite hinzufügen. Dies ermöglicht es Ihnen, bestimmte URLs manuell direkt in das Gehirn des Bots einzuspeisen.

🔄 Downloads neu scrapen (Die zweite Chance)

Hat eine Website-Verbindung nicht funktioniert? Oder haben Sie den Text auf Ihrer Website aktualisiert und möchten, dass der Bot ihn sofort lernt, ohne auf den nächsten geplanten Zyklus zu warten? Klicken Sie auf die Schaltfläche Downloads neu scrapen. Dies sagt dem System: “Nimm alle Dokumente, die wir bereits heruntergeladen haben, und versuche erneut, ihre Informationen zu extrahieren.” Es ist die perfekte Aktualisierungsschaltfläche.

📊 Status-Ampeln (Was passiert?)

In der Seitenliste sehen Sie den genauen Status jeder einzelnen URL. Hier ist, was sie bedeuten:
  • 🟢 Gescrapt / Indexiert: Erfolg! ✅ Der Inhalt wurde gelesen, verarbeitet und ist nun sicher im Gehirn des Agenten gespeichert.
  • 🟠 Heruntergeladen: Die Seite wurde heruntergeladen, aber noch nicht verarbeitet (sie “verdaut” die Informationen noch).
  • 🔴 Fehler: Etwas ist schiefgelaufen. Die Website könnte down sein, einen Login erfordern oder eine Anti-Bot-Firewall hat den Weg blockiert.

🎓 Zusammenfassung der Best Practices (Spickzettel)

Um eine saubere und nützliche Wissensbibliothek zu pflegen:
  • Mehrere Sitemaps sind Ihr bester Freund: Anstatt eine riesige Website zu crawlen, stellen Sie spezifische Sitemaps bereit (z. B. sitemap-produkte.xml und sitemap-blog.xml). Das hält den Bot fokussiert.
  • Müllseiten vermeiden: Sie müssen “Warenkorb”, “Login” oder “Impressum” nicht indexieren.
  • Klare Benennung: Wenn Sie 10 Crawler haben, werden Sie froh sein, sie FAQ_DE und FAQ_EN statt web1 und web2 genannt zu haben.
  • Chirurgische Ergänzungen: Verwenden Sie die Schaltfläche + Seite hinzufügen für schnelle Updates, anstatt einen vollständigen Crawl Ihrer Website zu erzwingen.

🆘 Schnelle Fehlerbehebung

ProblemWahrscheinliche Lösung 🔧
Status zeigt “Fehler” 🔴Ihre Website blockiert möglicherweise Bots. Prüfen Sie Ihre Firewall-Einstellungen. Wenn es ein vorübergehender Fehler war, versuchen Sie Downloads neu scrapen.
Liest zu viele SeitenWechseln Sie zur Sitemap-Option oder beschränken Sie die Unterpfade, damit nur gelesen wird, was zählt.
Informationen werden nicht aktualisiertPrüfen Sie den Schieberegler “Aktualisierungshäufigkeit”. Er könnte auf “Monatlich” stehen, wenn Sie “Täglich” brauchen.
Der Agent vermischt DatenHaben Sie zwei Crawler, die denselben Inhalt lesen? Entfernen Sie Duplikate.
Alles erledigt! Damit hört Ihr Agent auf zu improvisieren und beginnt, mit echten, aktuellen Daten von Ihren Websites zu antworten. 🕵️‍♂️📚