Перейти к основному содержанию

Documentation Index

Fetch the complete documentation index at: https://docs.lovi.ai/llms.txt

Use this file to discover all available pages before exploring further.

Crawler Library List Если Конфигурация агента — это мозг 🧠, то Краулеры — это учебники 📚. Здесь вы отправляете бота читать веб-сайты, чтобы он мог узнать о ваших продуктах, политиках или новостях. Вместо копирования и вставки текста вручную, вы просто говорите: «Иди на этот сайт, прочитай всё и запомни.»

🎯 Для чего это?

  • Держите данные актуальными: Если вы меняете цену на сайте, краулер обнаружит это при следующем запуске.
  • Огромная база знаний: Идеально, если у вас сотни справочных статей или страниц продуктов.
  • Верификация: Позволяет агенту ссылаться на реальные источники («Согласно нашему сайту…»).

🛠️ Настройка краулера (Пошагово)

Когда вы нажимаете + Добавить веб-краулер, вы увидите экран настройки. Думайте о нём как о карте миссии для вашего краулера. Web Crawl Configuration

1. Название краулера

Дайте ему имя, чётко определяющее источник.
  • Плохо: «Тест 1».
  • Хорошо: Официальная_Поддержка или Обновления_Блога_2024.

2. Частота обновления (Ритм)

Как часто он должен перечитывать сайт? Используйте ползунок.
  • 24 часа: Стандартный вариант. Проверяет изменения раз в день.
  • Чаще: Используйте только для срочных новостей (потребляет больше ресурсов).

3. Источники краулинга (Стратегия)

Здесь вы решаете, как бот входит в ваш дом:
  • 🌐 Веб-сайт: Бот начинает с главной страницы и следует по ссылкам одна за другой (как любопытный человек). Хорошо для обнаружения контента.
  • 🗺️ Карты сайта (Новое и улучшенное!): Вы даёте ему точную карту (sitemap.xml). Лучшая часть? Вы больше не ограничены одной. Вы можете нажать + Добавить ещё карту сайта, чтобы загрузить боту несколько карт одновременно. Вы также можете использовать кнопку Проверить карты сайта для проверки их работоспособности перед запуском. Быстрее, чище и намного эффективнее.

4. Параметры краулинга (Область)

  • Краулить всё: Он прочитает всё, что найдёт.
  • Подпути: Вы можете ограничить его /blog или /products, чтобы он не тратил время на страницу «О нас».
⚠️ Важно: Убедитесь, что ваш сайт не блокирует ботов (проверьте robots.txt). Если вы закроете дверь, он не сможет учиться!

📄 Управление знаниями (Вкладка «Страницы»)

Pages Management Tab После настройки краулера перейдите на вкладку Страницы. Это ваш центр управления конкретными URL, которые бот читает. Мы добавили несколько мощных новых инструментов:

➕ Добавить страницу (Хирургическая точность)

Иногда вам не нужно краулить весь сайт или всю карту сайта. Если вы только что опубликовали отдельный пост в блоге или внешнюю статью, которую хотите, чтобы бот изучил прямо сейчас, просто нажмите + Добавить страницу. Это позволяет вручную внедрить конкретные URL прямо в мозг бота.

🔄 Повторное сканирование загрузок (Второй шанс)

Соединение с сайтом прервалось? Или вы обновили текст на сайте и хотите, чтобы бот узнал об этом немедленно, не дожидаясь следующего запланированного цикла? Нажмите кнопку Повторное сканирование загрузок. Это говорит системе: «Возьми все уже скачанные документы и попробуй извлечь информацию снова.» Это идеальная кнопка обновления.

📊 Индикаторы статуса (Что происходит?)

В списке страниц вы увидите точный статус каждого URL. Вот что они означают:
  • 🟢 Просканировано / Проиндексировано: Успех! ✅ Контент прочитан, обработан и надёжно хранится в мозгу агента.
  • 🟠 Загружено: Страница загружена, но ещё не обработана (она всё ещё «переваривает» информацию).
  • 🔴 Ошибка: Что-то пошло не так. Сайт может быть недоступен, требовать авторизацию или иметь анти-бот файрвол.

🎓 Краткое резюме лучших практик (Шпаргалка)

Для поддержания чистой и полезной библиотеки знаний:
  • Несколько карт сайта — ваш лучший друг: Вместо краулинга огромного сайта предоставьте конкретные карты сайта (например, sitemap-products.xml и sitemap-blog.xml). Это помогает боту сфокусироваться.
  • Избегайте мусорных страниц: Не нужно индексировать «Корзину», «Вход» или «Юридическое уведомление».
  • Понятные названия: Когда у вас 10 краулеров, вы будете рады, что назвали их FAQ_RU и FAQ_EN вместо web1 и web2.
  • Хирургические добавления: Используйте кнопку + Добавить страницу для быстрых обновлений вместо полного краулинга сайта.

🆘 Быстрое устранение неполадок

ПроблемаВероятное решение 🔧
Статус «Ошибка» 🔴Ваш сайт может блокировать ботов. Проверьте настройки файрвола. Если это была временная ошибка, попробуйте нажать Повторное сканирование загрузок.
Читает слишком много страницПереключитесь на опцию Карта сайта или ограничьте Подпути, чтобы он читал только важное.
Информация не обновляетсяПроверьте ползунок «Частота обновления». Возможно, он установлен на «Ежемесячно», когда вам нужно «Ежедневно».
Агент путает данныеУ вас два краулера, читающих один и тот же контент? Удалите дубликаты.
Готово! С этим ваш агент перестанет импровизировать и начнёт отвечать реальными, актуальными данными с ваших сайтов. 🕵️‍♂️📚