跳转到主要内容
文档模块视图 如果爬虫是公共图书馆的书籍(网络),那么文档就是您办公室中的私人文件。 这里是您上传机密手册、Excel 价格表或内部 PDF 指南的地方。您为代理提供对特定文件的直接访问,使其成为业务的即时专家。

📥 我可以在这里上传什么?(神奇格式)

您的代理是多语言的,几乎可以读取任何内容:
  • 📄 PDF: 手册、目录、小册子。
  • 📊 XLSX / CSV: 价格表、库存列表、简单数据库。
  • 📝 TXT / JSONL: 快速笔记、日志或结构化数据。

⚙️ 如何管理您的文件(上传区)

上传和管理文档 这就像看起来一样简单:
  1. 拖放: 将文件拖入框中或点击浏览您的计算机。
  2. 处理: 系统将读取(“解析”)文本,以便代理理解它。
  3. 准备好了! 一旦处理完毕,您将在下面的列表中看到该文件。

列表控件:

  • 名称: 文件名。保持清晰(例如 Prices_2024.pdf 而不是 doc1.pdf)。
  • 切换(开关): 最有用的功能。
    • 🔵 开启: 代理读取并使用此文件。
    • 关闭: 文件已存储但被代理忽略。非常适合草稿或您不想完全删除的旧版本。
  • 垃圾桶 🗑️: 从代理的记忆中永久删除文件。

⚠️ 黄金规则(什么不能做)

为了保持一切顺利运行,请记住这一点:

1. 空文件 = 错误 🚫

如果您上传的 PDF 只包含扫描图像(无可选文本)或损坏的文件,您会看到类似 [MARKITDOWN] pdf is empty 的错误。
解决方案: 确保 PDF 包含真实文本(OCR)或 Excel 文件有实际数据。

2. 注意大小(分割它!)✂️

每个文件都有字数限制,以避免使代理的大脑过载。
  • 您的手册有 500 页吗? 不要将其作为一个文件上传。
  • 分割它: 上传 Manual_Part1.pdfManual_Part2.pdf 等。
  • 代理很聪明,会从所有活动文件中组合信息以给出连贯的答案。

🧠 代理如何用这个推理?

想象您上传三个文件并将它们开启
  1. Washing_Machine_Manual.pdf
  2. Spare_Parts_Prices.xlsx
  3. Warranty_Policy.txt
现在,如果用户问:“零件 X 多少钱,保修是否涵盖?” 代理将:
  1. Excel 中查找价格。
  2. 阅读 TXT 中的条件。
  3. 组合两者并回复:“零件价格为 20 英镑,是的,根据条款 3,它是涵盖的。”🤯

🎓 最佳实践摘要(小抄)

  • 描述性名称: 帮助代理(和您自己)理解里面有什么。Wedding_Menu.pdfscan001.pdf 更好。
  • 更新: 如果您上传新版本(Prices_V2.xlsx),请记住关闭或删除旧版本(Prices_V1.xlsx),这样机器人就不会因两种不同的价格而感到困惑。
  • 清洁数据: 避免上传有数千空行的 Excel 文件或有重水印的 PDF。文本越清洁,答案越聪明。
开始用您最好的文档填充代理的大脑!📂✨