自定义知识图谱

计算性云平台支持自定义知识图谱管理，增强用户的资料、文档、知识的检索能力。

开始

在定制数据管理卡片，点击自定义知识图谱，进入知识库管理模块。此模块中允许用户创建知识库，根据需要进行知识图谱构建。

创建知识库

在此模块汇总，您可以点击界面右侧的创建知识库按钮进入创建知识库的页面。创建知识库时，您可以输入知识库名称，进入创建页面后根据需要进行相关配置。

知识库配置

在此模块中，您可以对创建的知识库进行配置，配置项包括：

知识库图片：他是知识库的封面图片。
描述：您对此知识库的描述。
文档语言：这很重要，这表示模型将用什么语言语义解析模型分析文档。
权限：此项表示知识库的权限，您可以选择私有或团队公开（暂时未开放团队能力）。
嵌入模型：向量解析模型，您可以选择云平台内置的多模型，当知识库存在文档 trunks 后，此项将不允许修改。
解析方法：此项表示模型将如何解析文档。您可以选择多种选项，每次切换右侧均将展示此解析方式说明。
页面排名：这用于提高相关性得分。所有检索到的块的相关性得分将加上此数字。当您想首先搜索给定的知识库时，请设置比其他知识库更高的 pagerank 得分。
自动关键词：在查询此类关键词时，为每个块提取 N 个关键词以提高其排名得分。在“系统模型设置”中设置的 LLM 将消耗额外的 token。您可以在块列表中查看结果。
自动问题：在查询此类问题时，为每个块提取 N 个问题以提高其排名得分。在“系统模型设置”中设置的 LLM 将消耗额外的 token。您可以在块列表中查看结果。如果发生错误，此功能不会破坏整个分块过程，除了将空结果添加到原始块。
块 Token 数：它大致确定了一个块的Token数量。
分段标识符：支持多字符作为分隔符，多字符分隔符用包裹。如配置成这样： ##`;那么就会用换行，两个#以及分号先对文本进行分割，然后按照“ token number”大小进行拼装。
布局识别和 OCR：使用视觉模型进行布局分析，以更好地识别文档结构，找到标题、文本块、图像和表格的位置。如果没有此功能，则只能获取 PDF 的纯文本。
表格转 HTML：开启后电子表格会被解析为 HTML 表格，每张表格最多 256 行，否则会按行解析为键值对。
使用召回增强RAPTOR策略：请参考 https://huggingface.co/papers/2401.18059