feat: 新增LPMM知识库模块及工具支持

- 新增LPMM知识库模块,包括实体提取、RDF构建、Embedding存储、KG管理等功能
- 新增`lpmm_get_knowledge`工具,支持从LPMM知识库中检索相关信息
- 新增OpenIE数据处理模块,支持信息提取、数据导入等功能
- 新增知识库初始化脚本,支持从原始数据到知识库的完整处理流程
- 新增配置文件`lpmm_config.toml`,支持自定义知识库相关参数
- 新增日志模块`LPMM_STYLE_CONFIG`,支持知识库相关日志输出
- 新增`raw_data_preprocessor.py`、`info_extraction.py`、`import_openie.py`等脚本,支持知识库数据预处理
This commit is contained in:
墨梓柒
2025-04-23 10:28:05 +08:00
parent 6265fd6c14
commit 2b07c9e81b
32 changed files with 2940 additions and 60 deletions

View File

@@ -0,0 +1,57 @@
# LLM API 服务提供商,可配置多个
[[llm_providers]]
name = "localhost"
base_url = "http://127.0.0.1:8888/v1/"
api_key = "lm_studio"
[[llm_providers]]
name = "siliconflow"
base_url = "https://api.siliconflow.cn/v1/"
api_key = ""
[entity_extract.llm]
# 设置用于实体提取的LLM模型
provider = "siliconflow" # 服务提供商
model = "deepseek-ai/DeepSeek-V3" # 模型名称
[rdf_build.llm]
# 设置用于RDF构建的LLM模型
provider = "siliconflow" # 服务提供商
model = "deepseek-ai/DeepSeek-V3" # 模型名称
[embedding]
# 设置用于文本嵌入的Embedding模型
provider = "siliconflow" # 服务提供商
model = "Pro/BAAI/bge-m3" # 模型名称
dimension = 1024 # 嵌入维度
[rag.params]
# RAG参数配置
synonym_search_top_k = 10 # 同义词搜索TopK
synonym_threshold = 0.8 # 同义词阈值(相似度高于此阈值的词语会被认为是同义词)
[qa.llm]
# 设置用于QA的LLM模型
provider = "siliconflow" # 服务提供商
model = "deepseek-ai/DeepSeek-R1-Distill-Qwen-32B" # 模型名称
[info_extraction]
workers = 10
[qa.params]
# QA参数配置
relation_search_top_k = 10 # 关系搜索TopK
relation_threshold = 0.5 # 关系阈值(相似度高于此阈值的关系会被认为是相关的关系)
paragraph_search_top_k = 1000 # 段落搜索TopK不能过小可能影响搜索结果
paragraph_node_weight = 0.05 # 段落节点权重(在图搜索&PPR计算中的权重当搜索仅使用DPR时此参数不起作用
ent_filter_top_k = 10 # 实体过滤TopK
ppr_damping = 0.8 # PPR阻尼系数
res_top_k = 3 # 最终提供的文段TopK
[persistence]
# 持久化配置(存储中间数据,防止重复计算)
data_root_path = "data" # 数据根目录
raw_data_path = "data/import.json" # 原始数据路径
openie_data_path = "data/openie.json" # OpenIE数据路径
embedding_data_dir = "data/embedding" # 嵌入数据目录
rag_data_dir = "data/rag" # RAG数据目录