feat: 新增LPMM知识库模块及工具支持
- 新增LPMM知识库模块,包括实体提取、RDF构建、Embedding存储、KG管理等功能 - 新增`lpmm_get_knowledge`工具,支持从LPMM知识库中检索相关信息 - 新增OpenIE数据处理模块,支持信息提取、数据导入等功能 - 新增知识库初始化脚本,支持从原始数据到知识库的完整处理流程 - 新增配置文件`lpmm_config.toml`,支持自定义知识库相关参数 - 新增日志模块`LPMM_STYLE_CONFIG`,支持知识库相关日志输出 - 新增`raw_data_preprocessor.py`、`info_extraction.py`、`import_openie.py`等脚本,支持知识库数据预处理
This commit is contained in:
57
template/lpmm_config_template.toml
Normal file
57
template/lpmm_config_template.toml
Normal file
@@ -0,0 +1,57 @@
|
||||
# LLM API 服务提供商,可配置多个
|
||||
[[llm_providers]]
|
||||
name = "localhost"
|
||||
base_url = "http://127.0.0.1:8888/v1/"
|
||||
api_key = "lm_studio"
|
||||
|
||||
[[llm_providers]]
|
||||
name = "siliconflow"
|
||||
base_url = "https://api.siliconflow.cn/v1/"
|
||||
api_key = ""
|
||||
|
||||
[entity_extract.llm]
|
||||
# 设置用于实体提取的LLM模型
|
||||
provider = "siliconflow" # 服务提供商
|
||||
model = "deepseek-ai/DeepSeek-V3" # 模型名称
|
||||
|
||||
[rdf_build.llm]
|
||||
# 设置用于RDF构建的LLM模型
|
||||
provider = "siliconflow" # 服务提供商
|
||||
model = "deepseek-ai/DeepSeek-V3" # 模型名称
|
||||
|
||||
[embedding]
|
||||
# 设置用于文本嵌入的Embedding模型
|
||||
provider = "siliconflow" # 服务提供商
|
||||
model = "Pro/BAAI/bge-m3" # 模型名称
|
||||
dimension = 1024 # 嵌入维度
|
||||
|
||||
[rag.params]
|
||||
# RAG参数配置
|
||||
synonym_search_top_k = 10 # 同义词搜索TopK
|
||||
synonym_threshold = 0.8 # 同义词阈值(相似度高于此阈值的词语会被认为是同义词)
|
||||
|
||||
[qa.llm]
|
||||
# 设置用于QA的LLM模型
|
||||
provider = "siliconflow" # 服务提供商
|
||||
model = "deepseek-ai/DeepSeek-R1-Distill-Qwen-32B" # 模型名称
|
||||
|
||||
[info_extraction]
|
||||
workers = 10
|
||||
|
||||
[qa.params]
|
||||
# QA参数配置
|
||||
relation_search_top_k = 10 # 关系搜索TopK
|
||||
relation_threshold = 0.5 # 关系阈值(相似度高于此阈值的关系会被认为是相关的关系)
|
||||
paragraph_search_top_k = 1000 # 段落搜索TopK(不能过小,可能影响搜索结果)
|
||||
paragraph_node_weight = 0.05 # 段落节点权重(在图搜索&PPR计算中的权重,当搜索仅使用DPR时,此参数不起作用)
|
||||
ent_filter_top_k = 10 # 实体过滤TopK
|
||||
ppr_damping = 0.8 # PPR阻尼系数
|
||||
res_top_k = 3 # 最终提供的文段TopK
|
||||
|
||||
[persistence]
|
||||
# 持久化配置(存储中间数据,防止重复计算)
|
||||
data_root_path = "data" # 数据根目录
|
||||
raw_data_path = "data/import.json" # 原始数据路径
|
||||
openie_data_path = "data/openie.json" # OpenIE数据路径
|
||||
embedding_data_dir = "data/embedding" # 嵌入数据目录
|
||||
rag_data_dir = "data/rag" # RAG数据目录
|
||||
Reference in New Issue
Block a user