[lpmm] version = "0.1.0" # LLM API 服务提供商,可配置多个 [[llm_providers]] name = "localhost" base_url = "http://127.0.0.1:8888/v1/" api_key = "lm_studio" [[llm_providers]] name = "siliconflow" base_url = "https://api.siliconflow.cn/v1/" api_key = "" [entity_extract.llm] # 设置用于实体提取的LLM模型 provider = "siliconflow" # 服务提供商 model = "deepseek-ai/DeepSeek-V3" # 模型名称 [rdf_build.llm] # 设置用于RDF构建的LLM模型 provider = "siliconflow" # 服务提供商 model = "deepseek-ai/DeepSeek-V3" # 模型名称 [embedding] # 设置用于文本嵌入的Embedding模型 provider = "siliconflow" # 服务提供商 model = "Pro/BAAI/bge-m3" # 模型名称 dimension = 1024 # 嵌入维度 [rag.params] # RAG参数配置 synonym_search_top_k = 10 # 同义词搜索TopK synonym_threshold = 0.8 # 同义词阈值(相似度高于此阈值的词语会被认为是同义词) [qa.llm] # 设置用于QA的LLM模型 provider = "siliconflow" # 服务提供商 model = "deepseek-ai/DeepSeek-R1-Distill-Qwen-32B" # 模型名称 [info_extraction] workers = 3 # 实体提取同时执行线程数,非Pro模型不要设置超过5 [qa.params] # QA参数配置 relation_search_top_k = 10 # 关系搜索TopK relation_threshold = 0.5 # 关系阈值(相似度高于此阈值的关系会被认为是相关的关系) paragraph_search_top_k = 1000 # 段落搜索TopK(不能过小,可能影响搜索结果) paragraph_node_weight = 0.05 # 段落节点权重(在图搜索&PPR计算中的权重,当搜索仅使用DPR时,此参数不起作用) ent_filter_top_k = 10 # 实体过滤TopK ppr_damping = 0.8 # PPR阻尼系数 res_top_k = 3 # 最终提供的文段TopK [persistence] # 持久化配置(存储中间数据,防止重复计算) data_root_path = "data" # 数据根目录 imported_data_path = "data/imported_lpmm_data" # 转换为json的raw文件数据路径 openie_data_path = "data/openie" # OpenIE数据路径 embedding_data_dir = "data/embedding" # 嵌入数据目录 rag_data_dir = "data/rag" # RAG数据目录