feat(knowledge): 新增问答段落相似度阈值
为知识库问答中的段落检索增加相似度阈值过滤功能。 此前,即使相似度很低的段落也会被返回,可能导致问答结果不准确。通过新增 `qa_paragraph_threshold` 配置项,可以过滤掉低于设定阈值的段落,从而提高问答的精准度和相关性。
This commit is contained in:
@@ -88,6 +88,8 @@ class QAManager:
|
||||
else:
|
||||
logger.info("未找到相关关系,将使用文段检索结果")
|
||||
result = paragraph_search_res
|
||||
if result and result[0][1] < global_config.lpmm_knowledge.qa_paragraph_threshold:
|
||||
result = []
|
||||
ppr_node_weights = None
|
||||
|
||||
# 过滤阈值
|
||||
|
||||
@@ -481,6 +481,7 @@ class LPMMKnowledgeConfig(ValidatedConfigBase):
|
||||
info_extraction_workers: int = Field(default=3, description="信息提取工作线程数")
|
||||
qa_relation_search_top_k: int = Field(default=10, description="QA关系搜索Top K")
|
||||
qa_relation_threshold: float = Field(default=0.75, description="QA关系阈值")
|
||||
qa_paragraph_threshold: float = Field(default=0.3, description="QA段落阈值")
|
||||
qa_paragraph_search_top_k: int = Field(default=1000, description="QA段落搜索Top K")
|
||||
qa_paragraph_node_weight: float = Field(default=0.05, description="QA段落节点权重")
|
||||
qa_ent_filter_top_k: int = Field(default=10, description="QA实体过滤Top K")
|
||||
|
||||
@@ -1,5 +1,5 @@
|
||||
[inner]
|
||||
version = "7.3.2"
|
||||
version = "7.3.3"
|
||||
|
||||
#----以下是给开发人员阅读的,如果你只是部署了MoFox-Bot,不需要阅读----
|
||||
#如果你想要修改配置文件,请递增version的值
|
||||
@@ -318,6 +318,7 @@ info_extraction_workers = 3 # 实体提取同时执行线程数,非Pro模型
|
||||
qa_relation_search_top_k = 10 # 关系搜索TopK
|
||||
qa_relation_threshold = 0.5 # 关系阈值(相似度高于此阈值的关系会被认为是相关的关系)
|
||||
qa_paragraph_search_top_k = 1000 # 段落搜索TopK(不能过小,可能影响搜索结果)
|
||||
qa_paragraph_threshold = 0.4 # 段落阈值(相似度高于此阈值的段落才会被认为是相关的)
|
||||
qa_paragraph_node_weight = 0.05 # 段落节点权重(在图搜索&PPR计算中的权重,当搜索仅使用DPR时,此参数不起作用)
|
||||
qa_ent_filter_top_k = 10 # 实体过滤TopK
|
||||
qa_ppr_damping = 0.8 # PPR阻尼系数
|
||||
|
||||
Reference in New Issue
Block a user