Merge branch 'dev' of https://github.com/MaiM-with-u/MaiBot into dev

2025-06-08 00:01:50 +08:00
parent 4d20ee0c72 ca66542718
commit 1e79d7dcb2
24 changed files with 102 additions and 26 deletions
--- a/src/chat/knowledge/src/init.py
+++ b/src/chat/knowledge/src/init.py
--- a/src/chat/knowledge/src/embedding_store.py
+++ b/src/chat/knowledge/src/embedding_store.py
@@ -27,7 +27,7 @@ from rich.progress import (
 )

 install(extra_lines=3)
-ROOT_PATH = os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "..", "..", ".."))
+ROOT_PATH = os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "..", ".."))
 EMBEDDING_DATA_DIR = (
    os.path.join(ROOT_PATH, "data", "embedding")
    if global_config["persistence"]["embedding_data_dir"] is None
--- a/src/chat/knowledge/src/global_logger.py
+++ b/src/chat/knowledge/src/global_logger.py
--- a/src/chat/knowledge/src/ie_process.py
+++ b/src/chat/knowledge/src/ie_process.py
@@ -6,7 +6,7 @@ from .global_logger import logger
 from . import prompt_template
 from .lpmmconfig import global_config, INVALID_ENTITY
 from .llm_client import LLMClient
-from .utils.json_fix import new_fix_broken_generated_json
+from src.chat.knowledge.utils.json_fix import new_fix_broken_generated_json


 def _entity_extract(llm_client: LLMClient, paragraph: str) -> List[str]:
--- a/src/chat/knowledge/src/kg_manager.py
+++ b/src/chat/knowledge/src/kg_manager.py
@@ -31,7 +31,7 @@ from .lpmmconfig import (

 from .global_logger import logger

-ROOT_PATH = os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "..", "..", ".."))
+ROOT_PATH = os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "..", ".."))
 KG_DIR = (
    os.path.join(ROOT_PATH, "data/rag")
    if global_config["persistence"]["rag_data_dir"] is None
--- a/src/chat/knowledge/knowledge_lib.py
+++ b/src/chat/knowledge/knowledge_lib.py
@@ -1,10 +1,10 @@
-from .src.lpmmconfig import PG_NAMESPACE, global_config
-from .src.embedding_store import EmbeddingManager
-from .src.llm_client import LLMClient
-from .src.mem_active_manager import MemoryActiveManager
-from .src.qa_manager import QAManager
-from .src.kg_manager import KGManager
-from .src.global_logger import logger
+from src.chat.knowledge.lpmmconfig import PG_NAMESPACE, global_config
+from src.chat.knowledge.embedding_store import EmbeddingManager
+from src.chat.knowledge.llm_client import LLMClient
+from src.chat.knowledge.mem_active_manager import MemoryActiveManager
+from src.chat.knowledge.qa_manager import QAManager
+from src.chat.knowledge.kg_manager import KGManager
+from src.chat.knowledge.global_logger import logger
 # try:
 #     import quick_algo
 # except ImportError:
--- a/src/chat/knowledge/src/llm_client.py
+++ b/src/chat/knowledge/src/llm_client.py
--- a/src/chat/knowledge/src/lpmmconfig.py
+++ b/src/chat/knowledge/src/lpmmconfig.py
@@ -45,7 +45,7 @@ def _load_config(config, config_file_path):
    if "llm_providers" in file_config:
        for provider in file_config["llm_providers"]:
            if provider["name"] not in config["llm_providers"]:
-                config["llm_providers"][provider["name"]] = dict()
+                config["llm_providers"][provider["name"]] = {}
            config["llm_providers"][provider["name"]]["base_url"] = provider["base_url"]
            config["llm_providers"][provider["name"]]["api_key"] = provider["api_key"]

@@ -135,6 +135,6 @@ global_config = dict(
 # _load_config(global_config, parser.parse_args().config_path)
 # file_path = os.path.abspath(__file__)
 # dir_path = os.path.dirname(file_path)
-ROOT_PATH = os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "..", "..", ".."))
+ROOT_PATH = os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "..", ".."))
 config_path = os.path.join(ROOT_PATH, "config", "lpmm_config.toml")
 _load_config(global_config, config_path)
--- a/src/chat/knowledge/src/mem_active_manager.py
+++ b/src/chat/knowledge/src/mem_active_manager.py
--- a/src/chat/knowledge/src/open_ie.py
+++ b/src/chat/knowledge/src/open_ie.py
--- a/src/chat/knowledge/src/prompt_template.py
+++ b/src/chat/knowledge/src/prompt_template.py
--- a/src/chat/knowledge/src/qa_manager.py
+++ b/src/chat/knowledge/src/qa_manager.py
--- a/src/chat/knowledge/src/raw_processing.py
+++ b/src/chat/knowledge/src/raw_processing.py
@@ -3,7 +3,7 @@ import os

 from .global_logger import logger
 from .lpmmconfig import global_config
-from .utils.hash import get_sha256
+from src.chat.knowledge.utils import get_sha256


 def load_raw_data(path: str = None) -> tuple[list[str], list[str]]:
--- a/src/chat/knowledge/src/utils/init.py
+++ b/src/chat/knowledge/src/utils/init.py
--- a/src/chat/knowledge/src/utils/dyn_topk.py
+++ b/src/chat/knowledge/src/utils/dyn_topk.py
--- a/src/chat/knowledge/src/utils/hash.py
+++ b/src/chat/knowledge/src/utils/hash.py
--- a/src/chat/knowledge/src/utils/json_fix.py
+++ b/src/chat/knowledge/src/utils/json_fix.py
--- a/src/chat/knowledge/src/utils/visualize_graph.py
+++ b/src/chat/knowledge/src/utils/visualize_graph.py
--- a/src/config/config.py
+++ b/src/config/config.py
@@ -32,6 +32,7 @@ from src.config.official_configs import (
    FocusChatProcessorConfig,
    MessageReceiveConfig,
    MaimMessageConfig,
+    LPMMKnowledgeConfig,
    RelationshipConfig,
 )

@@ -161,6 +162,7 @@ class Config(ConfigBase):
    experimental: ExperimentalConfig
    model: ModelConfig
    maim_message: MaimMessageConfig
+    lpmm_knowledge: LPMMKnowledgeConfig


 def load_config(config_path: str) -> Config:
--- a/src/config/official_configs.py
+++ b/src/config/official_configs.py
@@ -414,6 +414,44 @@ class MaimMessageConfig(ConfigBase):
    """认证令牌，用于API验证，为空则不启用验证"""


+@dataclass
+class LPMMKnowledgeConfig(ConfigBase):
+    """LPMM知识库配置类"""
+
+    enable: bool = True
+    """是否启用LPMM知识库"""
+
+    rag_synonym_search_top_k: int = 10
+    """RAG同义词搜索的Top K数量"""
+
+    rag_synonym_threshold: float = 0.8
+    """RAG同义词搜索的相似度阈值"""
+
+    info_extraction_workers: int = 3
+    """信息提取工作线程数"""
+
+    qa_relation_search_top_k: int = 10
+    """QA关系搜索的Top K数量"""
+
+    qa_relation_threshold: float = 0.75
+    """QA关系搜索的相似度阈值"""
+
+    qa_paragraph_search_top_k: int = 1000
+    """QA段落搜索的Top K数量"""
+
+    qa_paragraph_node_weight: float = 0.05
+    """QA段落节点权重"""
+
+    qa_ent_filter_top_k: int = 10
+    """QA实体过滤的Top K数量"""
+
+    qa_ppr_damping: float = 0.8
+    """QA PageRank阻尼系数"""
+
+    qa_res_top_k: int = 10
+    """QA最终结果的Top K数量"""
+    
+
@dataclass
 class ModelConfig(ConfigBase):
    """模型配置类"""