修复代码格式和文件名大小写问题

2025-08-31 20:50:17 +08:00
parent a187130613
commit fe472dff60
213 changed files with 6897 additions and 8252 deletions
--- a/scripts/info_extraction.py
+++ b/scripts/info_extraction.py
@@ -12,6 +12,7 @@ sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), "..")))
 from rich.progress import Progress  # 替换为 rich 进度条

 from src.common.logger import get_logger
+
 # from src.chat.knowledge.lpmmconfig import global_config
 from src.chat.knowledge.ie_process import info_extract_from_str
 from src.chat.knowledge.open_ie import OpenIE
@@ -36,6 +37,7 @@ TEMP_DIR = os.path.join(ROOT_PATH, "temp")
 # IMPORTED_DATA_PATH = os.path.join(ROOT_PATH, "data", "imported_lpmm_data")
 OPENIE_OUTPUT_DIR = os.path.join(ROOT_PATH, "data", "openie")

+
 def ensure_dirs():
    """确保临时目录和输出目录存在"""
    if not os.path.exists(TEMP_DIR):
@@ -48,6 +50,7 @@ def ensure_dirs():
        os.makedirs(RAW_DATA_PATH)
        logger.info(f"已创建原始数据目录: {RAW_DATA_PATH}")

+
 # 创建一个线程安全的锁，用于保护文件操作和共享数据
 file_lock = Lock()
 open_ie_doc_lock = Lock()
@@ -56,13 +59,11 @@ open_ie_doc_lock = Lock()
 shutdown_event = Event()

 lpmm_entity_extract_llm = LLMRequest(
-    model_set=model_config.model_task_config.lpmm_entity_extract,
-    request_type="lpmm.entity_extract"
-)
-lpmm_rdf_build_llm = LLMRequest(
-    model_set=model_config.model_task_config.lpmm_rdf_build,
-    request_type="lpmm.rdf_build"
+    model_set=model_config.model_task_config.lpmm_entity_extract, request_type="lpmm.entity_extract"
 )
+lpmm_rdf_build_llm = LLMRequest(model_set=model_config.model_task_config.lpmm_rdf_build, request_type="lpmm.rdf_build")
+
+
 def process_single_text(pg_hash, raw_data):
    """处理单个文本的函数，用于线程池"""
    temp_file_path = f"{TEMP_DIR}/{pg_hash}.json"
@@ -97,7 +98,7 @@ def process_single_text(pg_hash, raw_data):
    with file_lock:
        try:
            with open(temp_file_path, "w", encoding="utf-8") as f:
-                f.write(orjson.dumps(doc_item, option=orjson.OPT_INDENT_2).decode('utf-8'))
+                f.write(orjson.dumps(doc_item, option=orjson.OPT_INDENT_2).decode("utf-8"))
        except Exception as e:
            logger.error(f"保存缓存文件失败：{pg_hash}, 错误：{e}")
            # 如果保存失败，确保不会留下损坏的文件
@@ -201,10 +202,10 @@ def main():  # sourcery skip: comprehension-to-generator, extract-method
        with open(output_path, "w", encoding="utf-8") as f:
            f.write(
                orjson.dumps(
-                openie_obj.to_dict() if hasattr(openie_obj, "to_dict") else openie_obj.__dict__,
-                option=orjson.OPT_INDENT_2
-            ).decode('utf-8')
-                )
+                    openie_obj.to_dict() if hasattr(openie_obj, "to_dict") else openie_obj.__dict__,
+                    option=orjson.OPT_INDENT_2,
+                ).decode("utf-8")
+            )
        logger.info(f"信息提取结果已保存到: {output_path}")
    else:
        logger.warning("没有可保存的信息提取结果")