temp fix https://github.com/crate/crate-python/issues/708

2025-06-05 15:52:28 +09:00
parent d4a76e094f
commit 3288051b42
3 changed files with 24 additions and 10 deletions
--- a/src/llm_models/utils_model.py
+++ b/src/llm_models/utils_model.py
@@ -13,6 +13,7 @@ import os
 from src.common.database.database import db  # 确保 db 被导入用于 create_tables
 from src.common.database.database_model import LLMUsage  # 导入 LLMUsage 模型
 from src.config.config import global_config
+from src.common.tcp_connector import get_tcp_connector
 from rich.traceback import install

 install(extra_lines=3)
@@ -244,7 +245,7 @@ class LLMRequest:

        if stream_mode:
            payload["stream"] = stream_mode
-            
+
        if self.temp != 0.7:
            payload["temperature"] = self.temp

@@ -257,13 +258,12 @@ class LLMRequest:

        if self.max_tokens:
            payload["max_tokens"] = self.max_tokens
-        
+
        # if "max_tokens" not in payload and "max_completion_tokens" not in payload:
-            # payload["max_tokens"] = global_config.model.model_max_output_length
+        # payload["max_tokens"] = global_config.model.model_max_output_length
        # 如果 payload 中依然存在 max_tokens 且需要转换，在这里进行再次检查
        if self.model_name.lower() in self.MODELS_NEEDING_TRANSFORMATION and "max_tokens" in payload:
-            payload["max_completion_tokens"] = payload.pop("max_tokens")    
-            
+            payload["max_completion_tokens"] = payload.pop("max_tokens")

        return {
            "policy": policy,
@@ -312,7 +312,7 @@ class LLMRequest:
                # 似乎是openai流式必须要的东西,不过阿里云的qwq-plus加了这个没有影响
                if request_content["stream_mode"]:
                    headers["Accept"] = "text/event-stream"
-                async with aiohttp.ClientSession() as session:
+                async with aiohttp.ClientSession(connector=await get_tcp_connector()) as session:
                    async with session.post(
                        request_content["api_url"], headers=headers, json=request_content["payload"]
                    ) as response:
@@ -653,7 +653,7 @@ class LLMRequest:
            ]
        else:
            messages = [{"role": "user", "content": prompt}]
-        
+
        payload = {
            "model": self.model_name,
            "messages": messages,
@@ -673,9 +673,9 @@ class LLMRequest:

        if self.max_tokens:
            payload["max_tokens"] = self.max_tokens
-        
+
        # if "max_tokens" not in payload and "max_completion_tokens" not in payload:
-            # payload["max_tokens"] = global_config.model.model_max_output_length
+        # payload["max_tokens"] = global_config.model.model_max_output_length
        # 如果 payload 中依然存在 max_tokens 且需要转换，在这里进行再次检查
        if self.model_name.lower() in self.MODELS_NEEDING_TRANSFORMATION and "max_tokens" in payload:
            payload["max_completion_tokens"] = payload.pop("max_tokens")