refactor(chat): 优化错别字生成器逻辑与文档

对中文错别字生成器(`ChineseTypoGenerator`)进行了大规模重构和改进,以提升代码的可读性、可维护性和生成质量。

主要变更包括:
- **逻辑拆分**: 将核心的单字替换逻辑从主函数 `create_typo_sentence` 中提取到新的私有方法 `_char_replace`,使主流程更清晰。
- **文档增强**: 全面重写和丰富了所有主要方法的文档字符串(docstrings),详细解释了每个参数的用途、函数的内部工作原理和设计决策,显著提高了代码的可理解性。
- **代码简化**: 优化了同音词的查找逻辑(`_get_word_homophones`),移除了复杂的评分和文件读取过程,直接利用 `jieba.dt.FREQ` 进行有效性验证,使代码更简洁高效。
- **健壮性提升**: 在拼音转换和处理逻辑中增加了更具体的异常捕获(`IndexError`, `TypeError`),提高了代码的稳定性。
- **修正建议格式**: 将修正建议的返回格式从单个字符串更改为 `(错字/词, 正确字/词)` 的元组,提供了更完整的上下文信息。

此外,在 `generator_api.py` 中移除了一段冗余的内容类型检查代码。
This commit is contained in:
minecraft1024a
2025-09-06 20:09:17 +08:00
committed by Windpicker-owo
parent 667be49a95
commit 33e8e054c9
2 changed files with 121 additions and 102 deletions

View File

@@ -254,8 +254,6 @@ def process_human_text(
enable_splitter: 是否启用消息分割器
enable_chinese_typo: 是否启用错字生成器
"""
if isinstance(content, list):
content = "".join(map(str, content))
if not isinstance(content, str):
raise ValueError("content 必须是字符串类型")
try: