Files
Mofox-Core/llm_tool_benchmark_results.json
2025-04-24 14:18:41 +08:00

71 lines
2.6 KiB
JSON
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

{
"测试时间": "2025-04-24 13:22:36",
"测试迭代次数": 3,
"不使用工具调用": {
"平均耗时": 3.1020479996999106,
"最短耗时": 2.980656862258911,
"最长耗时": 3.2487313747406006,
"标准差": 0.13581516492157006,
"所有耗时": [
2.98,
3.08,
3.25
]
},
"不使用工具调用_详细响应": [
{
"内容摘要": "那个猫猫头表情包真的太可爱了,墨墨发的表情包也好萌,感觉可以分享一下我收藏的猫猫头系列",
"推理内容摘要": ""
},
{
"内容摘要": "那个猫猫头表情包确实很魔性,我存了好多张,每次看到都觉得特别治愈。墨墨好像也喜欢这种可爱的表情包,可以分享一下我收藏的。",
"推理内容摘要": ""
},
{
"内容摘要": "那个猫猫头表情包真的超可爱,我存了好多张,每次看到都会忍不住笑出来。墨墨发的表情包也好萌,感觉可以和大家分享一下我收藏的猫猫头。\n\n工具无",
"推理内容摘要": ""
}
],
"使用工具调用": {
"平均耗时": 7.927528937657674,
"最短耗时": 5.714647531509399,
"最长耗时": 11.046205997467041,
"标准差": 2.778799784731646,
"所有耗时": [
7.02,
11.05,
5.71
]
},
"使用工具调用_详细响应": [
{
"内容摘要": "这个猫猫头表情包确实挺有意思的不过他们好像还在讨论版本问题。小千石在问3.8和3.11谁大,这挺简单的。",
"推理内容摘要": "",
"工具调用数量": 1,
"工具调用详情": [
{
"工具名称": "compare_numbers",
"参数": "{\"num1\":3.8,\"num2\":3.11}"
}
]
},
{
"内容摘要": "3.8和3.11谁大这个问题有点突然,不过可以简单比较一下。可能小千石在测试我或者真的想知道答案。现在群里的话题有点分散,既有技术讨论又有表情包的话题,我还是先回答数字比较的问题好了,毕竟比较直接。",
"推理内容摘要": "",
"工具调用数量": 1,
"工具调用详情": [
{
"工具名称": "compare_numbers",
"参数": "{\"num1\":3.8,\"num2\":3.11}"
}
]
},
{
"内容摘要": "他们还在纠结调试消息的事儿不过好像讨论得差不多了。猫猫头表情包确实挺有意思的但感觉聊得有点散了哦。小千石问3.8和3.11谁大,这个问题可以回答一下。",
"推理内容摘要": "",
"工具调用数量": 0,
"工具调用详情": []
}
],
"差异百分比": 155.56
}