单模型测试
测试任意模型,并查看回答质量与性能。
- • 实时回答视图
- • 延迟与吞吐量
- • 成本估算
- • 历史记录追踪
A/B 对比
通过盲测与投票并排对比两个模型。
- • 并排回答
- • 盲测模式
- • 投票与评分
- • 性能对比
高级能力
流式输出、工具调用、JSON 模式等。
- • 流式回答
- • 工具调用测试
- • JSON 输出
- • 自定义参数
模型即将上线
GPT-4GPT-5Claude 3.5 SonnetGemini ProLlama 3Mistral LargeDeepSeek V3更多模型...
