| UNITAN.AI MODEL EVALUATION CENTER test.unitan.ai | |||||||||||
|
Overall Ranking
Dimensions
Provider Test
Rubric Judge
Methodology
Admin Console
Loading...
|
多维度大模型测评公开基准 + 私有题库 + 盲评偏好 + API 服务质量,分开计量,合并展示。
可比较:成功率、响应时间、TTFB、token 消耗、成本、错误率、重试、输出完整度、格式遵循和生成质量。
等待评分...
国际通用维度没有唯一官方数量。本网站采用 10 个行业常见维度:知识、推理、数学、代码、指令遵循、真实性、安全、多语言、长上下文、多模态。 评测依据分为四类:公开 benchmark、Unitan 私有题库、人工/LLM 盲评、线上 API 运行质量。总体榜单使用加权平均;维度页保留单项成绩,避免一个高分掩盖关键短板。 服务商测试要和模型能力分开:同一个模型在官方 API 与第三方 API 上,重点看延迟、成功率、成本、限流、错误、输出完整度、可复现性和媒体质量。 |
||||||||||
| Copyright 2026 Unitan.ai | Scores shown here are seeded demo data until connected to live benchmark runs. | |||||||||||