多维度大模型测评

公开基准 + 私有题库 + 盲评偏好 + API 服务质量，分开计量，合并展示。

Overall Ranking

Weighted score / 100

Common Evaluation Dimensions

10-dimension framework

Provider Quality Test

Same prompt, parallel API calls

测试提示词

模型覆盖

可比较：成功率、响应时间、TTFB、token 消耗、成本、错误率、重试、输出完整度、格式遵循和生成质量。

Rubric Judge

LLM-as-a-judge JSON scoring

评测任务

待评分输出

维度

等待评分...

Methodology

Evidence and rules

国际通用维度没有唯一官方数量。本网站采用 10 个行业常见维度：知识、推理、数学、代码、指令遵循、真实性、安全、多语言、长上下文、多模态。

评测依据分为四类：公开 benchmark、Unitan 私有题库、人工/LLM 盲评、线上 API 运行质量。总体榜单使用加权平均；维度页保留单项成绩，避免一个高分掩盖关键短板。

服务商测试要和模型能力分开：同一个模型在官方 API 与第三方 API 上，重点看延迟、成功率、成本、限流、错误、输出完整度、可复现性和媒体质量。