UNITAN.AI MODEL EVALUATION CENTER test.unitan.ai

多维度大模型测评

公开基准 + 私有题库 + 盲评偏好 + API 服务质量,分开计量,合并展示。

Overall RankingWeighted score / 100
Common Evaluation Dimensions10-dimension framework
Provider Quality TestSame prompt, parallel API calls
可比较:成功率、响应时间、TTFB、token 消耗、成本、错误率、重试、输出完整度、格式遵循和生成质量。
Rubric JudgeLLM-as-a-judge JSON scoring
等待评分...
MethodologyEvidence and rules

国际通用维度没有唯一官方数量。本网站采用 10 个行业常见维度:知识、推理、数学、代码、指令遵循、真实性、安全、多语言、长上下文、多模态。

评测依据分为四类:公开 benchmark、Unitan 私有题库、人工/LLM 盲评、线上 API 运行质量。总体榜单使用加权平均;维度页保留单项成绩,避免一个高分掩盖关键短板。

服务商测试要和模型能力分开:同一个模型在官方 API 与第三方 API 上,重点看延迟、成功率、成本、限流、错误、输出完整度、可复现性和媒体质量。