方法論
兩種評測軌
TWBench 同時收錄兩種跑分方式:
- Auto track(🤖):透過官方 API 自動跑(Gemini, Llama, Qwen, DeepSeek, GitHub Models)。Cloudflare Worker cron 每月觸發。
- Manual track(👤):透過
claude.ai/chatgpt.com等網頁版手動跑。
兩種結果可能不同 — 網頁版有預設 system prompt、artifacts/canvas、自動工具使用、不同的 thinking 預設值。 我們把這兩種版本分開列。標題會明寫 model 來源(例如 Claude Opus 4.7 (claude.ai, Pro))。
跑分設定
- 每題開新對話 / 新 session(避免上下文汙染)
- 不開 artifacts / canvas / 工具使用(除非 bench 明確要求)
- 預設 thinking 模式
- 溫度:API 軌道設
0;訂閱軌道用網頁版預設值
Mini-batch 揭露
Manual track 採用「mini-batch 5 題」設計:一次貼 5 題給模型回答、再貼回平台。 這比「一題一對話」快 5×,但**會引入有限的跨題上下文汙染**。 我們選擇這個折衷是為了在合理時間內收集足夠資料, 但**會在每題的 detail 頁標明它在哪個 batch 第幾位**,方便讀者自行判斷。
題庫不變性
題目是 content-addressed(用 hash 當 ID)。 題目修改 = 新 hash,舊資料不會被汙染。 Prompt template 也是版本化的,同一題在不同 prompt 版本下的分數會分開呈現。
評分
Judge model: gemini-2.5-flash(免費)。 每題用同一個 rubric prompt 評分,輸出 JSON:總分、各維度分、reasoning。 Detail 頁公開所有 judge prompt 與輸出,可被審計。
成本透明
每筆 run 都記錄 input/output tokens、延遲、估算成本(NTD)。 Leaderboard 同時顯示「準確率」與「每題成本」, 讓你選 model 時兼顧預算。