方法論

兩種評測軌

TWBench 同時收錄兩種跑分方式:

  • Auto track(🤖):透過官方 API 自動跑(Gemini, Llama, Qwen, DeepSeek, GitHub Models)。Cloudflare Worker cron 每月觸發。
  • Manual track(👤):透過 claude.ai / chatgpt.com 等網頁版手動跑。

兩種結果可能不同 — 網頁版有預設 system prompt、artifacts/canvas、自動工具使用、不同的 thinking 預設值。 我們把這兩種版本分開列。標題會明寫 model 來源(例如 Claude Opus 4.7 (claude.ai, Pro))。

跑分設定

  • 每題開新對話 / 新 session(避免上下文汙染)
  • 不開 artifacts / canvas / 工具使用(除非 bench 明確要求)
  • 預設 thinking 模式
  • 溫度:API 軌道設 0;訂閱軌道用網頁版預設值

Mini-batch 揭露

Manual track 採用「mini-batch 5 題」設計:一次貼 5 題給模型回答、再貼回平台。 這比「一題一對話」快 5×,但**會引入有限的跨題上下文汙染**。 我們選擇這個折衷是為了在合理時間內收集足夠資料, 但**會在每題的 detail 頁標明它在哪個 batch 第幾位**,方便讀者自行判斷。

題庫不變性

題目是 content-addressed(用 hash 當 ID)。 題目修改 = 新 hash,舊資料不會被汙染。 Prompt template 也是版本化的,同一題在不同 prompt 版本下的分數會分開呈現。

評分

Judge model: gemini-2.5-flash(免費)。 每題用同一個 rubric prompt 評分,輸出 JSON:總分、各維度分、reasoning。 Detail 頁公開所有 judge prompt 與輸出,可被審計。

成本透明

每筆 run 都記錄 input/output tokens、延遲、估算成本(NTD)。 Leaderboard 同時顯示「準確率」與「每題成本」, 讓你選 model 時兼顧預算。

TWBench — a linpolly.com labW1 · internal preview