方法論

兩種評測軌

TWBench 同時收錄兩種跑分方式：

Auto track（🤖）：透過官方 API 自動跑（Gemini, Llama, Qwen, DeepSeek, GitHub Models）。Cloudflare Worker cron 每月觸發。
Manual track（👤）：透過 claude.ai / chatgpt.com 等網頁版手動跑。

兩種結果可能不同 — 網頁版有預設 system prompt、artifacts/canvas、自動工具使用、不同的 thinking 預設值。我們把這兩種版本分開列。標題會明寫 model 來源（例如 Claude Opus 4.7 (claude.ai, Pro)）。

跑分設定

每題開新對話 / 新 session（避免上下文汙染）
不開 artifacts / canvas / 工具使用（除非 bench 明確要求）
預設 thinking 模式
溫度：API 軌道設 0；訂閱軌道用網頁版預設值

Mini-batch 揭露

Manual track 採用「mini-batch 5 題」設計：一次貼 5 題給模型回答、再貼回平台。這比「一題一對話」快 5×，但**會引入有限的跨題上下文汙染**。我們選擇這個折衷是為了在合理時間內收集足夠資料，但**會在每題的 detail 頁標明它在哪個 batch 第幾位**，方便讀者自行判斷。

題庫不變性

題目是 content-addressed（用 hash 當 ID）。題目修改 = 新 hash，舊資料不會被汙染。 Prompt template 也是版本化的，同一題在不同 prompt 版本下的分數會分開呈現。

評分

Judge model: gemini-2.5-flash（免費）。每題用同一個 rubric prompt 評分，輸出 JSON：總分、各維度分、reasoning。 Detail 頁公開所有 judge prompt 與輸出，可被審計。

成本透明

每筆 run 都記錄 input/output tokens、延遲、估算成本（NTD）。 Leaderboard 同時顯示「準確率」與「每題成本」，讓你選 model 時兼顧預算。