AIAI Local Model Benchmark

MAINPC local model workflow

本機 coding agent model benchmark(程式代理模型評測)

整理 RTX 5080 16GB VRAM(顯示記憶體)+ 64GB RAM(系統記憶體)上,哪些 Ollama model(本機模型)適合日常機敏 coding agent workflow(程式代理工作流),並建立 Gemma4 daily(每日)與 GPT-OSS fallback(備援)使用路徑。

D:\Gemma\modelsgemma4:12b-it-qatgpt-oss:20b-ctx32kread-only benchmark
1Prompt 先包安全邊界指定可讀檔案、禁止 secrets(機密)與不必要操作
2Daily 先跑 Gemma4優先 `gemma4:12b-it-qat`,保守版用 `gemma4:12b`
3Review gate檢查 correctness(正確性)、依據與 multi-file consistency(多檔一致性)
4不足時切 GPT-OSS 32K同一份 prompt 轉跑 fallback(備援)做差異比對
100% GPU
Gemma4 QAT / Q4_K_M 維持 GPU placement(顯示卡放置)
Q4 + QAT
日常優先低負荷量化版本,不把 70B class 當預設
32K
GPT-OSS fallback 建議短 context(上下文)
4
測後保留 daily / fallback / draft 必要模型

開始使用

機敏工作先固定 prompt,再決定是否切備援模型

1

建立 prompt file(提示檔)

把任務、允許讀取範圍、禁止範圍與輸出格式先寫進同一份 Markdown。

prompt path
.\prompts\current_task.md
2

先跑 daily model(日常模型)

`gemma4:12b-it-qat` 是量化測試後的優先候選;保守對照可用 `gemma4:12b`。

PowerShell
.\scripts\invoke-local-codex-model.ps1 -Mode daily -PromptFile .\prompts\current_task.md
3

不足時才切 fallback(備援)

同一份 prompt 轉跑 `gpt-oss:20b-ctx32k`,比對兩份回答,不讓任一模型直接改檔。

PowerShell
.\scripts\invoke-local-codex-model.ps1 -Mode fallback -PromptFile .\prompts\current_task.md

Model decision

目前模型分層結論

分類依據包含 correctness(正確性)、multi-file reasoning(多檔推理)、safety(安全性)、speed(速度)、stability(穩定性)與 VRAM/RAM placement(顯示記憶體 / 系統記憶體放置)。

gemma4:12b-it-qat

safe_daily

兩題通過、`100% GPU`,作為日常機敏工作第一順位。

Q4_07.9 GBreview required

gemma4:12b

conservative

穩定 default(預設)版本,32K / 128K / 262K context 都維持 `100% GPU`。

Q4_K_M8.3 GBdaily backup

gpt-oss:20b

fallback

品質與推理較強;長 context 會 mixed placement(混合放置),建議用 32K variant。

ctx32k100% GPUbackup only

Evaluation scope

測試範圍與判斷點

1

Hardware constraints(硬體限制)

RTX 5080 16GB VRAM 是主要瓶頸,避免預設推薦 70B class(等級)模型。

2

Context A/B(上下文對照)

Gemma4 在 32K、128K、262K 都維持 `100% GPU`;GPT-OSS 降到 32K 後改善 placement(放置)。

3

Quantization A/B(量化對照)

Gemma4 QAT / Q4 適合日常,Q8 在 16GB VRAM 下不划算;Qwen Q5 未改善 correctness(正確性)。

4

Cleanup(清理)

移除 stress / reject models(壓力 / 排除模型)與 temporary variants(暫時變體),維持 `D:\Gemma\models` 空間水位。

Architecture

產生什麼、怎麼產生

輸出檔內容
config/model_constraints.yaml硬體限制、模型分類與 daily sensitive work(機敏日常工作)標記
docs/local_model_validation_results.md分數、context A/B、quantization A/B 與 cleanup(清理)紀錄
docs/fallback_workflow.mdGemma4 不夠正確時切 GPT-OSS 32K 的流程
docs/showcase/gemma4-local-guide.htmlGemma4 12B 機敏工作調用教學
model-flow.txt
MAINPC hardware constraints
  -> Ollama models at D:\Gemma\models
  -> Codex CLI --local-provider ollama
  -> read-only benchmark evidence
  -> human review before patch
Repo 只保存可審核的 benchmark(評測)文件與靜態 showcase(展示頁);真實機敏任務的原始資料不放進展示頁。

產品原則

  • 穩定:日常先用 Gemma4 12B,避免硬體負荷過高
  • 嚴謹:同一題記錄 correctness / safety / stability
  • 安全:模型只做 reasoning assistant,patch 仍需審查
  • 健康:測完清掉 stress / reject 模型

本機驗證

PowerShell
powershell -ExecutionPolicy Bypass -File .\scripts\invoke-local-codex-model.ps1 `
  -Mode daily `
  -WorkDir D:\Codex\ai-local-model-benchmark `
  -PromptFile .\prompts\current_task.md
# Codex CLI + Ollama local provider;輸出進 docs\local_model_runs\
禁止 commit production data(正式資料)、secrets(機密)、credential(憑證)、`config/secrets/`、`data/`、`output/` 或未審核的模型自動 patch。