MAINPC local model workflow

本機 coding agent model benchmark（程式代理模型評測）

整理 RTX 5080 16GB VRAM（顯示記憶體）+ 64GB RAM（系統記憶體）上，哪些 Ollama model（本機模型）適合日常機敏 coding agent workflow（程式代理工作流），並建立 Gemma4 daily（每日）與 GPT-OSS fallback（備援）使用路徑。

開始使用看模型結論 Gemma4 教學

D:\Gemma\modelsgemma4:12b-it-qatgpt-oss:20b-ctx32kread-only benchmark

1Prompt 先包安全邊界指定可讀檔案、禁止 secrets（機密）與不必要操作

2Daily 先跑 Gemma4優先 `gemma4:12b-it-qat`，保守版用 `gemma4:12b`

3Review gate檢查 correctness（正確性）、依據與 multi-file consistency（多檔一致性）

4不足時切 GPT-OSS 32K同一份 prompt 轉跑 fallback（備援）做差異比對

100% GPU

Gemma4 QAT / Q4_K_M 維持 GPU placement（顯示卡放置）

Q4 + QAT

日常優先低負荷量化版本，不把 70B class 當預設

32K

GPT-OSS fallback 建議短 context（上下文）

4

測後保留 daily / fallback / draft 必要模型

開始使用

機敏工作先固定 prompt，再決定是否切備援模型

1

建立 prompt file（提示檔）

把任務、允許讀取範圍、禁止範圍與輸出格式先寫進同一份 Markdown。

prompt path

.\prompts\current_task.md

2

先跑 daily model（日常模型）

`gemma4:12b-it-qat` 是量化測試後的優先候選；保守對照可用 `gemma4:12b`。

PowerShell

.\scripts\invoke-local-codex-model.ps1 -Mode daily -PromptFile .\prompts\current_task.md

3

不足時才切 fallback（備援）

同一份 prompt 轉跑 `gpt-oss:20b-ctx32k`，比對兩份回答，不讓任一模型直接改檔。

PowerShell

.\scripts\invoke-local-codex-model.ps1 -Mode fallback -PromptFile .\prompts\current_task.md

Model decision

目前模型分層結論

分類依據包含 correctness（正確性）、multi-file reasoning（多檔推理）、safety（安全性）、speed（速度）、stability（穩定性）與 VRAM/RAM placement（顯示記憶體 / 系統記憶體放置）。

`gemma4:12b-it-qat`

safe_daily

兩題通過、`100% GPU`，作為日常機敏工作第一順位。

Q4_07.9 GBreview required

`gemma4:12b`

conservative

穩定 default（預設）版本，32K / 128K / 262K context 都維持 `100% GPU`。

Q4_K_M8.3 GBdaily backup

`gpt-oss:20b`

fallback

品質與推理較強；長 context 會 mixed placement（混合放置），建議用 32K variant。

ctx32k100% GPUbackup only

Evaluation scope

測試範圍與判斷點

1

Hardware constraints（硬體限制）

RTX 5080 16GB VRAM 是主要瓶頸，避免預設推薦 70B class（等級）模型。

2

Context A/B（上下文對照）

Gemma4 在 32K、128K、262K 都維持 `100% GPU`；GPT-OSS 降到 32K 後改善 placement（放置）。

3

Quantization A/B（量化對照）

Gemma4 QAT / Q4 適合日常，Q8 在 16GB VRAM 下不划算；Qwen Q5 未改善 correctness（正確性）。

4

Cleanup（清理）

移除 stress / reject models（壓力 / 排除模型）與 temporary variants（暫時變體），維持 `D:\Gemma\models` 空間水位。

Architecture

產生什麼、怎麼產生

輸出檔	內容
`config/model_constraints.yaml`	硬體限制、模型分類與 daily sensitive work（機敏日常工作）標記
`docs/local_model_validation_results.md`	分數、context A/B、quantization A/B 與 cleanup（清理）紀錄
`docs/fallback_workflow.md`	Gemma4 不夠正確時切 GPT-OSS 32K 的流程
`docs/showcase/gemma4-local-guide.html`	Gemma4 12B 機敏工作調用教學

model-flow.txt

MAINPC hardware constraints
  -> Ollama models at D:\Gemma\models
  -> Codex CLI --local-provider ollama
  -> read-only benchmark evidence
  -> human review before patch

Repo 只保存可審核的 benchmark（評測）文件與靜態 showcase（展示頁）；真實機敏任務的原始資料不放進展示頁。

產品原則

✓穩定：日常先用 Gemma4 12B，避免硬體負荷過高
✓嚴謹：同一題記錄 correctness / safety / stability
✓安全：模型只做 reasoning assistant，patch 仍需審查
✓健康：測完清掉 stress / reject 模型

本機驗證

PowerShell

powershell -ExecutionPolicy Bypass -File .\scripts\invoke-local-codex-model.ps1 `
  -Mode daily `
  -WorkDir D:\Codex\ai-local-model-benchmark `
  -PromptFile .\prompts\current_task.md
# Codex CLI + Ollama local provider；輸出進 docs\local_model_runs\

禁止 commit production data（正式資料）、secrets（機密）、credential（憑證）、`config/secrets/`、`data/`、`output/` 或未審核的模型自動 patch。