gemma4:12b-it-qat
safe_daily兩題通過、`100% GPU`,作為日常機敏工作第一順位。
MAINPC local model workflow
整理 RTX 5080 16GB VRAM(顯示記憶體)+ 64GB RAM(系統記憶體)上,哪些 Ollama model(本機模型)適合日常機敏 coding agent workflow(程式代理工作流),並建立 Gemma4 daily(每日)與 GPT-OSS fallback(備援)使用路徑。
開始使用
把任務、允許讀取範圍、禁止範圍與輸出格式先寫進同一份 Markdown。
.\prompts\current_task.md
`gemma4:12b-it-qat` 是量化測試後的優先候選;保守對照可用 `gemma4:12b`。
.\scripts\invoke-local-codex-model.ps1 -Mode daily -PromptFile .\prompts\current_task.md
同一份 prompt 轉跑 `gpt-oss:20b-ctx32k`,比對兩份回答,不讓任一模型直接改檔。
.\scripts\invoke-local-codex-model.ps1 -Mode fallback -PromptFile .\prompts\current_task.md
Model decision
分類依據包含 correctness(正確性)、multi-file reasoning(多檔推理)、safety(安全性)、speed(速度)、stability(穩定性)與 VRAM/RAM placement(顯示記憶體 / 系統記憶體放置)。
gemma4:12b-it-qat兩題通過、`100% GPU`,作為日常機敏工作第一順位。
gemma4:12b穩定 default(預設)版本,32K / 128K / 262K context 都維持 `100% GPU`。
gpt-oss:20b品質與推理較強;長 context 會 mixed placement(混合放置),建議用 32K variant。
Evaluation scope
RTX 5080 16GB VRAM 是主要瓶頸,避免預設推薦 70B class(等級)模型。
Gemma4 在 32K、128K、262K 都維持 `100% GPU`;GPT-OSS 降到 32K 後改善 placement(放置)。
Gemma4 QAT / Q4 適合日常,Q8 在 16GB VRAM 下不划算;Qwen Q5 未改善 correctness(正確性)。
移除 stress / reject models(壓力 / 排除模型)與 temporary variants(暫時變體),維持 `D:\Gemma\models` 空間水位。
Architecture
| 輸出檔 | 內容 |
|---|---|
config/model_constraints.yaml | 硬體限制、模型分類與 daily sensitive work(機敏日常工作)標記 |
docs/local_model_validation_results.md | 分數、context A/B、quantization A/B 與 cleanup(清理)紀錄 |
docs/fallback_workflow.md | Gemma4 不夠正確時切 GPT-OSS 32K 的流程 |
docs/showcase/gemma4-local-guide.html | Gemma4 12B 機敏工作調用教學 |
MAINPC hardware constraints -> Ollama models at D:\Gemma\models -> Codex CLI --local-provider ollama -> read-only benchmark evidence -> human review before patch
powershell -ExecutionPolicy Bypass -File .\scripts\invoke-local-codex-model.ps1 `
-Mode daily `
-WorkDir D:\Codex\ai-local-model-benchmark `
-PromptFile .\prompts\current_task.md
# Codex CLI + Ollama local provider;輸出進 docs\local_model_runs\