Local sensitive workflow
用 Gemma4 12B 處理機敏 coding 工作
這份互動式教學把 local model(本機模型)調用流程拆成:確認路徑、包好 prompt(提示)、先跑 daily(每日模型)、必要時切 GPT-OSS fallback(備援),最後人工審查。
gemma4:12b-it-qatgemma4:12bD:\Gemma\modelsCodex CLI + Ollama
1固定模型路徑`OLLAMA_MODELS=D:\Gemma\models`
2包好 prompt 安全邊界只允許讀指定檔案,禁止 secrets / data / output
3Gemma4 回答不夠好再切 fallback同一份 prompt 跑 `gpt-oss:20b-ctx32k` 比對
QAT
`gemma4:12b-it-qat` 是優先 daily candidate(日常候選)100% GPU
Gemma4 QAT / Q4_K_M 測試維持 GPU placement128K
日常 repo docs(文件)建議先用 128K 或更低 contextreview
多檔推理仍需 Codex / 人工二次審查開始使用
三步調用流程
1
確認 Ollama storage
大型模型固定放在 `D:\Gemma\models`,避免灌爆 system drive(系統碟)。
PowerShell
$env:OLLAMA_MODELS = "D:\Gemma\models" ollama list
2
先跑 Gemma4 daily
用已包好的 prompt file(提示檔)跑 daily 模式。
PowerShell
.\scripts\invoke-local-codex-model.ps1 ` -Mode daily ` -PromptFile .\prompts\current_task.md
3
不足時切 GPT-OSS
Gemma4 的依據不足、推理矛盾或新增未要求動作時,用同題 fallback。
PowerShell
.\scripts\invoke-local-codex-model.ps1 ` -Mode fallback ` -PromptFile .\prompts\current_task.md
Prompt builder
先把安全邊界包好
這個互動區只在瀏覽器內組字串,不讀取本機檔案,也不呼叫外部 API。
✓任務類型
產生 prompt
ready
✓審查清單
0 / 5 checked
Context 設定觀察
observed.txt
gemma4:12b -> Q4_K_M -> 262144 context length -> 8.3 GB -> 100% GPU gemma4:12b-it-qat -> Q4_0 -> 7.9 GB -> 100% GPU
i日常機敏工作建議先用 Gemma4 12B,只有當回答不夠正確或依據不足時,才用 GPT-OSS 32K fallback(備援)做差異比對。