G4Gemma4 12B Local Guide

Local sensitive workflow

用 Gemma4 12B 處理機敏 coding 工作

這份互動式教學把 local model(本機模型)調用流程拆成:確認路徑、包好 prompt(提示)、先跑 daily(每日模型)、必要時切 GPT-OSS fallback(備援),最後人工審查。

gemma4:12b-it-qatgemma4:12bD:\Gemma\modelsCodex CLI + Ollama
1固定模型路徑`OLLAMA_MODELS=D:\Gemma\models`
2包好 prompt 安全邊界只允許讀指定檔案,禁止 secrets / data / output
3Gemma4 回答不夠好再切 fallback同一份 prompt 跑 `gpt-oss:20b-ctx32k` 比對
QAT
`gemma4:12b-it-qat` 是優先 daily candidate(日常候選)
100% GPU
Gemma4 QAT / Q4_K_M 測試維持 GPU placement
128K
日常 repo docs(文件)建議先用 128K 或更低 context
review
多檔推理仍需 Codex / 人工二次審查

開始使用

三步調用流程

1

確認 Ollama storage

大型模型固定放在 `D:\Gemma\models`,避免灌爆 system drive(系統碟)。

PowerShell
$env:OLLAMA_MODELS = "D:\Gemma\models"
ollama list
2

先跑 Gemma4 daily

用已包好的 prompt file(提示檔)跑 daily 模式。

PowerShell
.\scripts\invoke-local-codex-model.ps1 `
  -Mode daily `
  -PromptFile .\prompts\current_task.md
3

不足時切 GPT-OSS

Gemma4 的依據不足、推理矛盾或新增未要求動作時,用同題 fallback。

PowerShell
.\scripts\invoke-local-codex-model.ps1 `
  -Mode fallback `
  -PromptFile .\prompts\current_task.md

Prompt builder

先把安全邊界包好

這個互動區只在瀏覽器內組字串,不讀取本機檔案,也不呼叫外部 API。

任務類型

產生 prompt

ready

審查清單

0 / 5 checked

Context 設定觀察

observed.txt
gemma4:12b
  -> Q4_K_M
  -> 262144 context length
  -> 8.3 GB
  -> 100% GPU

gemma4:12b-it-qat
  -> Q4_0
  -> 7.9 GB
  -> 100% GPU
i日常機敏工作建議先用 Gemma4 12B,只有當回答不夠正確或依據不足時,才用 GPT-OSS 32K fallback(備援)做差異比對。