Ollama model llama-guard3:8b - Tricked

Mashiane · May 7, 2026

Mashiane said:
Let me try this out...

With Claude Code

B4X:

ollama launch claude --model nemotron-3-nano:30b-cloud

With GitHub Copilot..

B4X:

ollama launch vscode --model nemotron-3-nano:30b-cloud

Alright, alright, alright... time is gonna tell

Daestrum · May 7, 2026

@Mashiane It does run nicely, locally, on really low hardware (no dedicated GPU) I get 13-17 tokens/sec (via LLM Studio). I have 64GB RAM, iGPU grabs 30GB. (only slightly slower than Qwen 3.6 35B model running locally)

Ollama model llama-guard3:8b - Tricked

Mashiane

Expert

Daestrum

Expert