為什麼大公司付 API 月費,聰明的獨立工作者用本地模型
你用 ChatGPT Plus 每月付 $20 美金。用 Claude Pro 每月 $20 美金。用 Notion AI 每月 $10 美金。
一年下來,光是 AI 訂閱就燒掉 $600 美金,而且你的每一段對話、每一份文件、每一個商業機密,都經過別人的伺服器。
有一種方法,讓 AI 在你自己的電腦上跑。不付月費。資料不出門。速度比 API 更快。
這不是次等方案。這是一種選擇:選擇隱私優先、選擇成本自主、選擇不把你的商業智慧交給矽谷的雲端。
OpenClaw 支援本地模型。這篇文章教你怎麼設定,從零開始。
本地模型 vs 雲端 API:四個維度的真實比較
| 維度 | 雲端 API(ChatGPT/Claude) | 本地模型(Ollama) |
|---|---|---|
| 隱私 | 資料經第三方伺服器 | 資料不出你的電腦 |
| 月費 | $10-20/月/人 | $0(一次性硬體投資) |
| 速度 | 受網路延遲影響,高峰期變慢 | 本地即時回應,不受網路影響 |
| 品質 | 頂級(GPT-4o、Claude 3.5 Sonnet) | 接近頂級(qwen2.5:32b 約 90% 品質) |
| 硬體需求 | 無(瀏覽器就能用) | 需要 Apple Silicon Mac 或高階 GPU |
| 離線可用 | 否 | 是 |
關鍵問題是:你用 AI 做什麼?
如果你需要最頂級的推理能力,寫複雜程式、做深度研究、處理模糊指令,雲端 API 仍然是最好的選擇。GPT-4o 和 Claude Opus 的能力,本地模型還追不上。
但如果你的日常是:摘要文件、分類信件、翻譯文章、整理知識庫、生成初稿,本地 32B 模型做得到 90% 的品質,而且更快、更便宜、更隱私。
一人公司老闆 80% 的 AI 使用場景是後者。
推薦的本地模型:選哪個、為什麼
本地模型的世界很混亂,幾百個模型、幾十種格式、各種參數。我幫你濾掉雜訊,只推薦兩個:
首選:qwen2.5:32b
Qwen 是阿里巴巴開源的模型,32B 參數版本是目前本地模型裡中文能力最強的。
- 中文理解:頂級(比 Llama 系列好很多)
- 英文能力:接近 GPT-3.5 Turbo
- 記憶體需求:約 35GB(需要 64GB 以上的 Mac)
- 速度:M4 Max 上每秒 700-900 個 token,回應幾乎即時
- 適合:摘要、翻譯、分類、知識庫問答、初稿生成
如果你有 Apple Silicon Mac + 64GB 以上記憶體,選這個。
備選:qwen2.5:14b
如果你的記憶體只有 32GB,或者你用的是 Mac Mini M4(16GB/32GB),選 14B 版本。
- 記憶體需求:約 20GB
- 品質:比 32B 低一個檔次,但日常摘要和分類仍然夠用
- 速度:更快(模型更小,推理更快)
從零開始:Ollama + OpenClaw 本地部署教學
總共五步,不需要寫程式。
第一步:安裝 Ollama(2 分鐘)
Ollama 是本地模型的管理工具,類似 Docker 管理容器、Ollama 管理 AI 模型。
打開終端機(Terminal),執行:
curl -fsSL https://ollama.ai/install.sh | sh或者直接去 ollama.ai 下載 Mac 版安裝檔,拖進應用程式資料夾。
第二步:下載模型(5-15 分鐘)
ollama pull qwen2.5:32b第一次下載約 20GB,看你的網速。下載完成後,模型永久存在你的電腦上,不需要再下載。
如果記憶體不夠 64GB:
ollama pull qwen2.5:14b第三步:GPU 記憶體優化(Mac 用戶必做)
Apple Silicon Mac 的 GPU 和 CPU 共享記憶體。預設情況下,系統只給 GPU 一部分記憶體。你需要手動調高:
sudo sysctl iogpu.wired_limit_mb=121000這會把 GPU 可用記憶體提升到約 121GB(適用 128GB Mac)。如果你是 64GB Mac:
sudo sysctl iogpu.wired_limit_mb=57000注意:這個設定每次重開機後會失效,需要重新執行。
第四步:設定 Ollama 環境變數
在你的 shell 設定檔(~/.zshrc)加入:
export OLLAMA_NUM_PARALLEL=25
export OLLAMA_NUM_GPU=99
export OLLAMA_FLASH_ATTENTION=1
export OLLAMA_GPU_DRIVER=metal
export OLLAMA_HOST="127.0.0.1:11434"然後重新載入:
source ~/.zshrc這些參數的意思:
- NUM_PARALLEL=25:允許 25 個並行請求(一人公司通常 1-5 個就夠)
- NUM_GPU=99:盡量把模型全部放到 GPU 上(速度快 3-5 倍)
- FLASH_ATTENTION=1:啟用注意力優化(省記憶體、加速)
- GPU_DRIVER=metal:使用 Apple Metal 加速(Mac 專用)
第五步:OpenClaw 連接本地 Ollama
在 OpenClaw 的設定裡,把 AI 模型指向本地:
base_url: http://127.0.0.1:11434/v1
api_key: ollama-local
model_id: qwen2.5:32b完成。從此 OpenClaw 的所有 AI 功能都在你的電腦上執行,不經過任何外部伺服器。
實測效能:本地模型到底多快?
在 M4 Max 128GB 上測試 qwen2.5:32b:
| 任務 | 本地模型 | ChatGPT API |
|---|---|---|
| 摘要 10 頁 PDF | 45 秒 | 30 秒(含網路延遲) |
| 分類 50 封信件 | 2 分鐘 | 3 分鐘(API 限速) |
| 翻譯 2,000 字文章 | 90 秒 | 60 秒 |
| 知識庫問答(50 份文件) | 3 秒 | 5 秒(含網路延遲) |
| 生成 1,000 字初稿 | 20 秒 | 15 秒 |
速度差異在 10-50% 之間。對一人公司老闆來說,這個差異幾乎感覺不到。但你省下的是:每月 $20 美金 + 資料隱私的安心感。
成本比較:一年省多少?
| 方案 | 月費 | 年費 | 隱私 |
|---|---|---|---|
| ChatGPT Plus | $20 | $240 | 資料上雲 |
| Claude Pro | $20 | $240 | 資料上雲 |
| Notion AI | $10 | $120 | 資料上雲 |
| 全部加起來 | $50 | $600 | 全部上雲 |
| OpenClaw + 本地模型 | $0-9 | $0-108 | 資料不出門 |
差額:每年省 $492-600 美金。而且你的客戶資料、財務數據、商業機密,全部留在你自己的電腦上。
本地模型適合你嗎?三個判斷標準
你有 Apple Silicon Mac 嗎?
沒有 → 暫時不建議。Windows/Linux 可以用 NVIDIA GPU 跑,但設定複雜度高很多。等你換 Mac 再說。
有 → 繼續。
你的記憶體至少 32GB 嗎?
16GB → 可以跑 7B 模型,但品質差太多,不建議。
32GB → 可以跑 14B 模型,日常摘要分類夠用。
64GB+ → 可以跑 32B 模型,接近雲端 API 品質。
你處理敏感資料嗎?(客戶個資、財務、法律文件)
是 → 本地模型不是選項,是必要條件。
否 → 本地模型是「省錢 + 更快」的選擇,不是必須。
常見問題
Q:本地模型的中文能力好嗎?
A:qwen2.5 系列的中文能力在開源模型裡排第一。日常的摘要、翻譯、分類、問答,品質跟 ChatGPT-3.5 接近。複雜推理還是 GPT-4o 和 Claude 比較強。
Q:模型會自動更新嗎?
A:不會自動更新。你需要手動執行 ollama pull qwen2.5:32b 拉取最新版本。建議每個月拉一次。
Q:可以同時跑多個模型嗎?
A:可以,但會佔用更多記憶體。建議一次只載入一個模型(Ollama 預設行為),夠用了。
Q:斷網還能用嗎?
A:完全可以。這是本地模型最大的優勢之一。飛機上、咖啡廳 WiFi 不穩、偏遠地區,只要電腦有電,AI 就能跑。
© 2026 Dean Today — 版權所有
本文為原創內容,受著作權法保護。轉載請註明出處並附上原文連結:https://deantoday.com/full-stack-ai/local-ai-free-model-openclaw-deployment-guide/
