🧠
大模型平台
2026-03-25🧠
GLM 官网与 API
AI2026-03-25
官网入口
| 用途 | 地址 |
|---|---|
| 国际版官网 | z.ai |
| 国内版官网 | bigmodel.cn |
| 在线对话 | chat.z.ai |
| API 平台 | api.z.ai |
| API 文档 | docs.z.ai |
| 开源代码 (GLM-5) | github.com/zai-org/GLM-5 |
| HuggingFace | huggingface.co/zai-org/GLM-5 |
最新模型:GLM-5
| 特点 | 说明 |
|---|---|
| 架构 | 744B MoE,激活参数 40B |
| 编程能力 | SWE-bench Verified 开源 SOTA |
| Agent 能力 | 支持复杂多步骤任务自主执行 |
| 接入方式 | Claude Code、Cursor、Cline、Ollama 均支持 |
GLM-4-9B 本地部署(Ollama)
ollama pull glm4
ollama run glm4
💡 GLM-4-9B Q4 量化后约占 6~8GB 显存,RTX 3060 12G 或 Mac M4 均可运行。
🤖
MiniMax 官网与 API
AI2026-03-25
官网入口
| 用途 | 地址 |
|---|---|
| 国际版官网 | minimax.io |
| 国内版官网 | minimaxi.com |
| API 平台 | platform.minimaxi.com |
| API 文档 | platform.minimaxi.com/docs |
| MiniMax Agent | agent.minimaxi.com |
| 海螺视频 | hailuoai.com |
| 产品定价 | platform.minimaxi.com/docs/pricing/overview |
MiniMax M2.7 API 价格
| 计费项 | 价格 |
|---|---|
| 输入 Token | $0.30 / 1M tokens |
| 输出 Token | $1.20 / 1M tokens |
| 综合均价 | 约 $0.53 / 1M tokens |
API 接入信息
| 参数 | 值 |
|---|---|
| Base URL | https://api.minimax.io/v1 |
| 模型 ID | MiniMax-M2.7 |
| 兼容格式 | OpenAI 兼容 / Anthropic 兼容 |
Python 快速调用示例
from openai import OpenAI
client = OpenAI(
api_key="你的 MiniMax API Key",
base_url="https://api.minimax.io/v1"
)
response = client.chat.completions.create(
model="MiniMax-M2.7",
messages=[{"role": "user", "content": "你好"}]
)
print(response.choices[0].message.content)
支持接入的编程工具
| 工具 | 说明 |
|---|---|
| Claude Code | 官方推荐,直接配置模型名即可 |
| Cursor | 在 Model 设置中填入 Base URL 和 Key |
| Cline / Roo Code / Kilo Code | OpenAI 兼容模式接入 |
| Ollama | ollama run minimax-m2.7:cloud |
💡 M2.7 是 MiniMax 目前最新旗舰模型,GDPval-AA 评测中 ELO 1495 分,开源模型第一。
🔧
工具对比
2026-03-25⚖️
Sing-box vs V2Ray 对比
AI2026-03-25
核心对比
| 对比项 | V2Ray / Xray | Sing-box |
|---|---|---|
| 成熟度 | 非常成熟 | 较新但快速发展 |
| 协议支持 | 多,Xray 支持 Reality | 更全,一个顶多个 |
| 性能 | 良好 | 更优,内存占用更低 |
| 配置难度 | 中等 | 略复杂但更灵活 |
| 客户端支持 | 非常广泛 | 越来越广泛 |
| 抗封锁 | Xray + Reality 很强 | Hysteria2 + Reality 很强 |
✅ 最终选择:Sing-box + VLESS + Reality,目前已稳定运行,Hiddify 客户端验证可用。
💻
本地部署方案
2026-03-25🍎
100 台 Mac M4 集群推理部署
AI2026-03-25
单台 Mac M4 推理能力参考
| 型号 | 统一内存 | 推荐模型 | 推理速度 |
|---|---|---|---|
| M4 基础款 | 16 / 24GB | GLM-4-9B Q4 | ~25 tokens/s |
| M4 Pro | 24 / 48GB | Qwen3-32B Q4 | ~40 tokens/s |
| M4 Max | 48 / 128GB | Qwen3-72B Q4 | ~30 tokens/s |
| M4 Ultra | 192 / 512GB | GLM-4.7 量化版 | ~20 tokens/s |
推荐技术栈
| 组件 | 推荐方案 | 用途 |
|---|---|---|
| 推理引擎 | Ollama | Mac 原生 Metal 加速,最省心 |
| 负载均衡 | Nginx | 分发请求到 100 台 |
| 批量管理 | Ansible | 统一部署 / 更新模型 |
| 监控 | Prometheus + Grafana | 实时查看集群状态 |
每台 Mac 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
ollama pull qwen3:72b # 推荐首选模型
Nginx 负载均衡配置示例
upstream glm_cluster {
least_conn;
server 192.168.1.101:11434;
server 192.168.1.102:11434;
# ... 100 台
}
server {
listen 80;
location / { proxy_pass http://glm_cluster; }
}
100 台集群理论能力
| 指标 | 单台 | 100 台集群 |
|---|---|---|
| 推理速度 | ~25 tokens/s | ~2500 tokens/s |
| 并发请求 | 1~2 个 | 100~200 个 |
| 日均处理 | 约 5000 次 | 约 50 万次 |
⚠️ Mac M4 长时间高负载会触发降频,确保机房散热足够,建议单台并发不超过 2 个请求。
🖥️
联想 S30 工作站本地部署(128GB 内存)
AI2026-03-25
纯 CPU + 128GB 内存可运行的模型
| 模型 | 量化版本 | 内存占用 | 推理速度 |
|---|---|---|---|
| Qwen3-72B | Q4_K_M | 约 45GB | 5~10 tokens/s |
| DeepSeek-R1-32B | Q4_K_M | 约 20GB | 12~18 tokens/s |
| Qwen2.5-32B | Q8 | 约 35GB | 10~15 tokens/s |
| GLM-4-9B | Q8 | 约 10GB | 20~30 tokens/s |
| Llama-3.3-70B | Q4_K_M | 约 43GB | 6~10 tokens/s |
⭐ 首选推荐:Qwen3-72B Q4 量化
ollama pull qwen3:72b
ollama run qwen3:72b
✅ 中文能力最强,综合能力好,128GB 内存完全可以运行,是目前本地部署性价比最高的选择。
推荐国内模型清单
| 模型 | 开发方 | 特点 |
|---|---|---|
| Qwen3-72B | 阿里 | 中文最强,支持 thinking 模式 |
| GLM-4-9B | 智谱 | 中文好,速度快,工具调用强 |
| DeepSeek-R1-32B | DeepSeek | 推理能力极强,代码好 |
| Yi-34B | 零一万物 | 中文理解好,长上下文 |
推荐国外模型清单
| 模型 | 开发方 | 特点 |
|---|---|---|
| Llama-3.3-70B | Meta | 英文综合最强开源之一 |
| Gemma-3-27B | 综合能力强,多语言 | |
| Phi-4 | 微软 | 小模型性能强,14B |
| Mistral-7B | Mistral | 轻量高效,英文代码好 |
💡 如果 S30 装有独立显卡(RTX 3090 / A4000 等),推理速度可提升 3~5 倍,优先让模型跑在显存里。