🤖 AI 与大模型

API 接入 · 本地部署 · 推理服务 · 记录始于 2026-03-25

GLM MiniMax M2.7 Sing-box 本地部署 Ollama Mac M4 集群 VLESS+Reality
🧠

大模型平台

2026-03-25
🧠

GLM 官网与 API

AI2026-03-25
官网入口
用途地址
国际版官网z.ai
国内版官网bigmodel.cn
在线对话chat.z.ai
API 平台api.z.ai
API 文档docs.z.ai
开源代码 (GLM-5)github.com/zai-org/GLM-5
HuggingFacehuggingface.co/zai-org/GLM-5
最新模型:GLM-5
特点说明
架构744B MoE,激活参数 40B
编程能力SWE-bench Verified 开源 SOTA
Agent 能力支持复杂多步骤任务自主执行
接入方式Claude Code、Cursor、Cline、Ollama 均支持
GLM-4-9B 本地部署(Ollama)
ollama pull glm4
ollama run glm4
💡 GLM-4-9B Q4 量化后约占 6~8GB 显存,RTX 3060 12G 或 Mac M4 均可运行。
🤖

MiniMax 官网与 API

AI2026-03-25
官网入口
用途地址
国际版官网minimax.io
国内版官网minimaxi.com
API 平台platform.minimaxi.com
API 文档platform.minimaxi.com/docs
MiniMax Agentagent.minimaxi.com
海螺视频hailuoai.com
产品定价platform.minimaxi.com/docs/pricing/overview
MiniMax M2.7 API 价格
计费项价格
输入 Token$0.30 / 1M tokens
输出 Token$1.20 / 1M tokens
综合均价约 $0.53 / 1M tokens
API 接入信息
参数
Base URLhttps://api.minimax.io/v1
模型 IDMiniMax-M2.7
兼容格式OpenAI 兼容 / Anthropic 兼容
Python 快速调用示例
from openai import OpenAI

client = OpenAI(
    api_key="你的 MiniMax API Key",
    base_url="https://api.minimax.io/v1"
)

response = client.chat.completions.create(
    model="MiniMax-M2.7",
    messages=[{"role": "user", "content": "你好"}]
)
print(response.choices[0].message.content)
支持接入的编程工具
工具说明
Claude Code官方推荐,直接配置模型名即可
Cursor在 Model 设置中填入 Base URL 和 Key
Cline / Roo Code / Kilo CodeOpenAI 兼容模式接入
Ollamaollama run minimax-m2.7:cloud
💡 M2.7 是 MiniMax 目前最新旗舰模型,GDPval-AA 评测中 ELO 1495 分,开源模型第一。
🔧

工具对比

2026-03-25
⚖️

Sing-box vs V2Ray 对比

AI2026-03-25
核心对比
对比项V2Ray / XraySing-box
成熟度非常成熟较新但快速发展
协议支持多,Xray 支持 Reality更全,一个顶多个
性能良好更优,内存占用更低
配置难度中等略复杂但更灵活
客户端支持非常广泛越来越广泛
抗封锁Xray + Reality 很强Hysteria2 + Reality 很强
✅ 最终选择:Sing-box + VLESS + Reality,目前已稳定运行,Hiddify 客户端验证可用。
💻

本地部署方案

2026-03-25
🍎

100 台 Mac M4 集群推理部署

AI2026-03-25
单台 Mac M4 推理能力参考
型号统一内存推荐模型推理速度
M4 基础款16 / 24GBGLM-4-9B Q4~25 tokens/s
M4 Pro24 / 48GBQwen3-32B Q4~40 tokens/s
M4 Max48 / 128GBQwen3-72B Q4~30 tokens/s
M4 Ultra192 / 512GBGLM-4.7 量化版~20 tokens/s
推荐技术栈
组件推荐方案用途
推理引擎OllamaMac 原生 Metal 加速,最省心
负载均衡Nginx分发请求到 100 台
批量管理Ansible统一部署 / 更新模型
监控Prometheus + Grafana实时查看集群状态
每台 Mac 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
ollama pull qwen3:72b   # 推荐首选模型
Nginx 负载均衡配置示例
upstream glm_cluster {
    least_conn;
    server 192.168.1.101:11434;
    server 192.168.1.102:11434;
    # ... 100 台
}
server {
    listen 80;
    location / { proxy_pass http://glm_cluster; }
}
100 台集群理论能力
指标单台100 台集群
推理速度~25 tokens/s~2500 tokens/s
并发请求1~2 个100~200 个
日均处理约 5000 次约 50 万次
⚠️ Mac M4 长时间高负载会触发降频,确保机房散热足够,建议单台并发不超过 2 个请求。
🖥️

联想 S30 工作站本地部署(128GB 内存)

AI2026-03-25
纯 CPU + 128GB 内存可运行的模型
模型量化版本内存占用推理速度
Qwen3-72BQ4_K_M约 45GB5~10 tokens/s
DeepSeek-R1-32BQ4_K_M约 20GB12~18 tokens/s
Qwen2.5-32BQ8约 35GB10~15 tokens/s
GLM-4-9BQ8约 10GB20~30 tokens/s
Llama-3.3-70BQ4_K_M约 43GB6~10 tokens/s
⭐ 首选推荐:Qwen3-72B Q4 量化
ollama pull qwen3:72b
ollama run qwen3:72b
✅ 中文能力最强,综合能力好,128GB 内存完全可以运行,是目前本地部署性价比最高的选择。
推荐国内模型清单
模型开发方特点
Qwen3-72B阿里中文最强,支持 thinking 模式
GLM-4-9B智谱中文好,速度快,工具调用强
DeepSeek-R1-32BDeepSeek推理能力极强,代码好
Yi-34B零一万物中文理解好,长上下文
推荐国外模型清单
模型开发方特点
Llama-3.3-70BMeta英文综合最强开源之一
Gemma-3-27BGoogle综合能力强,多语言
Phi-4微软小模型性能强,14B
Mistral-7BMistral轻量高效,英文代码好
💡 如果 S30 装有独立显卡(RTX 3090 / A4000 等),推理速度可提升 3~5 倍,优先让模型跑在显存里。