AI 模型 · 知识库

🧠

大模型平台

2026-03-25

🧠

GLM 官网与 API

AI2026-03-25

官网入口

用途	地址
国际版官网	`z.ai`
国内版官网	`bigmodel.cn`
在线对话	`chat.z.ai`
API 平台	`api.z.ai`
API 文档	`docs.z.ai`
开源代码 (GLM-5)	`github.com/zai-org/GLM-5`
HuggingFace	`huggingface.co/zai-org/GLM-5`

最新模型：GLM-5

特点	说明
架构	744B MoE，激活参数 40B
编程能力	SWE-bench Verified 开源 SOTA
Agent 能力	支持复杂多步骤任务自主执行
接入方式	Claude Code、Cursor、Cline、Ollama 均支持

GLM-4-9B 本地部署（Ollama）

ollama pull glm4
ollama run glm4

💡 GLM-4-9B Q4 量化后约占 6～8GB 显存，RTX 3060 12G 或 Mac M4 均可运行。

🤖

MiniMax 官网与 API

AI2026-03-25

官网入口

用途	地址
国际版官网	`minimax.io`
国内版官网	`minimaxi.com`
API 平台	`platform.minimaxi.com`
API 文档	`platform.minimaxi.com/docs`
MiniMax Agent	`agent.minimaxi.com`
海螺视频	`hailuoai.com`
产品定价	`platform.minimaxi.com/docs/pricing/overview`

MiniMax M2.7 API 价格

计费项	价格
输入 Token	`$0.30 / 1M tokens`
输出 Token	`$1.20 / 1M tokens`
综合均价	`约 $0.53 / 1M tokens`

API 接入信息

参数	值
Base URL	`https://api.minimax.io/v1`
模型 ID	`MiniMax-M2.7`
兼容格式	OpenAI 兼容 / Anthropic 兼容

Python 快速调用示例

from openai import OpenAI

client = OpenAI(
    api_key="你的 MiniMax API Key",
    base_url="https://api.minimax.io/v1"
)

response = client.chat.completions.create(
    model="MiniMax-M2.7",
    messages=[{"role": "user", "content": "你好"}]
)
print(response.choices[0].message.content)

支持接入的编程工具

工具	说明
Claude Code	官方推荐，直接配置模型名即可
Cursor	在 Model 设置中填入 Base URL 和 Key
Cline / Roo Code / Kilo Code	OpenAI 兼容模式接入
Ollama	`ollama run minimax-m2.7:cloud`

💡 M2.7 是 MiniMax 目前最新旗舰模型，GDPval-AA 评测中 ELO 1495 分，开源模型第一。

🔧

工具对比

2026-03-25

⚖️

Sing-box vs V2Ray 对比

AI2026-03-25

核心对比

对比项	V2Ray / Xray	Sing-box
成熟度	非常成熟	较新但快速发展
协议支持	多，Xray 支持 Reality	更全，一个顶多个
性能	良好	更优，内存占用更低
配置难度	中等	略复杂但更灵活
客户端支持	非常广泛	越来越广泛
抗封锁	Xray + Reality 很强	Hysteria2 + Reality 很强

✅ 最终选择：Sing-box + VLESS + Reality，目前已稳定运行，Hiddify 客户端验证可用。

💻

本地部署方案

2026-03-25

🍎

100 台 Mac M4 集群推理部署

AI2026-03-25

单台 Mac M4 推理能力参考

型号	统一内存	推荐模型	推理速度
M4 基础款	16 / 24GB	GLM-4-9B Q4	~25 tokens/s
M4 Pro	24 / 48GB	Qwen3-32B Q4	~40 tokens/s
M4 Max	48 / 128GB	Qwen3-72B Q4	~30 tokens/s
M4 Ultra	192 / 512GB	GLM-4.7 量化版	~20 tokens/s

推荐技术栈

组件	推荐方案	用途
推理引擎	Ollama	Mac 原生 Metal 加速，最省心
负载均衡	Nginx	分发请求到 100 台
批量管理	Ansible	统一部署 / 更新模型
监控	Prometheus + Grafana	实时查看集群状态

每台 Mac 安装 Ollama

curl -fsSL https://ollama.com/install.sh | sh
ollama serve
ollama pull qwen3:72b   # 推荐首选模型

Nginx 负载均衡配置示例

upstream glm_cluster {
    least_conn;
    server 192.168.1.101:11434;
    server 192.168.1.102:11434;
    # ... 100 台
}
server {
    listen 80;
    location / { proxy_pass http://glm_cluster; }
}

100 台集群理论能力

指标	单台	100 台集群
推理速度	~25 tokens/s	~2500 tokens/s
并发请求	1～2 个	100～200 个
日均处理	约 5000 次	约 50 万次

⚠️ Mac M4 长时间高负载会触发降频，确保机房散热足够，建议单台并发不超过 2 个请求。

🖥️

联想 S30 工作站本地部署（128GB 内存）

AI2026-03-25

纯 CPU + 128GB 内存可运行的模型

模型	量化版本	内存占用	推理速度
Qwen3-72B	Q4_K_M	约 45GB	5～10 tokens/s
DeepSeek-R1-32B	Q4_K_M	约 20GB	12～18 tokens/s
Qwen2.5-32B	Q8	约 35GB	10～15 tokens/s
GLM-4-9B	Q8	约 10GB	20～30 tokens/s
Llama-3.3-70B	Q4_K_M	约 43GB	6～10 tokens/s

⭐ 首选推荐：Qwen3-72B Q4 量化

ollama pull qwen3:72b
ollama run qwen3:72b

✅ 中文能力最强，综合能力好，128GB 内存完全可以运行，是目前本地部署性价比最高的选择。

推荐国内模型清单

模型	开发方	特点
Qwen3-72B	阿里	中文最强，支持 thinking 模式
GLM-4-9B	智谱	中文好，速度快，工具调用强
DeepSeek-R1-32B	DeepSeek	推理能力极强，代码好
Yi-34B	零一万物	中文理解好，长上下文

推荐国外模型清单

模型	开发方	特点
Llama-3.3-70B	Meta	英文综合最强开源之一
Gemma-3-27B	Google	综合能力强，多语言
Phi-4	微软	小模型性能强，14B
Mistral-7B	Mistral	轻量高效，英文代码好

💡 如果 S30 装有独立显卡（RTX 3090 / A4000 等），推理速度可提升 3～5 倍，优先让模型跑在显存里。

🤖 AI 与大模型

大模型平台

GLM 官网与 API

MiniMax 官网与 API

工具对比

Sing-box vs V2Ray 对比

本地部署方案

100 台 Mac M4 集群推理部署

联想 S30 工作站本地部署（128GB 内存）