📍本次开源模型可以在 Z.ai 免费体验;使用 GLM 商业模型服务请到 bigmodel.cn。
Read this in English
2025/07/02:我们正式发布 GLM-4.1V-9B-Thinking 系列视觉理解模型,更多信息请查看 GitHub 仓库。2025/04/14: 我们发布 GLM-4-32B-0414 系列模型,规模提升至 32B,包含对话、推理、沉思多种能力的模型。2024/06/18: 我们发布 技术报告, 欢迎查看。2024/06/05: 我们发布 GLM-4-9B 系列开源模型,其内容可以在这里查看。GLM 家族迎来新一代开源模型 GLM-4-32B-0414 系列,320 亿参数,效果比肩 OpenAI 的 GPT 系列和 DeepSeek 的 V3/R1 系列,且支持非常友好的本地部署特性。GLM-4-32B-Base-0414 经过 15T 高质量数据的预训练,其中包含大量推理类的合成数据,这为后续的强化学习扩展打下了基础。在后训练阶段,除了针对对话场景进行了人类偏好对齐外,我们还通过拒绝采样和强化学习等技术强化了模型在指令遵循、工程代码、函数调用方面的效果,加强了智能体任务所需的原子能力。GLM-4-32B-0414 在工程代码、Artifacts 生成、函数调用、搜索问答及报告等方面都取得了不错的效果,部分 Benchmark 甚至可以媲美更大规模的 GPT-4o、DeepSeek-V3-0324(671B)等模型。
GLM-Z1-32B-0414 是具有深度思考能力的推理模型,这是在 GLM-4-32B-0414 的基础上,通过冷启动和扩展强化学习,以及在数学、代码和逻辑等任务上对模型的进一步训练得到的。相对于基础模型,GLM-Z1-32B-0414 显著提升了数理能力和解决复杂任务的能力。在训练的过程中,我们还引入了基于对战排序反馈的通用强化学习,进一步增强了模型的通用能力。
GLM-Z1-Rumination-32B-0414 是具有沉思能力的深度推理模型(对标 Open AI 的 Deep Research)。不同于一般的深度思考模型,沉思模型通过更长时间的深度思考来解决更开放和复杂的问题(例如:撰写两个城市AI发展对比情况,以及未来的发展规划),沉思模型在深度思考过程中结合搜索工具处理复杂任务,并经过利用多种规则型奖励来指导和扩展端到端强化学习训练得到。Z1-Rumination 在研究型写作和复杂检索任务上的能力得到了显著提升。
最后,GLM-Z1-9B-0414 是一个惊喜。我们沿用上述一系列技术,训练了一个保持开源传统的 9B 小尺寸模型。尽管规模更小,GLM-Z1-9B-0414 在数学推理和通用任务中依然展现出极为优秀的能力,其整体表现已处于同尺寸开源模型中的领先水平。特别是在资源受限的场景下,该模型在效率与效果之间实现了出色的平衡,为追求轻量化部署的用户提供了强有力的选择。
| GLM-Z1-32B-0414 | GLM-4-32B-0414 |
| write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically | 用 HTML 模拟一个小球在从一个旋转中的六边形中心释放后的场景。考虑小球和六边形边框的碰撞和小球受到的重力,并假设碰撞都是完全弹性碰撞 |
| GLM-4-32B-0414 | GLM-4-32B-0414 |
|
|
|
| GLM-4-32B-0414 | GLM-4-32B-0414 |
|
|
|
GLM-Z1-9B-0414 开源模型 在线体验
| Model | Type | Seq Length* | Download |
|---|---|---|---|
| GLM-4-9B-0414 | Chat | 32K -> 128K | 🤗 Huggingface |
🟣 WiseModel | | GLM-Z1-9B-0414 | Reasoning | 32K -> 128K | 🤗 Huggingface
🟣 WiseModel | | GLM-4-32B-Base-0414 | Base | 32K -> 128K | 🤗 Huggingface
🟣 WiseModel | | GLM-4-32B-0414 | Chat | 32K -> 128K | 🤗 Huggingface
🟣 WiseModel | | GLM-Z1-32B-0414 | Reasoning | 32K -> 128K | 🤗 Huggingface
🟣 WiseModel | | GLM-Z1-Rumination-32B-0414 | Reasoning | 128K | 🤗 Huggingface
GLM-4-9B-0414 由于其较小的模型容量,我们未对其智能体能力进行类似 GLM-4-32B-0414 的强化,主要针对翻译等需要大批量调用的场景进行优化。
* 模型原生采用 32K 上下文进行训练,对于输入 + 输出长度可能超过 32K 的请求,我们建议激活 YaRN 来获得较好的外推性能,详情见部署章节。
以下为 2024 年 6 月 5 日发布的 GLM-4 系列模型,其详细内容可以在这里查看。
| Model | Type | Seq Length* | Download |
|---|---|---|---|
| GLM-4-9B | Base | 8K | 🤗 Huggingface |
|
| GLM-4-9B-Chat | Chat | 128K | 🤗 Huggingface
🟣 WiseModel | | GLM-4-9B-Chat-HF | Chat | 128K | 🤗 Huggingface
🤖 ModelScope | | GLM-4-9B-Chat-1M | Chat | 1M | 🤗 Huggingface
🟣 WiseModel | | GLM-4-9B-Chat-1M-HF | Chat | 1M | 🤗 Huggingface
🤖 ModelScope | | GLM-4V-9B | Chat | 8K | 🤗 Huggingface

| 模型 | IFEval | BFCL-v3 (Overall) | BFCL-v3 (MultiTurn) | TAU-Bench (Retail) | TAU-Bench (Airline) | SimpleQA | HotpotQA |
|---|---|---|---|---|---|---|---|
| Qwen2.5-Max | 85.6 | 50.9 | 30.5 | 58.3 | 22.0 | 79.0 | 52.8 |
| GPT-4o-1120 | 81.9 | 69.6 | 41.0 | 62.8 | 46.0 | 82.8 | 63.9 |
| DeepSeek-V3-0324 | 83.4 | 66.2 | 35.8 | 60.7 | 32.4 | 82.6 | 54.6 |
| DeepSeek-R1 | 84.3 | 57.5 | 12.4 | 33.0 | 37.3 | 83.9 | 63.1 |
| GLM-4-32B-0414 | 87.6 | 69.6 | 41.5 | 68.7 | 51.2 | 88.1 | 63.8 |
对于
SimpleQA和HotpotQA,我们分别从测试集中采样了近500条测试样例,提供所有模型最基础的search和click工具,另外确保其余 Setting 保持一致后,3次评测取平均值
| 模型 | 框架 | SWE-bench Verified | SWE-bench Verified mini |
|---|---|---|---|
| GLM-4-32B-0414 | Moatless[1] | 33.8 | 38.0 |
| GLM-4-32B-0414 | Agentless[2] | 30.7 | 34.0 |
| GLM-4-32B-0414 | OpenHands[3] | 27.2 | 28.0 |
[1] Moatless v0.0.3 使用如下参数 response_format="react", thoughts_in_action=False, max_interations=30,未对失败轨迹进行重试,其余为默认配置
[2] Agentless v1.5.0 其中的 Embedding 模型使用了 BGE,基于FAISS进行相似性检索,为加快patch验证的速度同时尽可能保证效果,将运行单个实例的超时时间从默认的300s修改为180s
[3] OpenHands v0.29.1 未采用 YaRN 上下文扩展,而是限制了最大 60 个 iterations,并对 history 进行 summarization 以防止超出 32K 上下文限制,summarization 配置为 llm_config="condenser", keep_first=1, max_size=32,同样未对失败轨迹进行重试
<img src=
$ claude mcp add GLM-4 \
-- python -m otcore.mcp_server <graph>