智谱AI推出新一代基座模型 GLM-4
2024年01月16日,我们在「智谱AI技术开放日(Zhipu DevDay)」推出新一代基座大模型 GLM-4。
我们推出 GLM-4 All Tools、GLMs 智能体、大模型科研基金、大模型开源基金以及「Z计划」创业基金等内容。欢迎前往智谱清言体验 All Tools 以及无代码开发 GLMs 智能体。开发者可通过智谱 MaaS 开放平台体验 GLM-4 128K API、GLM-4V 图片理解和 CogView3 文生图 API。
GLM-4
新一代基座大模型 GLM-4 的整体性能相比上一代大幅提升,十余项指标逼近或达到 GPT-4;支持更长上下文;更强的多模态;支持更快推理速度,更多并发,大大降低推理成本;同时 GLM-4 增强了智能体能力。
基础能力(英文):GLM-4 在 MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval 等数据集上,分别达到 GPT-4 94%、95%、91%、99%、90%、100%的水平。
基础能力(英文)
MMLU (5-shot)
|
GSM8K (5-shot)
|
MATH (4-shot)
|
BBH (3-shot)
|
HellaSwag (10-shot)
|
HumanEval (0-shot)
|
|
---|---|---|---|---|---|---|
GPT-4 | 86.4 | 92.0 | 52.9 | 83.1 | 95.3 | 67.0 |
Gemini-Ultra | 83.7 | 94.4 | 53.2 | 83.6 | 87.8 | 74.4 |
GLM-4 | 81.5 | 87.6 | 47.9 | 82.3 | 85.4 | 72.0 |
GLM-4 / GPT-4 | 94% | 95% | 91% | 99% | 90% | 100% |
指令跟随能力:GLM-4 在 IFEval 的 prompt 级别上中、英分别达到 GPT-4 的88%、85%的水平,在 Instruction 级别上中、英分别达到 GPT-4 的90%、89%的水平。
指令跟随能力(中英)
IFEval
Prompt级别、中文 |
IFEval
Instruction级别、中文 |
IFEval
Prompt级别、英文 |
IFEval
Instruction级别、英文 |
|
---|---|---|---|---|
GPT-4 | 72.4 | 80.0 | 79.5 | 85.4 |
GLM-4 | 63.4 | 71.9 | 67.7 | 76.4 |
GLM-4 / GPT-4 | 88% | 90% | 85% | 89% |
对齐能力:GLM-4 在中文对齐能力上整体超过 GPT-4。
对齐能力(中文)
专业能力
|
中文理解
|
基本任务
|
数学计算
|
文本写作
|
综合问答
|
角色扮演
|
逻辑推理
|
中文推理
|
中文语言
|
总分
|
|
---|---|---|---|---|---|---|---|---|---|---|---|
GPT-4 | 7.94 | 6.93 | 7.81 | 7.65 | 7.93 | 7.42 | 7.51 | 7.37 | 7.47 | 7.59 | 7.53 |
GPT-4 Turbo | 8.65 | 7.33 | 7.99 | 7.80 | 8.67 | 8.61 | 8.47 | 7.66 | 7.73 | 8.29 | 8.01 |
GLM-4 | 8.91 | 8.07 | 7.87 | 7.75 | 8.44 | 8.42 | 8.58 | 7.01 | 7.38 | 8.38 | 7.88 |
GLM-4 / GPT-4 | 112% | 116% | 101% | 101% | 106% | 113% | 114% | 95% | 99% | 110% | 105% |
长文本能力:我们在 LongBench(128K)测试集上对多个模型进行评测,GLM-4 性能超过 Claude 2.1;在「大海捞针」(128K)实验中,GLM-4 的测试结果为 128K 以内全绿,做到100%精准召回。