智谱AI写作助手

中国版对话语言模型，与GLM大模型进行对话。

所在地：

中国

语言：

收录时间：

2024-08-18

智谱AI写作助手

打开网站

智谱AI推出新一代基座模型 GLM-4

2024年01月16日，我们在「智谱AI技术开放日(Zhipu DevDay)」推出新一代基座大模型 GLM-4。

我们推出 GLM-4 All Tools、GLMs 智能体、大模型科研基金、大模型开源基金以及「Z计划」创业基金等内容。欢迎前往智谱清言体验 All Tools 以及无代码开发 GLMs 智能体。开发者可通过智谱 MaaS 开放平台体验 GLM-4 128K API、GLM-4V 图片理解和 CogView3 文生图 API。

GLM-4

新一代基座大模型 GLM-4 的整体性能相比上一代大幅提升，十余项指标逼近或达到 GPT-4；支持更长上下文；更强的多模态；支持更快推理速度，更多并发，大大降低推理成本；同时 GLM-4 增强了智能体能力。

基础能力（英文）：GLM-4 在 MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval 等数据集上，分别达到 GPT-4 94%、95%、91%、99%、90%、100%的水平。

基础能力（英文）

	MMLU (5-shot)	GSM8K (5-shot)	MATH (4-shot)	BBH (3-shot)	HellaSwag (10-shot)	HumanEval (0-shot)
GPT-4	86.4	92.0	52.9	83.1	95.3	67.0
Gemini-Ultra	83.7	94.4	53.2	83.6	87.8	74.4
GLM-4	81.5	87.6	47.9	82.3	85.4	72.0
GLM-4 / GPT-4	94%	95%	91%	99%	90%	100%

指令跟随能力：GLM-4 在 IFEval 的 prompt 级别上中、英分别达到 GPT-4 的88%、85%的水平，在 Instruction 级别上中、英分别达到 GPT-4 的90%、89%的水平。

指令跟随能力（中英）

	IFEval Prompt级别、中文	IFEval Instruction级别、中文	IFEval Prompt级别、英文	IFEval Instruction级别、英文
GPT-4	72.4	80.0	79.5	85.4
GLM-4	63.4	71.9	67.7	76.4
GLM-4 / GPT-4	88%	90%	85%	89%

对齐能力：GLM-4 在中文对齐能力上整体超过 GPT-4。

对齐能力（中文）

	专业能力	中文理解	基本任务	数学计算	文本写作	综合问答	角色扮演	逻辑推理	中文推理	中文语言	总分
GPT-4	7.94	6.93	7.81	7.65	7.93	7.42	7.51	7.37	7.47	7.59	7.53
GPT-4 Turbo	8.65	7.33	7.99	7.80	8.67	8.61	8.47	7.66	7.73	8.29	8.01
GLM-4	8.91	8.07	7.87	7.75	8.44	8.42	8.58	7.01	7.38	8.38	7.88
GLM-4 / GPT-4	112%	116%	101%	101%	106%	113%	114%	95%	99%	110%	105%

长文本能力：我们在 LongBench（128K）测试集上对多个模型进行评测，GLM-4 性能超过 Claude 2.1；在「大海捞针」（128K）实验中，GLM-4 的测试结果为 128K 以内全绿，做到100%精准召回。

元宇宙

数据统计

智谱AI写作助手

数据统计

相关导航

红薯通AI

星火网文助手

一览AI编剧

Kimi写作助手

豆包AI助手

Easy.AI

新华妙笔

百度作家平台