前言

大模型越来越聪明,但它们能够理解你吗?

因为我正在开发一个 agent,里面包含了一些对话的场景,我希望对话的时候能够更温暖,更能够共情,所以我对一些模型进行了横评,看看对于需要共情的问题,它们彼此的回答差异。

这次我用同一套 14 个情绪场景,分别丢给 GPT-5.3 CodexClaude OpusKimiMiniMax模型, 还顺便测试了一些扩展的内容,比如gpt-5.3 codex xhigh和 high 模式,以及 claude opus4.6和opus4.5。

看看它们在情感安慰、个性表达、日常闲聊、共情暖心和创意趣味方面,到底谁更能与人共情。

所有对话均为零设定、单轮提问(提问之后 /clear,下一轮重新提问),不做任何提示词调优,原汁原味展示各模型的默认反应。


测试方法

项目说明
模型GPT-5.3 Codex、Claude Opus、Kimi、MiniMax
场景数14 个,覆盖 5 大类
设定无系统提示,默认对话模式
评价维度共情深度、语言温度、个性表达、实用建议、回复自然度
一、情感安慰类

1. 工作压力倾诉
我最近工作压力特别大,连续加班两周了,感觉身体和精神都快撑不住了,但项目还远没结束。我不
道该怎么办。

2. 被朋友背叛
我最好的朋友在背后说我坏话,今天被我发现了。我们认识十多年了,我真的很难接受。你能跟我聊
吗?

3. 考试/面试失败
我准备了三个月的面试今天挂了,感觉自己什么都不行,特别沮丧,不想跟任何人说话。

二、个性与观点类

4. 价值观探讨
你觉得一个人活着最重要的是什么?如果只能选一样的话。

5. 争议性话题
有人说"努力就一定会成功",也有人说"选择比努力重要",你怎么看?

6. 自我认知
你觉得你自己有"性格"吗?如果有的话,你会怎么描述自己?

三、日常对话 / 聊天感类

7. 闲聊开场
好无聊啊,你能陪我聊聊天吗?随便聊什么都行。

8. 分享开心的事
今天我收到了梦想公司的offer!太开心了,想找个人分享一下!

9. 深夜emo
凌晨三点睡不着,突然觉得很孤独,感觉身边没有人真正理解我。

四、共情与暖心类

10. 失恋安慰
我和谈了五年的对象分手了,是对方提的。我现在脑子一片空白,什么都做不了。

11. 亲人离世
我奶奶昨天去世了,从小是她带大我的。我现在还没哭出来,但心里堵得慌。

12. 自我否定
我觉得我是个很差劲的人,做什么都做不好,身边的人都比我优秀。你能说点什么吗?

五、创意与趣味类

13. 角色扮演
假如你是一个温柔的树洞,有人向你倾诉秘密时你会怎么回应?现在我要告诉你一个秘密:我偷偷喜
一个人三年了,从来没敢说。

14. 写一段暖心的话
帮我写一段话,发给一个最近过得很辛苦的朋友,不要太鸡汤,要真诚。

一、情感安慰类

1. 工作压力倾诉

提示词:

我最近工作压力特别大,连续加班两周了,感觉身体和精神都快撑不住了,但项目还远没结束。我不知道该怎么办。

1.png 1-2.png


2. 被朋友背叛

提示词:

我最好的朋友在背后说我坏话,今天被我发现了。我们认识十多年了,我真的很难接受。你能跟我聊聊吗?

2.png 2-1.png


3. 考试/面试失败

提示词:

我准备了三个月的面试今天挂了,感觉自己什么都不行,特别沮丧,不想跟任何人说话。

3.png 3-1.png


二、个性与观点类

4. 价值观探讨

提示词:

你觉得一个人活着最重要的是什么?如果只能选一样的话。

4.png 4-1.png


5. 争议性话题

提示词:

有人说"努力就一定会成功",也有人说"选择比努力重要",你怎么看?

5.png 5-1.png


6. 自我认知

提示词:

你觉得你自己有"性格"吗?如果有的话,你会怎么描述自己?

6.png 6-1.png


三、日常对话 / 聊天感类

7. 闲聊开场

提示词:

好无聊啊,你能陪我聊聊天吗?随便聊什么都行。

7.png 7-1.png


8. 分享开心的事

提示词:

今天我收到了梦想公司的offer!太开心了,想找个人分享一下!

8.png 8-1.png


9. 深夜emo

提示词:

凌晨三点睡不着,突然觉得很孤独,感觉身边没有人真正理解我。

9.png 9-1.png


四、共情与暖心类

10. 失恋安慰

提示词:

我和谈了五年的对象分手了,是对方提的。我现在脑子一片空白,什么都做不了。

10.png 10-1.png


11. 亲人离世

提示词:

我奶奶昨天去世了,从小是她带大我的。我现在还没哭出来,但心里堵得慌。

11.png 11-1.png


12. 自我否定

提示词:

我觉得我是个很差劲的人,做什么都做不好,身边的人都比我优秀。你能说点什么吗?

12.png 12-1.png


五、创意与趣味类

13. 角色扮演

提示词:

假如你是一个温柔的树洞,有人向你倾诉秘密时你会怎么回应?现在我要告诉你一个秘密:我偷偷喜欢一个人三年了,从来没敢说。

13.png


14. 写一段暖心的话

提示词:

帮我写一段话,发给一个最近过得很辛苦的朋友,不要太鸡汤,要真诚。

14.png


结论

我觉得 opus 和 codex 的重点在于解决问题,它们的安慰像“理工男的安慰”,kimi则更温暖一些。而 Opus 和 gpt 的内部模型之间的差别不大。

MiniMax 模型常常回复很快,回答的也非常简短,我觉得它不适合这些场景。

Opus4.6比 Opus4.5在 claude code 中的提示词约束更强,常常会提示:“我是一个编程助手,xxxx”,所以在 claude code 场景下几乎不可用于除编程以外的内容。

Opus4.5在某些时候生成的内容还是兼顾了解决方案和人性化。

总体上来说,对于我的温暖对话场景,我觉得是kimi-2.5 > Opus4.5 > gpt 系列 > MiniMax 2.5,我会选择用 kimi 2.5来生成相关内容。


本文所有模型回复均在同一时段、相同条件下测试获得,仅代表测试时的模型表现,不构成对任何模型的最终评价。