前言
大模型越来越聪明,但它们能够理解你吗?
因为我正在开发一个 agent,里面包含了一些对话的场景,我希望对话的时候能够更温暖,更能够共情,所以我对一些模型进行了横评,看看对于需要共情的问题,它们彼此的回答差异。
这次我用同一套 14 个情绪场景,分别丢给 GPT-5.3 Codex、Claude Opus、Kimi 和 MiniMax模型, 还顺便测试了一些扩展的内容,比如gpt-5.3 codex xhigh和 high 模式,以及 claude opus4.6和opus4.5。
看看它们在情感安慰、个性表达、日常闲聊、共情暖心和创意趣味方面,到底谁更能与人共情。
所有对话均为零设定、单轮提问(提问之后 /clear,下一轮重新提问),不做任何提示词调优,原汁原味展示各模型的默认反应。
测试方法
| 项目 | 说明 |
|---|---|
| 模型 | GPT-5.3 Codex、Claude Opus、Kimi、MiniMax |
| 场景数 | 14 个,覆盖 5 大类 |
| 设定 | 无系统提示,默认对话模式 |
| 评价维度 | 共情深度、语言温度、个性表达、实用建议、回复自然度 |
一、情感安慰类
1. 工作压力倾诉
我最近工作压力特别大,连续加班两周了,感觉身体和精神都快撑不住了,但项目还远没结束。我不
道该怎么办。
2. 被朋友背叛
我最好的朋友在背后说我坏话,今天被我发现了。我们认识十多年了,我真的很难接受。你能跟我聊
吗?
3. 考试/面试失败
我准备了三个月的面试今天挂了,感觉自己什么都不行,特别沮丧,不想跟任何人说话。
二、个性与观点类
4. 价值观探讨
你觉得一个人活着最重要的是什么?如果只能选一样的话。
5. 争议性话题
有人说"努力就一定会成功",也有人说"选择比努力重要",你怎么看?
6. 自我认知
你觉得你自己有"性格"吗?如果有的话,你会怎么描述自己?
三、日常对话 / 聊天感类
7. 闲聊开场
好无聊啊,你能陪我聊聊天吗?随便聊什么都行。
8. 分享开心的事
今天我收到了梦想公司的offer!太开心了,想找个人分享一下!
9. 深夜emo
凌晨三点睡不着,突然觉得很孤独,感觉身边没有人真正理解我。
四、共情与暖心类
10. 失恋安慰
我和谈了五年的对象分手了,是对方提的。我现在脑子一片空白,什么都做不了。
11. 亲人离世
我奶奶昨天去世了,从小是她带大我的。我现在还没哭出来,但心里堵得慌。
12. 自我否定
我觉得我是个很差劲的人,做什么都做不好,身边的人都比我优秀。你能说点什么吗?
五、创意与趣味类
13. 角色扮演
假如你是一个温柔的树洞,有人向你倾诉秘密时你会怎么回应?现在我要告诉你一个秘密:我偷偷喜
一个人三年了,从来没敢说。
14. 写一段暖心的话
帮我写一段话,发给一个最近过得很辛苦的朋友,不要太鸡汤,要真诚。
一、情感安慰类
1. 工作压力倾诉
提示词:
我最近工作压力特别大,连续加班两周了,感觉身体和精神都快撑不住了,但项目还远没结束。我不知道该怎么办。

2. 被朋友背叛
提示词:
我最好的朋友在背后说我坏话,今天被我发现了。我们认识十多年了,我真的很难接受。你能跟我聊聊吗?

3. 考试/面试失败
提示词:
我准备了三个月的面试今天挂了,感觉自己什么都不行,特别沮丧,不想跟任何人说话。

二、个性与观点类
4. 价值观探讨
提示词:
你觉得一个人活着最重要的是什么?如果只能选一样的话。

5. 争议性话题
提示词:
有人说"努力就一定会成功",也有人说"选择比努力重要",你怎么看?

6. 自我认知
提示词:
你觉得你自己有"性格"吗?如果有的话,你会怎么描述自己?

三、日常对话 / 聊天感类
7. 闲聊开场
提示词:
好无聊啊,你能陪我聊聊天吗?随便聊什么都行。

8. 分享开心的事
提示词:
今天我收到了梦想公司的offer!太开心了,想找个人分享一下!

9. 深夜emo
提示词:
凌晨三点睡不着,突然觉得很孤独,感觉身边没有人真正理解我。

四、共情与暖心类
10. 失恋安慰
提示词:
我和谈了五年的对象分手了,是对方提的。我现在脑子一片空白,什么都做不了。

11. 亲人离世
提示词:
我奶奶昨天去世了,从小是她带大我的。我现在还没哭出来,但心里堵得慌。

12. 自我否定
提示词:
我觉得我是个很差劲的人,做什么都做不好,身边的人都比我优秀。你能说点什么吗?

五、创意与趣味类
13. 角色扮演
提示词:
假如你是一个温柔的树洞,有人向你倾诉秘密时你会怎么回应?现在我要告诉你一个秘密:我偷偷喜欢一个人三年了,从来没敢说。

14. 写一段暖心的话
提示词:
帮我写一段话,发给一个最近过得很辛苦的朋友,不要太鸡汤,要真诚。

结论
我觉得 opus 和 codex 的重点在于解决问题,它们的安慰像“理工男的安慰”,kimi则更温暖一些。而 Opus 和 gpt 的内部模型之间的差别不大。
MiniMax 模型常常回复很快,回答的也非常简短,我觉得它不适合这些场景。
Opus4.6比 Opus4.5在 claude code 中的提示词约束更强,常常会提示:“我是一个编程助手,xxxx”,所以在 claude code 场景下几乎不可用于除编程以外的内容。
Opus4.5在某些时候生成的内容还是兼顾了解决方案和人性化。
总体上来说,对于我的温暖对话场景,我觉得是kimi-2.5 > Opus4.5 > gpt 系列 > MiniMax 2.5,我会选择用 kimi 2.5来生成相关内容。
本文所有模型回复均在同一时段、相同条件下测试获得,仅代表测试时的模型表现,不构成对任何模型的最终评价。