第九篇 · 心理学模型——当你同时用了 5 个理论时,洞察是用户的还是研究员的？

2026/5/21 · 约 13分钟阅读 · 用户研究 / 方法论 / 心理学 / 理论叠加

⚠️ 本文中出现的任何数据、案例、品牌、人名均为示意性虚构,用于说明方法论,与任何真实项目无关。

前三篇分别讲了 JTBD、Kano、用户旅程图。这一篇是这一系列里最锋利的一篇——它讲的是心理学模型在用户研究里的真实位置,以及当你把 JTBD + Kano + 旅程图 + 心理学这四套理论叠在一起用时,最容易掉进的那个陷阱。

简短预告这个陷阱的核心:理论叠得越多,研究员的认知偏差被理论修辞包装得越深。最后你拿到的“洞察”可能不是用户的,是研究员自己的预设——只是被四层理论术语包装得让人挑不出毛病。

第五篇里我管这件事叫“理论叠加的过拟合”。这一篇是它的展开版。

一、用户研究里最常被引用的几个心理学模型

先把场子摆好——讲清楚我们在说哪些理论。

用户研究里被引用最频繁的心理学模型,大概可以归到这几类:

动机类模型——解释“用户为什么做这件事”

自我决定理论(Self-Determination Theory): 用户的内在动机由三个因素驱动——自主感、胜任感、归属感。
马斯洛需求层次: 经典老牌,从生理需求到自我实现。在用户研究里通常被简化使用——讨论某个产品是在满足哪一层需求。
自我延伸心理(Self-Extension): 用户把某些消费品视为“自我的延伸”——我的车、我的手机、我的定制衣服。

决策偏差类模型——解释“用户为什么不按理性来”

损失厌恶(Loss Aversion): 用户对损失的反应强度是同等收益的 2 倍以上。“避免失去 100 元”比“获得 100 元”更能驱动行动。
锚定效应(Anchoring): 用户的判断会被第一个看到的信息(锚)严重影响。原价标 999 划掉、现价 599,比直接标 599 更让人觉得便宜。
沉没成本谬误: 用户已经投入的不可挽回的成本,会让他们倾向于继续投入。

社会心理类模型——解释“用户怎么被别人影响”

社会认同(Social Proof): “别人都在用”是强力的购买驱动。
社会惩罚(Social Punishment): 用户对一个品牌不满,可能不会直接联系品牌,但会在社交圈里“惩罚”它——告诉别人不要用。
从众心理: 群体压力会让个体改变判断,即使他原本判断正确。

情境与体验类模型——解释“用户的感受怎么被场景塑造”

峰终定律(Peak-End Rule): 用户对一段体验的记忆,主要由情绪峰值和结束时刻决定(上一篇旅程图详谈过)。
仪式感心理(Ritual Psychology): 某些消费行为的价值不在功能,在仪式——它标记了一个特殊时刻。
控制感(Sense of Control): 当用户感到对一件事失去控制时,会产生强烈的负面情绪——这是很多客服投诉的真实驱动。

每一个理论单看,都有大量学术研究支撑,都是真问题、真发现。把它们用在用户研究里,在合适的场景下,确实能给出 JTBD、Kano、旅程图都给不出的洞察——用户做某件事的深层心理动机。

二、心理学模型能给你什么——单看一个的时候

先说每一个心理学模型单独使用时,能给的真实价值。这一节是中性的——讲它们的好。

自我决定理论用在某些品类里效果特别好。 一些以“长期使用”为核心的产品(健身、学习、自我管理类),用户的留存关键往往不在功能强不强,而在“用户在使用过程中有没有获得自主感、胜任感、归属感”。一个健身 App 如果只优化“训练科学性”,留存可能上不去;如果加入“用户可以自己定制训练计划(自主)+ 完成训练后看到进步可视化(胜任)+ 加入同水平用户的小组(归属)”,留存会显著改善。

这种判断只用 JTBD 是给不出来的——JTBD 会告诉你用户的任务是“想变瘦”,但它不告诉你“为什么有些用户能坚持有些不能”。心理学模型补的是这一层。

损失厌恶用在定价策略上效果显著。 同样是降价,“原价 999 现价 599”(展示“避免失去”)的转化率经常比“现价 599”(只展示获得)高一截。这件事在已经被千万次 A/B 测试验证过。

社会认同用在新用户决策上几乎必备。 一个用户在评估一个他没用过的产品时,他自己的判断能力有限,所以他严重依赖“别人怎么用”。评论数、星级、用户故事、案例展示——这些不是装饰,它们是用户决策的真实输入。

控制感的破坏是负面情绪的核心驱动之一。 用户在等快递时反复刷物流信息,不是真的需要那个信息——是在通过信息获取感来重建控制感。一个能让用户在每个不确定环节都获得“我能掌控”的产品,在情绪体验上会显著优于同质量但“用户不知道下一步会发生什么”的产品。

这些都是真实有用的判断。单看,每一个心理学模型都能给出 JTBD / Kano / 旅程图给不出的深度。

三、问题在哪——理论叠加的过拟合

现在讲问题。

第五篇里我说过一句话:“理论叠加的过拟合——同时用 JTBD + Kano + 旅程图 + 心理学,每个模型都在切数据,最后切出来的‘洞察’可能只是模型自身的产物,不是用户的真实状态。”

这一节展开这句话。

先理解“过拟合”这个概念。 它原本是统计学/机器学习里的术语——一个模型在训练数据上表现极好,但在新数据上表现很差。原因是模型不是在学习数据的真实规律,而是在记忆训练数据本身的噪声。模型“看起来很强”,但其实它只是把已经看过的东西复述了一遍。

用户研究里的理论叠加,过拟合机制是类似的——

研究员脑子里先有一个对用户的预设(可能来自访谈印象、行业经验、对甲方业务的理解)。这个预设可能是对的,可能是错的,但无论如何它已经存在了。

然后研究员开始用理论分析数据。每用一个理论,就是对数据的一次切片。

第一个理论切下去时,数据还相对原始——切完之后,有的洞察支持研究员的预设,有的不支持。研究员能感觉到分歧,会犹豫。

叠加第二个理论再切——现在两个理论交叉,数据被切成更细的格子。研究员开始有“选择性使用”的空间:在那些支持预设的格子里,他用 A 理论解释;在那些不支持预设的格子里,他用 B 理论重新框架。理论越多,框架的可选项越多,几乎任何数据点都能被某个理论解释。

叠加第三个、第四个、第五个理论——任何数据都能被解释了。研究员预设的所有判断都能找到至少一个理论支撑。报告里写“用户的这个反应,体现了损失厌恶 × 仪式感心理 × 社会惩罚的三重叠加”,听起来既严谨又深刻——但其实它只是研究员把自己已经相信的判断,用三层理论术语包装了一遍。

这就是过拟合——理论模型不是在帮研究员发现新东西,是在帮研究员把已经相信的东西包装得更精致。

更糟的是,这种过拟合在交付时几乎无法被反驳。甲方读完报告会觉得“哇,这么多理论支撑,一定是认真做的研究”。但他没办法分辨:这些理论是从数据里长出来的,还是从研究员脑子里贴上去的？

四、过拟合的具体表现

抽象的“过拟合”概念,在真实报告里通常长成几种具体形态:

形态一:同一个用户行为,被三个理论同时解释——而且每个解释听起来都对。

举个虚构例子。某定制服装品牌的研究员观察到:用户拿到产品时会拍照分享到朋友圈。

研究员可以这样解释:

自我延伸心理: 用户把定制产品视为自我的外在表达,分享是在向社交圈展示“这就是我”。
社会认同: 用户希望通过分享获得朋友的点赞和评论,确认自己的选择是被认可的。
仪式感心理: 收到定制产品是一个被赋予仪式感的时刻,拍照分享是这个仪式的一部分。

三个解释听起来都说得通。但它们彼此之间没办法被数据证伪——你没办法用同一个“拍照分享”的行为,区分到底是哪一个心理在驱动。

这种“全都对”的解释,在研究里其实是一种警告——它意味着理论的解释力被滥用了。一个好的理论解释,应该能预测“在什么条件下用户会做 X,在什么条件下不会”。如果三个理论对同一个行为都能解释,你需要再问一个问题:这三个理论在什么情况下会给出不同的预测？ 如果给不出不同预测,这些理论在这个分析里是冗余的。

形态二:研究员同时引用相互矛盾的理论,但读者注意不到矛盾。

某些理论之间其实是有内在张力的。比如:

自我决定理论强调内在动机(自主、胜任、归属) 是行为的核心驱动。
社会认同强调外部社会压力 是行为的核心驱动。

这两个并不必然矛盾(一个人可以同时被内在动机和外部压力驱动),但在解释具体行为时,它们经常给出相反的方向——前者建议“加强用户的自主选择”,后者建议“展示更多用户都在用的证据”。一份报告同时引用这两个理论而不处理它们的张力,本质上是研究员在两个方向上都给老板留了退路——无论老板做哪个选择,报告都说得通。

好的研究报告应该正视这种理论张力,告诉老板“在 X 条件下走自主路线,在 Y 条件下走社会认同路线”——而不是把两个相反的建议都写进报告。

形态三:理论术语堆得过密,具体证据相对稀薄。

一份过拟合的报告有一个识别特征——理论术语的密度异常高。每一段都有 3-5 个心理学概念,每个判断都有 2-3 个理论支撑。但仔细看具体证据,经常发现:

用户原话很少
行为数据很少
跨人群对比很少
反例(不支持这个判断的用户)几乎没有

理论术语在补充证据的不足。当具体证据不够时,研究员会下意识地用理论包装来掩盖——读者会被理论术语的密度震慑,误以为这是严谨的研究。

一个朴素的检验方法:把报告里所有的理论术语去掉,看剩下的具体证据(用户原话、行为数据、对比数据)能不能支撑同样的结论。如果不能,这份报告的核心是理论修辞,不是用户发现。

五、为什么这件事在用户研究里特别严重

理论叠加的过拟合,在其他学科也有,但在用户研究里特别严重。原因有几个:

第一,用户研究的数据天然是“软”的。

物理学的数据是可重复测量的,生物学的数据是可标准化的,用户研究的核心数据是访谈记录——它高度依赖语境、表达、研究员的提问方式。同一段访谈,不同的研究员可以提取出完全不同的“关键信息”。

这种软数据天然为理论的“灵活套用”留出了空间。一个数据点可以被多个理论解释,研究员选择用哪个理论,本身就是一个判断——而这个判断没法被独立验证。

第二,心理学理论的语义重叠度很高。

心理学不是一个有统一公理体系的学科。它的不同流派(行为主义、认知心理学、社会心理学、积极心理学等)在解释同一个行为时,经常使用不同的术语描述本质相似的现象。

举个例子:

“归属感”(自我决定理论)
“社会认同”(社会心理学)
“群体归属需求”(进化心理学)
“情感连接”(依恋理论)

这四个术语在很多用户研究场景下指向同一类现象,但用不同流派的术语命名。一份报告同时用了这四个术语,读起来好像有四个独立证据,但其实可能只是同一个现象的四种说法。

第三,理论让研究员显得专业,这本身有商业激励。

用户研究的甲方(尤其是中大型企业)很多时候是在为“专业感”付费——他们希望乙方拿出来的东西看起来够厉害,能让他们对内交差。理论密度高的报告,在这个意义上是有商业激励的。

研究员(包括我自己)会感受到这种激励——“如果我的报告里理论密度不够,会不会让甲方觉得不专业？”。这种焦虑会推动研究员在报告里堆叠更多理论,即使有些理论其实没有给分析增加独立信息量。

第四,理论叠加的代价在短期不可见。

如果一份过拟合的报告交付后,3 个月内就能看到“按这份报告做的产品决策失败了”,研究员还会被纠正。但用户研究的反馈周期通常很长——一份报告可能影响半年到一年的产品决策,而失败的原因经常被归到“市场变化”“执行不力”等多个因素,很难追溯回报告本身的过拟合。

短期不可见的代价,会让过拟合在乙方的工作流里悄悄沉淀,变成一种行业默认的“专业风格”。

六、怎么避免——红队对抗与“零证据假设”标注

讲完了问题,讲怎么应对。

方法一:红队对抗。

红队对抗这个概念在情报、网络安全、军事推演里都有,核心是——找一个不熟悉这个项目的人(或者另一个研究员)扮演“挑剔的对手”,对每一个核心假设提出反问。

具体到用户研究,红队对抗可以这样做:

研究员完成报告初稿后,把每一个引用了心理学理论的判断单独列出来,让红队成员对每一条提出三个问题:

这条判断的具体用户证据是什么？ 几条用户原话？几次行为观察？
如果我把这条判断的心理学理论换成另一个,数据能不能同样支持？ 如果能,这个理论可能是冗余的。
你引用这个理论,会不会是因为你已经倾向于相信这个判断,所以选择了支持它的理论？

这三个问题不是为了否定研究员,是为了强迫研究员把“证据”和“理论解释”分开。证据是来自用户的硬事实,理论解释是研究员的选择——这两件事必须明确分开,而不是被混在一起。

经过红队对抗的报告,通常会发生几件事:

一部分“理论解释”被识别为冗余,从报告里删掉
一部分“判断”被发现证据不足,降级为“待验证假设”
一部分“判断”被发现证据充分,保留为正式结论

经过红队对抗的报告,通常会显得“不那么深刻”——理论密度下降了,但每一条判断都更扎实。这种“看起来不那么花哨”的报告,在落地时的成功率反而高得多。

方法二:“零证据假设”标注。

这个方法更简单。研究员在最终报告里,对每一条判断标注它的证据等级:

✅ 强支持: 有大量用户原话 / 行为数据 / 跨人群对比支撑(具体说明几条 / 几次 / 几个对比)
⚠️ 中等支持: 有部分证据,但不充分;或者证据存在但解读空间较大
❌ 零证据: 纯理论推断,目前没有任何用户证据支持

报告里的每一条判断都被标注清楚后,老板拿到报告,可以一眼区分“哪些可以直接做决策”、“哪些需要进一步验证再做决策”、“哪些不能用作决策依据”。

最关键的是——标注“零证据”对研究员是不利的(因为它暴露了报告的薄弱处),但对甲方是有利的(它避免了被理论修辞误导做决策)。一个愿意主动标注“零证据”的乙方,是值得长期合作的。一个所有判断都标“强支持”的乙方,要么是真的全部有强证据(罕见),要么是在掩盖证据不足(常见)。

方法三:从业务动作倒推——还是回到第五篇的核心判断。

如果老板下一步的业务动作明确,理论的滥用空间就会被压缩。

举个虚构例子。如果老板下一步要做的是“定价策略调整”,那真正需要的心理学模型是损失厌恶 + 锚定效应——这两个有大量定量研究支撑、有具体的落地方法。其他心理学模型(自我决定、社会认同、仪式感)在这个具体决策上没有同等价值。一份针对“定价策略调整”的报告,如果还在大谈仪式感和自我延伸,那就是在偏离业务动作做研究。

业务动作倒推会自动筛掉不相关的理论叠加。这是最朴素也最有效的过拟合解药。

七、心理学模型该出现在哪个研究阶段

按四阶段模型:

H0 假设生成阶段。 心理学模型可以用来生成“待验证的假设”——研究员基于品类常识,假设某些心理学因素可能驱动用户行为,作为后续访谈和数据采集的探针。但这一阶段的所有心理学使用都必须明确标注为“假设”,绝不能作为结论。

Sprint 0 探索期。 心理学模型不是主力。这一阶段你还没有足够的用户数据支撑深层心理判断。强行引入心理学会陷入“理论先行、数据后补”的过拟合陷阱——研究员先选定理论,然后在数据里寻找支持。

Phase 1 主流程数据采集阶段。 心理学模型作为“分析框架”使用——拿到访谈数据后,用心理学模型帮助理解某些用户反应的深层原因。但要严格遵守“一个判断对应一个理论”的原则,避免理论堆叠。

Phase 2-3 深化与人设成形阶段。 心理学模型可以进入交付物,但必须配合证据等级标注。每一个引用了心理学理论的判断,都要有具体的用户证据支撑,并且明确标注证据等级。

最常见的错配:在 Sprint 0 阶段就用大量心理学模型做“深度推演”,得出听起来很深刻的结论。 这种推演本质上是研究员的脑补——它在用理论填补数据的不足。在 Sprint 0 阶段,正确的姿态是“承认我们还不知道”,而不是“用理论假装我们已经知道”。

八、错配的具体代价

错配场景一:理论密度作为研究质量的指标。

代价:乙方为了显得专业,在报告里堆叠大量心理学术语。甲方读起来觉得“很厉害”,但落地时发现这些术语对应不到具体的产品决策——它们只是装饰。半年后回头看,这份报告对业务没有任何实质影响,但它消耗了几十万的研究预算。

错配场景二:用心理学理论给“还没验证的假设”穿上“已验证”的外衣。

代价:报告里写“用户的 X 行为体现了 Y 心理学原理”,听起来像结论。但其实研究员只是从一两个访谈片段里推断的,数据极其有限。老板按这个“结论”做产品决策,投入资源开发对应的功能,上线后发现用户根本没有这个心理需求——因为这个判断从一开始就是研究员的推断,不是用户的反馈。

错配场景三:同时引用相互矛盾的理论,两边都给建议。

代价:报告同时引用“自主感驱动”和“社会认同驱动”,分别建议“加强用户的自主选择”和“展示用户使用证据”。老板按报告做产品时,会发现这两个方向其实是冲突的——一个鼓励用户做独立选择,一个鼓励用户跟随别人选择。两个方向同时投入,资源被分散;选其中一个,不知道选哪个对——本质上,这份报告没有给老板真正的决策支持。

错配场景四:心理学模型被用作“事后解释”而不是“事前预测”。

代价:产品上线后效果不理想,研究员用心理学模型解释“为什么会失败”——可能引用了认知失调、心理抗拒、损失厌恶各种理论,听起来都很有道理。但这种事后解释没有任何决策价值——它不能告诉你“下次怎么做才不会再失败”。一个好的理论使用是事前预测,事前预测错了就承认错;事后解释什么都解释得通的理论,是没有信息量的理论。

九、收尾——理论是望远镜,数据是望远镜里的星星

回到第五篇里那句话:“理论是望远镜,不是望远镜里的星星。它帮你看,但看到什么取决于真实数据。”

这四篇关于 JTBD / Kano / 旅程图 / 心理学模型的文章,讲的都是同一件事——理论的真正位置不是答案,是工具。它们帮你结构化地观察用户、组织数据、识别盲区。但它们不能替代用户本身——它们看到的“星星”,必须是从真实用户数据里来的。

当一份报告里的“星星”全是研究员脑子里的预设,只是被理论的望远镜过滤了一遍——这份报告在欺骗甲方,也在欺骗研究员自己。这种欺骗在短期看不见,在长期会累积成行业的整体质量下滑——甲方失去对乙方的信任,乙方失去对自己的诚实。

用户研究的真正产出不是报告,是甲方下个 90 天敢于做出的决策。 一份过拟合的报告在交付时看起来很美,但在做决策的时刻,老板会发现它给不出方向——因为它的“洞察”是漂浮在理论术语上的,没有可以行动的着力点。

这一系列四篇写到这里,如果你只记一句话,我希望是这句:

你下次拿到一份引用了多个心理学理论的用户研究报告,先做一件事——把所有理论术语涂掉,看看剩下的具体证据(用户原话、行为数据、对比数据)能不能支撑同样的结论。如果不能,这份报告的核心是理论修辞,不是用户发现。

涂掉术语之后还能站得住的判断,是你可以用作决策的判断。涂掉术语之后塌了的判断,是漂亮但没用的判断。

这四篇文章本身也欢迎你做同样的检验。

这一系列(用户研究方法论 · 第五~九篇)写到这里告一段落。下一篇我会换一个题目——大概率回到一手访谈本身,聊“在场”这件事在 AI 时代的特殊价值。