SBTI火遍全网，这些不靠谱的测试为什么总能让人上瘾？

小编的测试结果。图片来源：SBTI

我们痴迷于行为测试，究竟是想要被理解，还是想要被预测呢？

撰文 | 王昱

审校 | clefable

这两天SBTI火遍了我的朋友圈。它是B站up主Q肉儿串儿为劝朋友戒酒制作的人格测试，起名很明显借鉴了比较流行的MBTI。

SBTI测试本身免费，不要被骗。图片来源：SBTI

不管“MBTI已经过时，SBTI来了。”的标语，还是SBTI的名字，都透露着一股整活儿的气息。里面的问题也都不怎么正经，一些问题比较冒犯，某些问题甚至可能越过道德边界，触碰社会底限。

这也不是人格测试的第一次流行了，在SBTI之前，MBTI、星座、塔罗牌、算命等不同形式的人格测试已经流行了很多轮了。它们都在做一件事情：给复杂的人贴上一个简单的标签。这正好契合了人们“了解自己”或者想要“一个模糊的确定性”的需求。并且这些测试的结果也都足够简单，便于分享传播。比如在星座测试里，一句话、一个截图就能让别人知道“我是谁”的结果。

巴纳姆效应

在科学上，这些测试大部分都站不住脚。例如，一篇1985年发表在《自然》（Nature）上的论文，就对占星术（astrology）进行了严格的双盲测试。研究人员让普通参与者在多份人格报告中选出最符合自己的那一份，同时让占星师根据星盘匹配参与者的人格报告。结果发现，不论是普通参与者还是职业占星师，在统计学的意义上，选择准确率都和随机选择没有显著差异。

就算是看似合理的MBTI测试，其效果在心理学上也一直面临着巨大的争议。

伊莎贝尔·布里格斯·迈尔斯（Isabel Briggs Myers）及其母亲凯瑟琳·布里格斯（Katharine Briggs）。图片来源：Courtesy of Katharine Myers – Katharine Myers

MBTI测试是由伊莎贝尔·布里格斯·迈尔斯（Isabel Briggs Myers）及其母亲凯瑟琳·布里格斯（Katharine Briggs）在20世纪中期开发的人格测试，基础理论来自卡尔·荣格（Carl Jung）在1921年提出的心理类型学说。最初，这种测试被设计用于职业匹配，并不是在现代心理测量学框架下发展出来的标准化工具。在后续传播过程中，它逐渐被简化为16个人格类型，并被广泛传播。1993年，美国佐治亚大学的心理学教授戴维·J.皮滕杰（David J. Pittenger）就曾发表综述论文，质疑MBTI测试的效用。他在综述中指出，多项研究发现，仅仅间隔数周重新测试，就有39%到76%的受试者会改变MBTI类型；9个月后重新测试，约有50%的人MBTI类型会发生变化。

但这并没能阻止MBTI测试的大范围传播，甚至有不少企业将其用于人才筛选。2005年，皮滕杰再次发表论文，指出MBTI的关键问题在于，人格特质本质上是连续分布的，将其强行划分成16个离散的标签会导致误判和大量信息损失。人们可以用这种测试进行自我反思，甚至用它来降低沟通成本，但它绝不适用于人才选拔和能力评估，更不是科学研究中的严格测量。

星座、MBTI、SBTI 的共同点不是“测得准”，而是“说得像”。这背后一个经典的心理学解释是“巴纳姆效应”（Barnum effect）。

1949年，美国心理学家伯特伦·福勒（Bertram Forer）发表了一项经典的心理学实验。他让39名心理学学生填写了一项心理测试问卷，并表示会根据测试结果给每个人撰写量身定制的心理学报告。

专业的心理学专业的学生似乎也难以区分占星术的性格描述，普通人就更不用说了。图片来源：unsplash

一周后，福勒完全不管问卷结果，给每位学生都发放了完全相同的报告，并让他们评价这份报告的契合度。满分5分，结果这份报告拿到了平均分4.3分的好成绩。这份报告的内容是福勒从路边摊的占星书上随便摘录的，里面充满了大量模糊、普适的性格描述，比如“你非常渴望得到他人的喜爱与敬佩”，“你的一些抱负往往相当不切实际”，“你有时外向，有时内向”。这些描述几乎适用于所有人，却常常能让人产生“被说中了”的感觉。这种现象被命名为巴纳姆效应，其名称来源于19世纪美国著名马戏团团长P.T.巴纳姆（P. T. Barnum），人们常用一句话来概括他的经营策略：“给每个人都准备一些对号入座的东西”（A little something for everybody）。

别信标签

相比之下，当代心理学中更被广泛接受的人格模型，是大五人格模型（Big Five），或者叫五因素人格模型。它并不会给人贴标签，而是用开放性（Openness）、尽责性（Conscientiousness）、外向性（Extraversion）、宜人性（Agreeableness）、神经质（Neuroticism）这5个维度评价一个人的人格。

大五人格模型。图片来源：Anna Tunikova/wikipedia

最关键的区别在于，大五人格模型不会给某种人格贴上容易理解的标签，而是在上述五个维度中，用一组连续坐标定位一个人的人格。在这个模型里，一个人不会是简单的外向或内向，而是在某个区间内波动。2014年，一篇发表在《人格研究杂志》（Journal of Research in Personality）的荟萃研究分析了大五人格模型的重测信度。论文统计了74个研究，总样本量达到14 923人，结果发现在1天到2个月的重测间隔内，大五人格模型的中位重测相关系数达到了0.816，在心理测量学中属于较高的稳定性水平。

但是，大五人格模型给出的结果更像一组坐标，它看起来太复杂，有些难以理解。你没有办法用一句话或一个标签向朋友分享自己的测试结果，因此这一评判标准也就没有从心理学领域内破圈。

其实，MBTI内部也有一套连续的评分维度（E–I、S–N、T–F、J–P）。2025年一篇发表在《科学报告》（Scientific Reports）上的论文发现，如果用这套连续数据测量MBTI测试的可靠性，它的重测信度也能达到0.74～0.83之间。但关键的问题在于，MBTI测试最终输出的是一个标签，小幅度的波动，很可能会被放大为类型变化。

“打标签”是MBTI不被学术界认可的主要原因。图片来源：JakeBeech/wikipedia

也就是说，MBTI并非完全不稳定，学术界不认可的，主要是因为它把连续变量切成了一个个离散的标签。

SBTI测试内部也有一套连续的坐标，但它的问题和MBTI一样，最终输出结果只是一个符合巴纳姆效应的标签。如果说大五人格模型是一张坐标图，MBTI测试就是把整个坐标划分成了16个格子，SBTI测试就是给每个格子做成了表情包。

行为算法

与其关注简单的标签，不如关注连续的坐标，这种思路其实已经被互联网平台的推荐算法用另一种形式继承了。

心理学试图用少数几个维度理解人，而互联网系统，则在用更高的维度重建一个人。在互联网平台上，推荐算法并不是用少数几个维度去定义一个人的性格，而是直接从用户的行为中学习一个复杂、抽象、人类无法理解的高维表示——这也就是推荐系统中的嵌入（embedding，在推荐系统中指把对象变成向量）。

推荐系统会关注你看了什么类型的视频，关注哪些博主，在某个内容上停留了几秒钟，然后将这些数据整合起来，并从中计算出一个高维向量。大五人格模型只有5个维度，而推荐系统的高维向量通常具有100到1000个维度，甚至可能更多。其中某些维度可能代表你喜欢萌宠、偶像、军事或科普内容的程度，但它们通常并不是一一对应的明确标签，而是由大量行为数据共同决定的抽象表示。

图片来源：unsplash

和大五人格模型相比，推荐系统的高维向量几乎彻底放弃了结果的可读性，根本不具备传播性。但与此同时，推荐算法的效果有多好，我们也都有目共睹。

目前，也有科学家尝试基于大五人格模型建立推荐系统，它们的结果大都是“有提升，但提升有限”。比如一篇2023年的论文就发现，只以大五人格特征进行推荐，效果往往不如基于用户行为数据的模型。原因也不难理解：现代推荐系统可以从用户行为中学习上百维甚至更高维的表示，相比之下大五人格只有5个维度，这种信息密度上的差距，让两者在预测能力上难以走到同一量级。

更现实的问题是，现代推荐系统能直接根据用户的点击、浏览数据进行计算，传统的心理学模型还需要用户填写一个冗长的心理调查问卷——你也不想在刷短视频之前，先做一百多道心理测试题吧。

从某种程度上来说，推荐系统比任何心理学家都更擅长“预测你”。如果你想知道自己和朋友是否相似，最好的办法也许不是做什么心理学测试，而是把TA的手机抢过来刷一刷，如果你也喜欢平台推给TA的内容，你们就应该是同一类人，被困在了同一个信息茧房里。

但推荐系统一般不会让我们知道那个独属于我们自己的高维向量——就算告诉我们了，也没几个人能看懂，更不要说在朋友之间分享了。标签和坐标相比，肯定是前者更容易传播。对于SBTI而言，其中包含的负面消极情绪，还能进一步增强传播。

我们天生想要更好地了解自己，也许这是很多人多年以来一直在追寻的问题。标签可以压缩信息，也能提供认同感，但它绝不能算做契合的概括。SBTI测试也明确表明自己“仅供娱乐”。千万要牢记，人是复杂的，高度压缩的标签，绝对不等于完整的自己。

不过在此，不如让我们重新审视一个更根本的问题：我们痴迷于人格测试，究竟是想要被理解，还是想要被预测呢？

参考链接：
https://sbti.fancc.de5.net
https://space.bilibili.com/417038183
https://www.nature.com/articles/318419a0
https://en.wikipedia.org/wiki/Big_Five_personality_traitsmbti
https://www.themyersbriggs.com/en-US/Support/Validity-of-the-Myers-Briggs-assessment
https://journals.sagepub.com/doi/10.3102/00346543063004467
https://psycnet.apa.org/record/2005-11299-006
https://en.wikipedia.org/wiki/Barnum_effect
https://www.sciencedirect.com/science/article/abs/pii/S0092656614000543
https://www.nature.com/articles/s41598-025-91361-w
https://trust.douyin.com/article/15358
https://link.springer.com/article/10.1186/s13636-022-00269-0
https://mp.weixin.qq.com/s/WeCJopFLSewYxZjBm55pbQ

SBTI火遍全网，这些不靠谱的测试为什么总能让人上瘾？

作者环球科学

作者环球科学

相关文章

10%~40%的恋情竟始于“挖墙脚”，大学生高达20%，这类人都有这种人格特质

加拿大大规模山火，祸害到了时代广场，世界杯决赛或受影响！

过度拥挤的代价：生育能力明显下降，生殖细胞受损

量子计算爆发前夜 | 《环球科学》新刊导读

炎症点燃心脏 | 《环球科学》新刊导读

暗物质失踪现场 | 《环球科学》新刊导读

AI协作时代 | 《环球科学》新刊导读

意识的理论危机 | 《环球科学》新刊导读

作者环球科学

作者 环球科学

相关文章

作者环球科学