小编的测试结果。图片来源:SBTI

我们痴迷于行为测试,究竟是想要被理解,还是想要被预测呢?

撰文 | 王昱

审校 | clefable

这两天SBTI火遍了我的朋友圈。它是B站up主Q肉儿串儿为劝朋友戒酒制作的人格测试,起名很明显借鉴了比较流行的MBTI。

SBTI测试本身免费,不要被骗。图片来源:SBTI

不管“MBTI已经过时,SBTI来了。”的标语,还是SBTI的名字,都透露着一股整活儿的气息。里面的问题也都不怎么正经,一些问题比较冒犯,某些问题甚至可能越过道德边界,触碰社会底限。

这也不是人格测试的第一次流行了,在SBTI之前,MBTI、星座、塔罗牌、算命等不同形式的人格测试已经流行了很多轮了。它们都在做一件事情:给复杂的人贴上一个简单的标签。这正好契合了人们“了解自己”或者想要“一个模糊的确定性”的需求。并且这些测试的结果也都足够简单,便于分享传播。比如在星座测试里,一句话、一个截图就能让别人知道“我是谁”的结果。



巴纳姆效应

在科学上,这些测试大部分都站不住脚。例如,一篇1985年发表在《自然》Nature)上的论文,就对占星术(astrology)进行了严格的双盲测试。研究人员让普通参与者在多份人格报告中选出最符合自己的那一份,同时让占星师根据星盘匹配参与者的人格报告。结果发现,不论是普通参与者还是职业占星师,在统计学的意义上,选择准确率都和随机选择没有显著差异

就算是看似合理的MBTI测试,其效果在心理学上也一直面临着巨大的争议。

伊莎贝尔·布里格斯·迈尔斯(Isabel Briggs Myers)及其母亲凯瑟琳·布里格斯(Katharine Briggs)。图片来源:Courtesy of Katharine Myers – Katharine Myers

MBTI测试是由伊莎贝尔·布里格斯·迈尔斯(Isabel Briggs Myers)及其母亲凯瑟琳·布里格斯(Katharine Briggs)在20世纪中期开发的人格测试,基础理论来自卡尔·荣格(Carl Jung)在1921年提出的心理类型学说。最初,这种测试被设计用于职业匹配,并不是在现代心理测量学框架下发展出来的标准化工具。在后续传播过程中,它逐渐被简化为16个人格类型,并被广泛传播。1993年,美国佐治亚大学的心理学教授戴维·J.皮滕杰(David J. Pittenger)就曾发表综述论文,质疑MBTI测试的效用。他在综述中指出,多项研究发现,仅仅间隔数周重新测试,就有39%到76%的受试者会改变MBTI类型;9个月后重新测试,约有50%的人MBTI类型会发生变化。

但这并没能阻止MBTI测试的大范围传播,甚至有不少企业将其用于人才筛选。2005年,皮滕杰再次发表论文,指出MBTI的关键问题在于,人格特质本质上是连续分布的,将其强行划分成16个离散的标签会导致误判和大量信息损失。人们可以用这种测试进行自我反思,甚至用它来降低沟通成本,但它绝不适用于人才选拔和能力评估,更不是科学研究中的严格测量

星座、MBTI、SBTI 的共同点不是“测得准”,而是“说得像”。这背后一个经典的心理学解释是“巴纳姆效应”(Barnum effect)。

1949年,美国心理学家伯特伦·福勒(Bertram Forer)发表了一项经典的心理学实验。他让39名心理学学生填写了一项心理测试问卷,并表示会根据测试结果给每个人撰写量身定制的心理学报告。

专业的心理学专业的学生似乎也难以区分占星术的性格描述,普通人就更不用说了。图片来源:unsplash

一周后,福勒完全不管问卷结果,给每位学生都发放了完全相同的报告,并让他们评价这份报告的契合度。满分5分,结果这份报告拿到了平均分4.3分的好成绩。这份报告的内容是福勒从路边摊的占星书上随便摘录的,里面充满了大量模糊、普适的性格描述,比如“你非常渴望得到他人的喜爱与敬佩”,“你的一些抱负往往相当不切实际”,“你有时外向,有时内向”。这些描述几乎适用于所有人,却常常能让人产生“被说中了”的感觉。这种现象被命名为巴纳姆效应,其名称来源于19世纪美国著名马戏团团长P.T.巴纳姆(P. T. Barnum),人们常用一句话来概括他的经营策略:“给每个人都准备一些对号入座的东西”(A little something for everybody)。



别信标签

相比之下,当代心理学中更被广泛接受的人格模型,是大五人格模型(Big Five),或者叫五因素人格模型。它并不会给人贴标签,而是用开放性(Openness)、尽责性(Conscientiousness)、外向性(Extraversion)、宜人性(Agreeableness)、神经质(Neuroticism)这5个维度评价一个人的人格。

大五人格模型。图片来源:Anna Tunikova/wikipedia

最关键的区别在于,大五人格模型不会给某种人格贴上容易理解的标签,而是在上述五个维度中,用一组连续坐标定位一个人的人格。在这个模型里,一个人不会是简单的外向或内向,而是在某个区间内波动。2014年,一篇发表在《人格研究杂志》Journal of Research in Personality)的荟萃研究分析了大五人格模型的重测信度。论文统计了74个研究,总样本量达到14 923人,结果发现在1天到2个月的重测间隔内,大五人格模型的中位重测相关系数达到了0.816,在心理测量学中属于较高的稳定性水平

但是,大五人格模型给出的结果更像一组坐标,它看起来太复杂,有些难以理解。你没有办法用一句话或一个标签向朋友分享自己的测试结果,因此这一评判标准也就没有从心理学领域内破圈。

其实,MBTI内部也有一套连续的评分维度(E–I、S–N、T–F、J–P)。2025年一篇发表在《科学报告》Scientific Reports)上的论文发现,如果用这套连续数据测量MBTI测试的可靠性,它的重测信度也能达到0.74~0.83之间。但关键的问题在于,MBTI测试最终输出的是一个标签,小幅度的波动,很可能会被放大为类型变化

“打标签”是MBTI不被学术界认可的主要原因。图片来源:JakeBeech/wikipedia

也就是说,MBTI并非完全不稳定,学术界不认可的,主要是因为它把连续变量切成了一个个离散的标签。

SBTI测试内部也有一套连续的坐标,但它的问题和MBTI一样,最终输出结果只是一个符合巴纳姆效应的标签。如果说大五人格模型是一张坐标图,MBTI测试就是把整个坐标划分成了16个格子,SBTI测试就是给每个格子做成了表情包。



行为算法

与其关注简单的标签,不如关注连续的坐标,这种思路其实已经被互联网平台的推荐算法用另一种形式继承了。

心理学试图用少数几个维度理解人,而互联网系统,则在用更高的维度重建一个人。在互联网平台上,推荐算法并不是用少数几个维度去定义一个人的性格,而是直接从用户的行为中学习一个复杂、抽象、人类无法理解的高维表示——这也就是推荐系统中的嵌入(embedding,在推荐系统中指把对象变成向量)。

推荐系统会关注你看了什么类型的视频,关注哪些博主,在某个内容上停留了几秒钟,然后将这些数据整合起来,并从中计算出一个高维向量。大五人格模型只有5个维度,而推荐系统的高维向量通常具有100到1000个维度,甚至可能更多。其中某些维度可能代表你喜欢萌宠、偶像、军事或科普内容的程度,但它们通常并不是一一对应的明确标签,而是由大量行为数据共同决定的抽象表示。

图片来源:unsplash

和大五人格模型相比,推荐系统的高维向量几乎彻底放弃了结果的可读性,根本不具备传播性。但与此同时,推荐算法的效果有多好,我们也都有目共睹。

目前,也有科学家尝试基于大五人格模型建立推荐系统,它们的结果大都是“有提升,但提升有限”。比如一篇2023年的论文就发现,只以大五人格特征进行推荐,效果往往不如基于用户行为数据的模型。原因也不难理解:现代推荐系统可以从用户行为中学习上百维甚至更高维的表示,相比之下大五人格只有5个维度,这种信息密度上的差距,让两者在预测能力上难以走到同一量级。

更现实的问题是,现代推荐系统能直接根据用户的点击、浏览数据进行计算,传统的心理学模型还需要用户填写一个冗长的心理调查问卷——你也不想在刷短视频之前,先做一百多道心理测试题吧。

从某种程度上来说,推荐系统比任何心理学家都更擅长“预测你”。如果你想知道自己和朋友是否相似,最好的办法也许不是做什么心理学测试,而是把TA的手机抢过来刷一刷,如果你也喜欢平台推给TA的内容,你们就应该是同一类人,被困在了同一个信息茧房里。

但推荐系统一般不会让我们知道那个独属于我们自己的高维向量——就算告诉我们了,也没几个人能看懂,更不要说在朋友之间分享了。标签和坐标相比,肯定是前者更容易传播。对于SBTI而言,其中包含的负面消极情绪,还能进一步增强传播

我们天生想要更好地了解自己,也许这是很多人多年以来一直在追寻的问题。标签可以压缩信息,也能提供认同感,但它绝不能算做契合的概括。SBTI测试也明确表明自己“仅供娱乐”。千万要牢记,人是复杂的,高度压缩的标签,绝对不等于完整的自己。

不过在此,不如让我们重新审视一个更根本的问题:我们痴迷于人格测试,究竟是想要被理解,还是想要被预测呢?

参考链接:
https://sbti.fancc.de5.net
https://space.bilibili.com/417038183
https://www.nature.com/articles/318419a0
https://en.wikipedia.org/wiki/Big_Five_personality_traitsmbti
https://www.themyersbriggs.com/en-US/Support/Validity-of-the-Myers-Briggs-assessment
https://journals.sagepub.com/doi/10.3102/00346543063004467
https://psycnet.apa.org/record/2005-11299-006
https://en.wikipedia.org/wiki/Barnum_effect
https://www.sciencedirect.com/science/article/abs/pii/S0092656614000543
https://www.nature.com/articles/s41598-025-91361-w
https://trust.douyin.com/article/15358
https://link.springer.com/article/10.1186/s13636-022-00269-0
https://mp.weixin.qq.com/s/WeCJopFLSewYxZjBm55pbQ

作者 环球科学

《环球科学》杂志