睡眠分数的幻觉：手环为什么越准，越可能把你带偏

手环最擅长的不是告诉你昨晚睡得怎样，而是把一夜的混乱压成一个像成绩单的数。这个数有时有用。它能提醒你连续几天只睡了五小时，也能让医生看到作息漂移。麻烦在于，它看起来太像事实了。

2017 年，Kelly Glazer Baron 等睡眠医学研究者给这种现象起了一个不太好翻译的名字：orthosomnia。词根「ortho」指正确，「somnia」指睡眠。病人不再只追求睡得好，而是追求设备显示自己睡得正确。那篇病例报告里，一名患者把治疗目标说成「每晚至少 8 小时深睡眠」，另一名患者在实验室多导睡眠图显示深睡眠比例正常甚至偏高后，仍追问医生：「那为什么我的 Fitbit 说我睡得很差？」1

这不是一个反技术故事。睡眠追踪器确实比许多健康小玩具更接近可用测量。近年的消费级设备可以记录运动、心率、皮温、呼吸相关信号，某些设备在判定「睡着」这件事上表现不错。Evan Chinoy 等人在睡眠实验室把 7 种消费级设备和多导睡眠图比较，发现所有设备逐 epoch 判定睡眠的敏感性都不低于 0.93。问题藏在另一半：它们识别清醒的特异性只有 0.18 到 0.54，睡眠分期结果也不稳定。2

所以更准确的说法不是「手环胡说」。它们常常在一个狭窄任务上有用，在另一个读者更在意的任务上很弱。手环知道你大概率安静躺了多久，却不一定知道你在床上睁眼焦虑了多久；它能给你「深睡」分钟数，却未必有足够证据把那些分钟数当成临床意义上的 N3 睡眠。

睡眠不是一个能直接称重的东西

多导睡眠图（PSG）被称为睡眠测量的金标准，因为它同时记录脑电、眼动、肌电，以及呼吸、心电、血氧、体位等信号。睡眠技师按美国睡眠医学会规则，把整夜记录切成 30 秒一段，再给每段标上清醒、N1、N2、N3 或 REM。de Zambotti 等人的综述把 PSG 描述为设备验证的主要参照，但也指出 PSG 昂贵、笨重，需要实验室设备和受训人员，不适合长时间居家追踪。3

这就给活动记录仪（actigraphy）留下空间。活动记录仪用腕部加速度推断睡眠和清醒，基本假设很朴素：动得多更可能醒着，不怎么动更可能睡着。它便宜、轻便，能连续戴几天到几周。美国睡眠医学会 2018 年指南建议，在成人和儿童失眠、昼夜节律睡眠-觉醒障碍、疑似睡眠不足综合征等场景中，可以用 FDA 批准的活动记录设备估算睡眠参数；同一指南也明确说，消费级可穿戴设备不在该指南范围内，actigraphy 不能替代有指征时的实验室 PSG。4

测量层级	直接测到什么	常见强项	典型盲点
PSG	脑电、眼动、肌电、呼吸等多通道信号 3	睡眠分期、睡眠障碍评估	昂贵、干扰睡眠、难以长期居家
医疗级 actigraphy	腕部运动，经算法估算睡眠/清醒 4	多晚作息、总睡眠时间趋势	静止清醒容易被当成睡眠
消费级手环/戒指/床边设备	运动、心率、皮温、呼吸相关间接信号 3	低成本、低负担、长期自我观察	算法黑箱、固件更新、设备间不可比

这个表里最容易被忽略的是「盲点」一列。睡眠追踪器把一个多通道生理状态压成几个指标：总睡眠时间、入睡潜伏期、睡眠效率、清醒时间、浅睡、深睡、REM。每压缩一次，误差的形状就变一次。总睡眠时间的误差，和深睡分钟数的误差，不是同一种错误。

患者睡眠日记与 PSG 图示 — Baron 等病例论文中的图示把患者手工睡眠日记、设备输出和 PSG 片段放在一起；同一晚睡眠被三种记录方式重写成三种不同对象。1

手环的强项，也是它的诱导项

一个二分类器可以靠很高的敏感性显得很好。夜里多数 30 秒片段本来就是睡眠，设备只要倾向于把安静片段判成睡眠，就能在「识别睡着」上拿到漂亮数字。代价是清醒片段会被吞掉。

de Zambotti 等人总结了 actigraphy 的老问题：多数研究显示它识别睡眠的敏感性和总体准确率较高，但识别真实清醒的特异性较差。健康参与者研究中的特异性范围为 26.9% 到 77%，临床样本中约为 32.5% 到 80%；许多研究低于 50%。3 这不是某个品牌的丑闻，而是测量原理带来的结构性偏差：人可以在床上醒着不动。

Chinoy 等人的七设备实验把这个偏差放到更现代的消费级设备上。34 名健康年轻成人在实验室连续三夜接受 PSG，同时使用 4 种腕戴设备和 3 种非腕戴近身设备；其中一晚包含实验性睡眠打断。结果更细：多数设备在睡眠/清醒指标上可与 actigraphy 相当或更好，但 Garmin 两款设备表现较差；所有设备的睡眠敏感性都很高，特异性仍只有低到中等；睡眠阶段估计混合不一，且在睡得差或被打断的夜晚更容易出问题。2

Loading chart…

上图改写自 Chinoy 等人的 WASO（入睡后清醒时间）表。负数表示设备低估了 PSG 记录到的清醒分钟数；Garmin Fenix 5S 和 Vivosmart 3 分别低估约 49.5 分钟和 47.6 分钟。2

这个方向的错误很容易制造心理错觉。一个经常夜醒的人看到设备说「你睡了 7 小时 40 分钟」，会怀疑自己的主观感受。另一个人看到设备说「你深睡太少」，又会怀疑自己的身体。两种怀疑都可能是真的，也都可能被设备放大。

七种消费级设备与 PSG 的总睡眠时间偏差 — Chinoy 等人的 Bland-Altman 图显示，许多设备在总睡眠时间上平均偏差不大，但个体夜晚的误差范围很宽，睡得差时更不稳定。2

「深睡 43 分钟」比「我睡得差」更像事实

分数的危险不只来自误差，还来自外观。一个整数会把模型输出伪装成客观读数。用户很少看到原始光电容积脉搏波、加速度计噪声、缺失数据、固件版本、训练样本边界、分类阈值。他看到的是 82 分、6 小时 58 分、深睡 43 分钟。

de Zambotti 等人把消费级设备的几个限制说得很直白：它们是面向普通消费者的商业设备，不是为临床或研究设计；多数设备的算法是专有黑箱，原始传感器数据不可得；公司可以在不通知研究者的情况下改变算法；科学验证速度慢于硬件和软件迭代，等某型号有验证证据时，它可能已经停产。3

这解释了为什么横向比较常常靠不住。你今年的手表分数，未必能和去年的同一手表分数比较；同一晚戴两只设备，未必能得到同一个「深睡」；设备给出的「light」「deep」「REM」也不一定等价于 PSG 的 N1、N2、N3、REM。Chinoy 的实验为了比较设备睡眠阶段，不得不把 PSG 的 N1 和 N2 合并为 light，把 N3 当作 deep，因为消费级设备通常只输出「浅」「深」「REM」三类。2

更麻烦的是，金标准本身也不是神谕。Lee 等人 2022 年做了 PSG 人工睡眠分期评分者间一致性的元分析，纳入 11 项研究；总体 Cohen’s κ 为 0.76，属于相当一致，但各阶段差异很大：清醒期 0.70，REM 0.69，N2 和 N3 都是 0.57，N1 只有 0.24。5 换句话说，就连受训技师看着脑电图，也会在 N1 这种过渡状态上分歧很大。

PSG 人工睡眠分期各阶段评分者间一致性 — Lee 等人的元分析显示，PSG 人工分期总体可靠，但 N1、N2、N3 的一致性明显弱于许多用户想象中的「金标准」。5

这不是给手环开脱。相反，它把问题推得更深：如果 PSG 的某些边界都带有判读噪声，那么一个没有脑电、只靠外围信号反推的消费级设备，就不该把阶段分钟数呈现得像体温计读数。

正睡症不是「焦虑的人想太多」

Baron 那篇 orthosomnia 病例报告容易被误读成「用户太迷信数据」。这种读法太轻松，也太残忍。病例中的患者并不是随机挑剔。他们带着疲劳、注意力差、烦躁、失眠、睡眠呼吸暂停或不宁腿综合征等真实问题来到诊室。设备没有凭空创造所有痛苦，它给痛苦提供了一个解释框架。

一旦解释框架成形，反证会变得很难进入。B 女士的不宁腿症状经铁补充和加巴喷丁控制后，仍觉得睡眠浅而不恢复；家庭睡眠呼吸暂停测试阴性，实验室 PSG 也显示没有睡眠呼吸暂停，深睡眠比例还偏高。她仍问医生为什么 Fitbit 说她睡得差。1

这类执念有一个行为后果：为了让设备显示更多睡眠，人会延长卧床时间。对失眠者来说，这往往会适得其反。失眠认知行为疗法（CBT-I）经常会限制卧床时间，把床重新训练成睡眠线索。追求更高睡眠时长的设备反馈，可能把人推向相反方向。Baron 等人也承认，病例报告不能证明设备导致了睡眠问题；他们不知道患者是先担心睡眠才开始追踪，还是追踪后才「发现」睡眠问题。1

这个因果谦逊很重要。正睡症不是一个足以把所有责任扔给手表的新诊断。更保守的说法是：当设备分数、睡眠焦虑和错误行为互相强化时，一套反馈回路形成了。

睡眠反馈可以变成安慰剂，也可以变成反安慰剂

睡眠分数还有一个少被讨论的通道：它改变你对今天自己的预期。

Christina Draganich 和 Kristi Erdal 在 2014 年做了两项「placebo sleep」实验。164 名参与者先报告前一晚睡眠质量，然后被随机告知自己的 REM 睡眠占比高于平均水平 28.7%，或低于平均水平 16.2%。被操纵的睡眠质量，而不是自报睡眠质量，显著预测了 Paced Auditory Serial Addition Test 和 Controlled Oral Word Association Task 的表现；对照条件显示，这个结果不能简单归因于实验流程中的需求特征。6

这项研究不等于说「睡眠都是心理暗示」。它说明的是，关于睡眠的反馈本身能进入认知表现。一个设备早上告诉你「恢复不足」，它可能是在报告事实，也可能在给你的一天先扣一分。对自我实验者来说，这很糟糕：你以为自己在测睡眠对表现的影响，结果测进去了「被告知睡得差」对表现的影响。

这个反馈回路解释了为什么一些看似温和的产品设计会有强效应。红色警告、连续天数、恢复分、动物标签、排行榜、目标环，这些元素会把睡眠从身体状态变成可优化任务。优化不是坏事。坏的是用户不知道目标函数是什么，也不知道分数噪声有多大。

更好的用法：看趋势，不审判单夜

睡眠追踪器最适合回答低分辨率问题：我是不是连续几周睡得太少？周末是不是把作息推迟了两个小时？喝酒、晚咖啡、夜间工作、出差后，入睡和起床时间有没有稳定变化？这些问题不要求设备精确知道每段 N3。它只要在同一设备、同一算法、相似佩戴条件下捕捉趋势，就能给出有用线索。

临床指南也更接近这种思路。AASM 指南建议 actigraphy 用于多晚客观评估，独立检测的最小连续记录时长为 72 小时，最长通常可到 14 天；它的价值是把睡眠日志之外的客观模式带进综合评估，而不是取代 PSG 或医生判断。4

把这个原则移到消费级设备上，可以得到一组比较朴素的规则：

单夜分数只当提示，不当判决。醒来感觉尚可，却看到低分，不必立刻补救；醒来很疲惫，却看到高分，也不该否定主观体验。
总睡眠时间和作息时间比「深睡分钟数」更值得看。后者更依赖设备专有模型，也更容易被用户误读成临床分期。
同一设备内看长期趋势，不把不同品牌、不同固件、不同佩戴位置的数值硬比。
用睡眠日志保留主观维度：入睡前做了什么，夜里记得醒了几次，白天困不困，情绪和注意力怎样。Baron 等人建议患者不要完全用追踪器代替睡眠日记，正是因为治疗需要同时看到行为和体验。1
如果分数开始改变行为，尤其是让人延长卧床、取消活动、反复查看应用、把一天表现归因于昨晚分数，可以做一个更干净的自我实验：连续一两周戴设备但早晨不看分数，先记录主观睡眠和白天功能，周末再统一查看数据。

最后一条尤其适合高控制欲用户。它切断即时反馈，但保留长期观测。这样测到的更可能是睡眠本身，而不是睡眠分数造成的二次反应。

睡眠分数的正确地位

消费级睡眠设备处在一个尴尬位置。它们比纯主观回忆更稳定，比 PSG 更便宜、更可持续，也比医疗级 actigraphy 更容易进入普通生活。与此同时，它们的算法不透明，设备快速迭代，清醒检测和睡眠分期仍有硬伤。用得太少，浪费了一个低负担传感器；用得太重，传感器就变成了夜间道德考官。

最稳妥的地位是「有噪声的行为仪表盘」。仪表盘能提醒偏航，不能替你解释发动机。睡眠分数可以提示作息、压力和恢复之间的关系，但它不该独自决定你是否睡得好、是否需要治疗、今天是不是已经失败。

正睡症的反直觉处在这里：问题往往不是设备不够准，而是设备在局部变准之后，用户更愿意把它扩展到它没有资格回答的问题。一个能较好识别睡眠的传感器，未必能判断睡眠质量；一个能估算长期作息的模型，未必能解释白天疲劳；一个看起来客观的分数，未必比身体的含混感更接近真相。