突发不适时,参与者无法清晰描述自己的状态,更难打断正在进行的讨论。
主持人专注于会议内容,错过对方的非语言信号 — 表情、姿态、呼吸异常。
远程隔离环境下,等到他人发现往往已经错过最关键的黄金响应窗口。
GestureGPT / GestLLM / VERA 等工作显示:MLLM 在开放语义场景下比关键点分类器泛化得更好,能输出可解释的判断而不只是标签。
Bailenson 的 Zoom fatigue 与 Hwang 的 video meeting signals 研究表明:现有 reaction 是轻量 backchannel,并未为"高风险求助"这一交互场景设计。
医疗 alert fatigue 文献反复提醒:误报会让真正重要的信号被系统性忽视。所以必须有多帧稳定 + 分级提示,而不是一触即发。
浏览器 Canvas 抽帧,定时把会议视频快照发送给后端 — 用户无需任何额外操作。
src/camera.js · Canvas frame snapshot
多模态 LLM 直接读图,识别明显不适、紧急姿态、求助意图等会议安全相关线索。
server/analysis.js · DashScope MLLM
多帧稳定一致后才升级为可见警报,叠加在视频上 — 避免单帧误判造成骚扰。
src/gesture.js · src/overlay.js
警报触发的瞬间,立即开启一次 DashScope realtime 语音通道,零冷启动延迟。
边生成边播报,文字与音频持续流出 — 不等待整段文本完成,听感即时。
聚焦短句应急动作引导,可被同会议成员同时听到,降低单点求助负担。
| 场景(每类 5 次) | MediaPipe 关键点 | 多模态 LLM |
|---|---|---|
| 呼吸受阻(掐喉 / 捂喉) | 2 / 5 | 4 / 5 |
| 胸口不适(按压胸口) | 3 / 5 | 4 / 5 |
| 身体塌陷(前倾失支撑) | 2 / 5 | 4 / 5 |
| 明确求助(help gesture) | 4 / 5 | 5 / 5 |
| 正常对照(不误报) | 3 / 5 | 4 / 5 |
| 总计命中率 | 14 / 25 (56%) | 21 / 25 (84%) |