navigate
AI for Remote Meeting Distress
MediWatch
让远程会议中突发不适的人,被更早看见
倪成锦 21230728 · 马喆 21230727  |  人机交互设计 · 2026.04
远程会议 紧急识别 多模态 LLM 实时语音
Why MediWatch · 为什么开发
远程会议里看不见的紧急时刻
现有会议工具只有"开口说话"这一条求助通道 — 而不适的瞬间,恰恰是说话最难的时候

难以表达

突发不适时,参与者无法清晰描述自己的状态,更难打断正在进行的讨论。

难以察觉

主持人专注于会议内容,错过对方的非语言信号 — 表情、姿态、呼吸异常。

难以求助

远程隔离环境下,等到他人发现往往已经错过最关键的黄金响应窗口。

HCI 问题:会议系统能否帮人以更低的摩擦表达不适,并让他人更早注意到?
Insights · 文献给我们的启发
三条线索 → 让我们走多模态 LLM 路线
既有研究决定了 MediWatch 不做"分类预定义手势",而是做"理解画面发生了什么"

手势理解的范式迁移

GestureGPT / GestLLM / VERA 等工作显示:MLLM 在开放语义场景下比关键点分类器泛化得更好,能输出可解释的判断而不只是标签。

视频会议的非语言负担

Bailenson 的 Zoom fatigue 与 Hwang 的 video meeting signals 研究表明:现有 reaction 是轻量 backchannel,并未为"高风险求助"这一交互场景设计。

告警的反面教材

医疗 alert fatigue 文献反复提醒:误报会让真正重要的信号被系统性忽视。所以必须有多帧稳定 + 分级提示,而不是一触即发。

两个设计决策:① 选多模态 LLM 路线 — 开放语义、可解释;② 把信号设计成"会议内可共享"而非"私人健康提示"。
Video Prototype · Vision
如果会议系统能看见呢?
概念视频 — 设想 MediWatch 在真实会议场景下的样子
Point 1
自动检测 Emergency
浏览器实时捕获会议画面,多模态 LLM 持续分析非语言信号
1

Frame Capture

浏览器 Canvas 抽帧,定时把会议视频快照发送给后端 — 用户无需任何额外操作。

src/camera.js · Canvas frame snapshot

2

Multimodal Analysis

多模态 LLM 直接读图,识别明显不适、紧急姿态、求助意图等会议安全相关线索。

server/analysis.js · DashScope MLLM

3

Alert Promotion

多帧稳定一致后才升级为可见警报,叠加在视频上 — 避免单帧误判造成骚扰。

src/gesture.js · src/overlay.js

Point 2
AI 语音流式输出紧急医疗建议
警报触发后,实时语音模型同步播报应急指引 — 覆盖求助的黄金窗口

Realtime Session

警报触发的瞬间,立即开启一次 DashScope realtime 语音通道,零冷启动延迟。

Streaming Voice

边生成边播报,文字与音频持续流出 — 不等待整段文本完成,听感即时。

Emergency Coaching

聚焦短句应急动作引导,可被同会议成员同时听到,降低单点求助负担。

立场:我们不做医疗诊断 — 我们降低"求助"这一动作本身的摩擦。
Interactive Prototype
真实原型交互录屏
浏览器端运行的真实工作流 — 摄像头、检测、警报、语音 一条链路打通
Validation · 路线对比
MediaPipe 关键点 vs 多模态 LLM
5 类场景 × 5 次模拟 = 25 次试验,记录"系统是否正确响应"的命中数
场景(每类 5 次) MediaPipe 关键点 多模态 LLM
呼吸受阻(掐喉 / 捂喉) 2 / 5 4 / 5
胸口不适(按压胸口) 3 / 5 4 / 5
身体塌陷(前倾失支撑) 2 / 5 4 / 5
明确求助(help gesture) 4 / 5 5 / 5
正常对照(不误报) 3 / 5 4 / 5
总计命中率 14 / 25   (56%) 21 / 25   (84%)
观察:MediaPipe 在「手部遮挡脸部」「半身入镜骨架不全」两类场景上明显弱化;MLLM 凭整体语义理解更稳定。
注:课堂阶段小样本情境模拟,仅作路线选择判据,非统计结论。
MediWatch · HCI Prototype
Thank You
让紧急时刻被更早看见 — 也被更轻地表达
倪成锦 21230728 · 马喆 21230727  |  人机交互设计 · 2026.04
Q & A