MediWatch — 项目演示

AI for Remote Meeting Distress

MediWatch

让远程会议中突发不适的人，被更早看见

倪成锦 21230728 · 马喆 21230727 | 人机交互设计 · 2026.04

远程会议紧急识别多模态 LLM 实时语音

Why MediWatch · 为什么开发

远程会议里看不见的紧急时刻

现有会议工具只有"开口说话"这一条求助通道 — 而不适的瞬间，恰恰是说话最难的时候

难以表达

突发不适时，参与者无法清晰描述自己的状态，更难打断正在进行的讨论。

难以察觉

主持人专注于会议内容，错过对方的非语言信号 — 表情、姿态、呼吸异常。

难以求助

远程隔离环境下，等到他人发现往往已经错过最关键的黄金响应窗口。

HCI 问题：会议系统能否帮人以更低的摩擦表达不适，并让他人更早注意到？

Insights · 文献给我们的启发

三条线索 → 让我们走多模态 LLM 路线

既有研究决定了 MediWatch 不做"分类预定义手势"，而是做"理解画面发生了什么"

手势理解的范式迁移

GestureGPT / GestLLM / VERA 等工作显示：MLLM 在开放语义场景下比关键点分类器泛化得更好，能输出可解释的判断而不只是标签。

视频会议的非语言负担

Bailenson 的 Zoom fatigue 与 Hwang 的 video meeting signals 研究表明：现有 reaction 是轻量 backchannel，并未为"高风险求助"这一交互场景设计。

告警的反面教材

医疗 alert fatigue 文献反复提醒：误报会让真正重要的信号被系统性忽视。所以必须有多帧稳定 + 分级提示，而不是一触即发。

两个设计决策：① 选多模态 LLM 路线 — 开放语义、可解释；② 把信号设计成"会议内可共享"而非"私人健康提示"。

Video Prototype · Vision

如果会议系统能看见呢？

概念视频 — 设想 MediWatch 在真实会议场景下的样子

Point 1

自动检测 Emergency

浏览器实时捕获会议画面，多模态 LLM 持续分析非语言信号

1

Frame Capture

浏览器 Canvas 抽帧，定时把会议视频快照发送给后端 — 用户无需任何额外操作。

src/camera.js · Canvas frame snapshot

2

Multimodal Analysis

多模态 LLM 直接读图，识别明显不适、紧急姿态、求助意图等会议安全相关线索。

server/analysis.js · DashScope MLLM

3

Alert Promotion

多帧稳定一致后才升级为可见警报，叠加在视频上 — 避免单帧误判造成骚扰。

src/gesture.js · src/overlay.js

Point 2

AI 语音流式输出紧急医疗建议

警报触发后，实时语音模型同步播报应急指引 — 覆盖求助的黄金窗口

Realtime Session

警报触发的瞬间，立即开启一次 DashScope realtime 语音通道，零冷启动延迟。

Streaming Voice

边生成边播报，文字与音频持续流出 — 不等待整段文本完成，听感即时。

Emergency Coaching

聚焦短句应急动作引导，可被同会议成员同时听到，降低单点求助负担。

立场：我们不做医疗诊断 — 我们降低"求助"这一动作本身的摩擦。

Interactive Prototype

真实原型交互录屏

浏览器端运行的真实工作流 — 摄像头、检测、警报、语音一条链路打通

Validation · 路线对比

MediaPipe 关键点 vs 多模态 LLM

5 类场景 × 5 次模拟 = 25 次试验，记录"系统是否正确响应"的命中数

场景（每类 5 次）	MediaPipe 关键点	多模态 LLM
呼吸受阻（掐喉 / 捂喉）	2 / 5	4 / 5
胸口不适（按压胸口）	3 / 5	4 / 5
身体塌陷（前倾失支撑）	2 / 5	4 / 5
明确求助（help gesture）	4 / 5	5 / 5
正常对照（不误报）	3 / 5	4 / 5
总计命中率	14 / 25 (56%)	21 / 25 (84%)

观察：MediaPipe 在「手部遮挡脸部」「半身入镜骨架不全」两类场景上明显弱化；MLLM 凭整体语义理解更稳定。
注：课堂阶段小样本情境模拟，仅作路线选择判据，非统计结论。

MediWatch · HCI Prototype

Thank You

让紧急时刻被更早看见 — 也被更轻地表达

倪成锦 21230728 · 马喆 21230727 | 人机交互设计 · 2026.04

Q & A