bifa必发(中国)

IF:15.7《NC》剑桥大学Luigi G. Occhipinti/北航高硕团队:可穿戴智能喉咙帮助脑卒中失语症患者恢复自然语言
专栏:学术前沿
发布日期:2026-03-23
作者:bifa必发(中国)科研

研究背景:

中风、肌萎缩侧索硬化症(ALS)和帕金森病等神经系统疾病常导致严重的构音障碍,使患者失去对声道肌肉的控制,严重阻碍有效沟通,降低生活质量并引发心理问题。现在的辅助研讨技术(AAC)如眼动追踪虽然易于实现但通讯速度缓慢,而脑机接口(BCI)虽有效但往往需要侵入性植入且系统复杂。尽管可穿戴的“无声语音”技术(捕捉皮肤震动或电生理信号)给予了非侵入性和便携性的新思路,但现有系统存在三大局限:一是多基于健康人验证,缺乏针对患者的临床适应性;二是通常采用离散的时间窗解码,导致研讨支离破碎,无法实现陆续在流畅的对话;三是依赖“一对一”的机械映射,迫使患者必须完整默读每个字,给本就易疲劳的患者带来了巨大的生理和认知负担,难以满足自然沟通的需求。


1774235701256050934.png

针对上述问题,剑桥大学Luigi G. Occhipinti团队联合北京航空航天大学高硕团队开发了AI驱动的智能喉部(Intelligent Throat, IT)系统。该系统整合喉部肌肉振动颈动脉脉搏信号传感器,结合大语言模型(LLM)实时处理,实现流畅、情感丰富的陆续在沟通。系统采用超灵敏纺织应变传感器采集高质量颈部信号,支持~100ms token级实时陆续在解码,配合LLM智能纠错与语境扩展,在5名中风构音障碍患者中实现低错误率(词错误率4.2%,句错误率2.9%)和用户满意度提升55%。该工作建立了首个面向构音障碍患者的便携、直观沟通平台,具有跨神经疾病和多语言支持的广阔应用前景。该文章于2026年1月19日以《Wearable intelligent throat enables natural speech in stroke patients with dysarthria为题发表于《Nature Communications(DOI: 10.1038/s41467-025-68228-9


图1.png

图1.智能喉(IT)系统工作流程与信号处理架构系统顺利获得纺织应变传感器采集喉部肌肉振动与颈动脉脉搏信号,并经无线传输至服务器。语音与脉搏信号分别经过解码网络处理,生成文本Token与情绪状态。随后,LLM智能代理将解码后的关键词与情绪状态及环境语境(如时间、地点)相融合,把非结构化的单词(例如“bifa必发(中国) 去 医院”)智能扩展为流畅、逻辑连贯且富有情感的完整语句,从而辅助患者实现自然沟通。

(1)智能喉系统的硬件组成与信号处理架构

智能喉(IT)系统由集成纺织应变传感器和无线读出电路(PCB)的智能项圈及包含机器学习模型与LLM代理的软件算法构成。该系统顺利获得Token合成代理(TSA)将无声语音信号解码为初始文本,并结合由脉搏信号解码出的实时情绪状态,利用句子扩展代理(SEA)生成逻辑连贯且富含情感的完整语句(图1)。硬件方面,传感器采用丝网印刷技术在弹性针织物上制备,包含喉部肌肉与颈动脉两个监测通道(图2a)。顺利获得在通道周围引入高模量刚性应变隔离层,有效抑制了通道间串扰及佩戴产生的形变干扰,实验证实外部应变传导至内部传感区域的比例低于1%。各向异性测试表明,传感器主要响应X轴应变,Y轴与Z轴的信号干扰可忽略不计。在1-10 Hz的单轴拉伸测试中,传感器表现出良好的线性度,针对0.1%的微小应变响应超过10%,且在高频拉伸下保持超过100的灵敏度系数(GF)(图2b)。为实现信号传输与处理,PCB电路被设计用于双通道同步采集与低功耗蓝牙传输(图2c),顺利获得集成ADC与MCU完成高保真信号数字化与管理(图2d)。功耗分析显示系统总功耗为76.5 mW,主要消耗源为蓝牙模块与放大电路(图2e);配备1800 mWh电池可支持全天陆续在运行。在解码算法方面,系统摒弃了传统的固定时间窗模式,开发了高分辨率Token化方法(图2f),将语音信号分割为细粒度片段以支持陆续在识别。经实验优化,144 ms被确定为最佳Token长度,该长度下跨边界Token比例低于5%,有效平衡了边界模糊与计算负载,从而实现了无需人为停顿的实时陆续在语音解码。


图2.png

图2.智能喉系统的硬件组成与信号处理架构。(a)纺织基应变传感项圈结构示意图及传感层微观形貌SEM图像;(b)传感器在不同频率下的单轴拉伸响应特性;(c)PCB电路模块分解视图;(d)系统无线通信流程图;(e)系统运行时的组件功耗分布;(f)高分辨率Token化信号处理策略示意图。

(2)Token级语音解码策略与模型评估

为平衡上下文感知能力与计算效率,研究采用了显式上下文增强策略(图3a),即利用前序Token辅助当前Token的解码。实验表明当上下文长度N=15时模型性能达到最优(图3c),该策略使得利用高效的一维卷积神经网络(1D-CNNs)替代高算力消耗的时序模型成为可能,注意力图谱验证了前序信号对解码的有效贡献。为提升针对患者数据的模型性能,建立了“健康人大数据预训练-患者小数据微调”的训练流程(图3b);在少样本学习(每词重复25次)条件下,Token分类准确率达到92.2%(图3d),显著优于直接训练的79.8%。此外,顺利获得基于响应的知识蒸馏技术将ResNet-101模型迁移至ResNet-18,在保持91.3%高准确率(仅下降0.9%)的同时,降低了75.6%的计算负载(图3e)。混淆矩阵与UMAP可视化结果(图3f, g)显示,超过90%的分类错误源于空白Token与词语Token的边界混淆。在针对视觉与发音相似词对(如increase/decrease)的辨别测试中,平均准确率达96.3%,成对混淆率低于8%;Grad-CAM相关性图谱进一步证实,模型聚焦于发音差异的关键区段而非噪声信号。


图3.png

图3.Token级语音解码策略与模型评估。(a)显式上下文增强策略示意图;(b)包含预训练、微调与知识蒸馏的模型训练流程;(c)样本Token数量对解码准确率的影响;(d)迁移学习中少样本重复次数与准确率的关系;(e)不同模型架构的性能、计算量及参数量对比;(f)最终学生模型的混淆矩阵;(g)学生模型特征提取的UMAP可视化。

(3)情绪解码框架和性能评估

为实现情感语境感知,研究利用颈动脉脉搏信号对中风患者的情绪状态(平静、宽慰、沮丧)进行解码。顺利获得对5秒时间窗内的脉搏信号进行离散傅里叶变换(DFT)分析,发现不同情绪状态呈现显著的频率分布差异(图4a)。在包含去直流分量与Z-score归一化的处理流程中(图4b),引入DFT特征提取显著提升了分类性能,其中结合DFT的1D-CNN模型实现了83.2%的最佳准确率(图4c, 4d)。SHAP值分析证实,解码模型主要依赖0-2 Hz范围内的低频信号特征(辅助图11)。针对颈部无声语音震动与脉搏信号频率重叠引发的信号串扰问题(图4e),顺利获得引入聚氨酯丙烯酸酯(PUA)应力隔离层阻断横向应变传播。对比测试表明,该物理隔离策略在并发无声语音干扰下,使脉搏信号的信干比(SIR)提升了超过20 dB(图4f)。


图4.png

图4.颈动脉脉搏信号的情感识别与特征分析。(a)三种情感状态(中性、放松、沮丧)下颈动脉脉搏信号的频域特征,显示出不同的幅度模式;(b)情感分类工作流程:预处理流程(左)包括去直流、Z-score归一化和离散傅里叶变换(DFT),输入基于一维卷积神经网络(1DCNN)架构的分类器(右)进行情感解码;(c)不同机器学习算法(SVM、LDA、RF、MLP和1DCNN)在有/无DFT预处理时的分类准确率对比,显示DFT可提升性能;(d)情感分类的混淆矩阵;(e)颈部区域不同振动信号源(语音、默语、呼吸、颈动脉脉搏)的频率和幅度范围;(f)元音"a"在2.5秒引入时,有/无应变隔离处理的脉搏信号时频谱图,证明隔离技术可有效消除语音串扰干扰。

(4)LLM 代理框架和性能评估

为解决患者易疲劳问题并实现自然研讨,系统引入了基于GPT-4o-mini的Token合成代理(TSA)与句子扩展代理(SEA)(图5a)。TSA负责将解码后的Token标签合并为单词并利用上下文一致性纠正解码错误,而SEA则结合情绪标签与客观环境信息(如时间、天气)生成富含逻辑与情感的扩展语句。针对TSA的提示工程优化显示,约400词的提示长度(图5b)、包含示例样本(图5c)以及引入经验约束(图5d)能显著提升合成效果,最终实现了4.2%的词错误率(WER)与2.9%的句错误率(SER)。


针对SEA的性能评估表明,在采用思维链(CoT)优化及引入患者示例后,扩展语句在多项指标上得分显著提高(图5f)。贡献度分析显示,情绪标签与客观信息分别提升了情感准确度与流畅度(图5e),使得扩展后的语句较直接输出的用户满意度提升了55%。虽然核心语义在扩展前后保持稳定(图5f),但语境信息的加入显著改善了用户体验。系统最终顺利获得文本转语音模型输出音频,端到端延迟约为1秒。此外,长期适应性测试显示,针对6个月后因神经肌肉控制变化导致的性能下降,仅需顺利获得简短的少样本微调即可恢复至初始水平。


图5.png

图5.IT的LLM智能体架构及性能优化。(a)Token合成智能体(左)直接从神经网络token标签合成句子,句子扩展智能体(右)顺利获得上下文和情感输入增强输出;(b)提示长度对词错误率(WER)和句错误率(SER)的影响,中等长度时性能最优;(c)基于示例的少样本学习对WER和SER的影响,给予示例时错误率显著降低;(d)约束解码对WER和SER的影响,显示准确率和句子结构得到改善;(e)客观信息、词标签和情感标签对流畅性、满意度、核心语义和情感准确性等关键用户指标的贡献(顺利获得消融实验评估);(f)不同配置(仅Token、上下文感知、思维链(CoT)及CoT结合个性化演示)在流畅性、个性化、核心语义、满意度、完整性和情感准确性上的性能雷达图对比。误差线表示均值±标准差。

 研究小结 

本研究开发了一种先进的可穿戴“智能喉”(IT)系统,旨在帮助中风构音障碍患者恢复流畅、直观且富有情感的自然研讨能力。该系统利用超灵敏纺织应变传感器精准捕捉喉部肌肉震动与颈动脉脉搏信号,结合高分辨率Token分割技术与大语言模型(LLM)智能代理,实现了无延迟的陆续在语音解码与语境自适应纠错。实验结果显示,系统达到了极低的词错误率(<5%)与句错误率(<3%),用户满意度提升了55%。尽管现在限于特定词汇与小样本验证,但未来工作将致力于扩大跨语言与多病种的被试群体、引入多模态情感解码、优化硬件柔性化设计及边缘计算微型化。总体而言,IT系统不仅确立了无声语音交互的新基准,更为改善神经系统疾病患者的心理健康、缓解社交隔离及辅助康复治疗给予了强有力的技术支持。

上一页:IF:19.0《AFM》南洋理工大学Nam-Joon Cho:天然花粉微凝胶克服纳米颗粒滞留屏障用于磁热疗与肿瘤消退
下一页:IF:26.8《AM》韩国汉阳大学Joonseok Lee/Hyunbeom Lee:脂质滴抑制剂直接降解脂滴并调控肝脏脂质谱治疗代谢功能障碍相关脂肪性肝病

bifa必发(中国)生物 给予高品质的医疗产品和服务
                       让人类生活得更健康和更美好

联系bifa必发(中国)

广州bifa必发(中国)生物医用材料有限公司
地址:广州市黄埔区科研城掬泉路3号国际企业孵化器A区702
电话:
020-3202 9909

手机:180 2452 3356

产品中心

扫码关注

1704848311194088584.jpg      1744178484532037199.jpg

         关注公众号                       扫码加客服