随着深度学习技术的进步,神经网络现在能够直接从原始语音数据中学习高质量的通用表示(representations),并将其应用于各种语义和非语义的语音相关任务。例如,通过分析语音中的非语义特征(如发音、共鸣等),可以检测和监控一些脑血管和神经退行性疾病(如中风、帕金森病、阿尔茨海默病等)。除此之外,源自呼吸系统气流的声音(如咳嗽声和呼吸模式)也可以用于健康监测。例如,医生可以通过识别类似百日咳的“呜”声或急性心血管事件中的喘息声来诊断相应的疾病。
谷歌的研究团队开发了一种名为 Health Acoustic Representations (HeAR) 的生物声学基础模型,该模型旨在通过分析人体的声音信号(如咳嗽、讲话和呼吸)来检测疾病。HeAR模型利用300万个音频数据训练而成,其中包括大约1亿个咳嗽声音,用于识别与健康相关的声学模式。
Spline AI基于Stable Diffusion v2的AI生成技术,通过跟AI对话,基于文本快速实现 3D 建模。