通过对精准医疗大数据的处理、分析和应用,可实现慢病大数据中潜藏价值信息的精准挖掘,更加精确、有效地探索个体间慢病发生的病因和发展过程,识别异常点,找出控制慢病发生、发展的相关因素,进而进行慢病的精准预测、风险判别、及时预警,并辅助临床医生决策,有效降低医疗成本,提高医疗效率和服务质量。
【摘要】随着社会老龄化、经济发展等多种因素影响,慢性非传染性疾病为国民生活带来的巨大危害,面向精准诊疗的慢病防治、数据分析技术研究已成为国内外慢病防治学术界和业界非常关注的焦点,探讨面向精准诊疗的慢病数据分析关键技术。介绍慢性疾病关键技术发展现状、基于本体的模型知识表达、特征提取方法以及相同相关技术。分析常见的面向精准诊疗的慢病数据分析技术,以及具体应用。面向精准诊疗的慢性疾病数据分析关键技术,实现了精确、有效地探索个体间慢病发生的病因和发展过程,识别异常点,找出控制慢病发生,发展的相关因素,进而进行慢病的精准预测、风险判别、及时预警,并辅助临床医生决策,有效降低医疗成本,提高医疗效率和服务质量。
【关键词】慢病管理;数据分析技术;精准诊疗
随着社会老龄化、经济发展等多种因素影响,心血管类疾病、慢性呼吸系统疾病以及糖尿病、癌症在内的慢性非传染性疾病(以下简称慢病)发生呈现年轻化、发病率高等特点,面对慢病带来的巨大危害,面向精准诊疗的慢病防治、数据分析技术研究已成为国内外慢病防治学术界和业界非常关注的焦点。研究慢病防治中数据分析关键技术,从各种各样类型的巨量数据中,快速将隐藏的信息和知识挖掘出来,为慢病精准诊疗提供合理科学依据,提高慢病领域的防诊治康效率,甚至有利于加速整个社会经济的集约化程度,具有重大意义。
1面向精准诊疗的慢性疾病发展现状
1.1面向精准诊疗的慢性疾病发展状况
近年来,多项统计研究表明慢病已经成为威胁人类健康的重大疾病之一。全球各个国家也承担着慢病所带来的最大经济负担。早在20世纪80年代由美国的梅奥诊所提出了“疾病管理”概念,随后延伸出慢病管理等概念,90年代中期逐渐成为商业化服务模式。Epstein等人提出系统性的群体管理方法可以被称为慢病管理,其中包括数据分析、临床结果测量、措施干预、风险识别等。2011年,由美国正式提出精准医学概念,此后,世界范围内的疾病精准医疗相关研究呈现暴发式增长。传统慢病诊疗手段往往是通过病史、查体、检验、检查方法实现诊断,从而采取综合治疗方式。随着数据分析技术的不断发展,基于医疗大数据分析的精准诊疗已逐步成为未来发展趋势,参与性、预测性、预防性、个性化及精准性成为慢病服务发展的根本引领,该模式实现的根源就在于包括医疗大数据的集成化处理和智能算法的开发在内的慢病数据分析关键技术研究。
随着我国经济飞速发展,慢病同样也成为影响我国国民生活质量的重要问题,《中国卫生健康统计年鉴(2020)》显示,在我国居民主要死亡原因构成中,心血管疾病、恶性肿瘤与呼吸系统疾病排名占据前三,开展面向精准诊疗的慢病数据分析,进行患者全过程慢病管理已迫在眉睫。在《“健康中国2030”规划纲要》《关于促进“互联网+医疗健康”发展的意见》等政策中明确指出,我国坚持“将健康融入所有政策”的理念,针对心脑血管疾病、癌症、慢性呼吸系统疾病和糖尿病等4类重大慢病开展管理、防治工作。与此同时,国家鼓励通过信息技术进行慢病管理实践,在《中国防治慢性病中长期规划(2017一2025年)》中指出,需要充分利用移动互联网、大数据、云计算等信息技术丰富慢病防治手段,推进远程诊疗、疾病管理、在线随访等网络服务应用。将慢病分析的关键信息技术融入各个环节,实现传统诊疗管理模式向数字化精准诊疗管理模式转变。
1.2相关技术发展
虽然海量、高维的慢病诊疗过程中产生的大数据为精准诊疗的发展和应用提供了数据支撑,但由于记录慢病诊疗过程的信息系统繁杂性、异构性等,使得数据储存、清洗、分析和应用的难度增加:此外,存储成本高、效率低,也成为慢病大数据分析下的精准诊疗技术应用面临的主要问题。随着物联网技术以及人工智能技术的成熟与普及,为慢病精准诊疗提供了技术支持。
当前,在互联网、智能手机以及智能可穿戴设备的快速发展下,移动物联网技术日趋成熟,并且在慢病领域逐渐形成了高效、稳定的现代化医疗服务新模式。以移动物联网技术对慢病管理进行危险因素控制,有助于患者生活质量的提升。Pagiatakis等人提出基于物联网可穿戴设备的远程医药服务平台,通过管理糖尿病患者用药进行危险因素控制。Omboni等人主要研究以移动医疗与远程健康为特征干预的临床慢病诊疗的有效性,用Meta分析验证了其有效性。Lee等人构建了一种基于云端的生命体征监测系统,并支持患者在各种终端上进行查看。虽然国内对于基于精准诊疗的慢病数据分析技术研究相对起步较晚,但前景较为广阔。段凯等人结合互联网技术,构建慢病监测系统,实现不受时空约束,依据患者自身情况进行慢病管理。Guo等人对可穿戴设备及非侵入式传感技术进行了分析,为慢病管理模式提供了技术支持。徐明珍等人结合AI技术,分析了当前慢病数据分析与管理面临的挑战及解决策略,为精准诊疗的慢病管理系统提供了新的思路。
通过人工智能技术发现、学习与推理各类知识,从而辅助慢病风险预测、临床决策、治疗方案生成等,降低医疗失误、提升慢病管理效率。Jain等人运用特征选择和分类技术设计了自适应分类系统和并行分类系统用于慢性疾病诊断预测。Peili等人基于深度学习方法分析了心血管类疾病患者相关数据,构建了心血管疾病早期预警管理系统,为慢病精准诊疗提供技术支撑。在Tsoi等人的综述中,将AI在高血压疾病分析管理的应用分为:AI在高血压识别发病预测以及相关临床事件预测的应用;AI在高血压慢病干预措施和干预效果评估应用;基于AI技术的血压辅助测量方法。LopezMartinez等人运用人工神经网络模型来识别高血压。Kanegae等人同样使用XGBoost2算法进行新发高血压的预测,并获得了较好的预测性能。Contreras等人的综述中提出AI技术在糖尿病管理应用可分为基于AI的血糖预测、不良事件检测、血糖控制策略制定等。Perez-Gandia等人通过连续测量血糖数据,使用人工神经网络构建了血糖预测模型。Nguyen等人基于机器学习方法贝叶斯神经网络构建了基于脑电图信号的无创式低血糖事件检测。Mekov等人指出在慢性呼吸系统疾病辅助诊疗方面,可以通过AI技术实现辅助慢性呼吸疾病诊断、急性加重检测与预警、辅助慢病治疗等。用户画像可以利用慢病患者相关信息进行个性化管理和推荐,对患者的多源异构、信息进行展示。Jin等人针对健康管理过程中患者画像设计了一种可视化系统,以提高患者自身的健康认知水平。
针对面向精准诊疗的慢病分析关键技术研究,国内外均在借助专业医疗知识,移动物联网技术、人工智能技术等改进现有慢病管理过程中的某一方面或具体环节,提高慢病管理效果取得了较多进展。
2慢性疾病数据分析关键技术
随着移动物联网、人工智能技术的飞速发展,以及可穿戴设备的普及,健康医疗数据迅速积累,形成了医疗健康领域的“大数据”,基于慢病数据分析的精准诊疗应运而生,包括了精准预防、精准治疗、精准预后等。借助于医疗健康大数据的AI方法,可将来自不同系统、设备记录、收集的海量慢病数据进行充分挖掘与知识学习,实现精准的个体慢病决策支持。
在慢病管理领域,人工智能技术主要为以本体为代表的知识驱动方法与以机器学习、深度学习为代表的数据驱动方法。以本体为代表的知识驱动方法所表达的模型具有支持语义互操作、可共享、可重用等慢病领域模型的常见特征。数据驱动方法可以划分为基于结构化数据的统计学习方法、机器学习方法和基于非结构化数据的深度学习方法。
2.1基于本体的模型知识表达
本体是对可共享概念模型的一种明确而形式化的说明,本体的构建是一项较为复杂的工程,本体应主要包括:类、属性以及对属性的限制约束,一般类由概念构成,属性由描述概念特征构成。将概念进行分层,由本体与类对应的实例的组合构成了知识库,由实例及属性构成了知识图谱。斯坦福大学提出了七步法是当前使用较为广泛的本体构建方法之一,通过将本体构建要素进行结合,提供了一种具有较强可操作性的本体构建方法。见图1。
在慢病分析过程中,本体能够进行慢病精准诊疗管理,搭建底层基础架构。Verma等人指出慢病领域的本体主要包括慢病知识的领域本体以及用于推动精准诊疗的应用本体。本体可以在慢病决策支持过程中对所需要的慢病知识进行高效的表达,为慢病分析赋予演绎式推理的能力。
2.2特征提取方法
在慢病诊疗大数据中存在多个多源异构、高维的数据集,使得研究者无法把所有特征同时放入一个模型中进行分类预测。此外,在预测模型中也并非特征越多越好。在慢病精准诊疗过程中需要通过特征提取方法帮助研究人员进行分析特征、理解特征,并对慢病数据特征进行降维处理,从而降低运算复杂度、提高预测模型正确率。特征选择标准是决定特征重要程度高低的标准,如果模型选取特征变量相关度低的值,则数据分类较差,会降低预测器的准确率。
在面向精准诊疗的慢病数据选择特征时常用3类方法,即过滤式方法、嵌入式方法、包含式方法。其中,过滤式方法是通过慢病数据筛选的变量排序作为变量选择的标准,再通过使用合适的慢病变量标准对变量进行评分、选择,来减少不必要的变量。嵌入式方法在慢病数据特征选择过程中需要与模型空间进行拟合,通过不断迭代,筛选较好的特征,通过自己的迭代过程融入模型学习中,从而进行特征选择。包含式方法主要是通过学习模型作为子集评估标准,不断在特征空间中找到子集空间,然后进行评估,评估的结果可以作为一个目标函数。
2.3常用机器
学习与深度学习算法在慢病数据分析预测中,常常使用机器学习和深度学习算法进行预测。对输入的慢病数据集按照个体进行分类,被称为分类算法。如经典机器学习方法支持向量机,它是一种二分类的模型,基于线性划分与非线性分类。对于一个慢病样本集,可以利用SVM分类器进行分类,得到一个基于样本集的划分超平面,并通过直线分成不同的类别,通过类别划分为2类时,划分超平面的数量相对较多,其划分的直线对样本集内部发生变化时的影响也最小。尽管传统的机器学习技术已普遍应用在慢病数据分析预测中,但机器学习需要大量带标签的训练样本,在很多情况下,收集足够的训练数据通常比较费时。通过迁移学习,利用来自不同领域获得的数据进行训练,往往效率更高。迁移学习中训练和测试的数据样本分布可能不同。根据迁移学习的定义,可将迁移学习分为3个子设定,包括:直推式迁移学习、归纳迁移学习和无监督迁移学习。
将迁移学习方法运用在慢病分析中有不同的实现策略,即如何实现慢病分析的迁移学习,可分为2种,包括同构迁移学习方法和异构迁移学习方法。同构迁移学习是采用分布相同的方法进行学习,但其源和目标域特征空间不同、异构迁移学习是分布相同、特征空间不同的迁移学习。它是在不同特征空间中表示源和目标域的场景里进行。异构迁移学习可以进行针对呼吸系统慢病的影像识别、慢病大文本的文本分类、药物功效分类等深度学习算法模拟人类大脑处理数据和创造制定决策的模式,常见的算法包括人工神经网络、循环神经网络等。在慢病分析领域,人工神经网络可以不依赖于固定的模型参数,其预测能力主要来自网络结构与训练方式。常见的应用于精准诊疗慢病分析领域的人工神经网络一般包含了输入层、隐含层及输出层。在慢病分析训练及预测过程中,输入数据经输入层采集,通过隐藏层计算,最终由输出层输出最终慢病分析相关预测结果,在人工神经网络中每个神经元都具有各自的权重、偏置、激活函数等参数,这些参数最终决定了模型的表达能力。
循环神经网络是以序列数据为输入并进行递归,所有循环单元均按链式连接的递归神经网络。它具有记忆性,广泛用于时间序列预测中。循环神经处理序列数据,可预测时间序列发生情况,对数据时序性要求较高,在网络中表现为:除隐藏层之间的节点是连接的之外,内部相邻的节点也是连接的。
2.4其他相关技术
2.4.1常用的推荐算法
建立慢病健康知识库为慢病分析推荐服务提供依据,推荐算法是面向精准诊疗的慢病健康知识推荐技术的核心,根据推荐慢病健康知识算法策略不同,可分为协同过滤推荐、内容推荐及混合推荐等推荐方法。
协同过滤推荐主要依赖慢病患者与发病程度等相关内容的历史交互信息,其本质并不关注患者本身的特性。此外,在协同过滤推荐算法的基础上衍生出了基于神经网络的协同过滤、基于回归模型的协同过滤等推荐方法。基于内容的推荐算法是通过某种方法得到患者与慢病相关推荐的相似度,并以此为推荐的依据。混合推荐算法,将患者的特征、属性与协同过滤推荐算法融合,基于图模型的推荐方法可以作为混合推荐算法的一种,通过图嵌入学习,从而更加直观、高效地还原患者与慢病初始空间中的关系。
2.4.2图像分割
在慢病诊疗过程中,需要通过如超声、放射、病理等检查报告进行诊疗确认,而检查报告往往涉及图像的分析过程。通过面向精准诊疗的图像分割方法,可实现系统化、快速分析、分类。
图像分割一般是指根据如纹理、形状、灰度、颜色等在内的特征把图像划分成若干个互不交叠的区域,使这些特征在同一区域内呈现出相似性,不同区域间呈现出明显的差异性。
传统的图像分割方法是通过医学图像的先验特征进行划分的。它通过设定一个阈值,将图像的像素值与阈值进行比较分类,通过医学图像的自身特性,诸如纹理、颜色、边缘等作为阈值标准进行图像划分。针对基于深度学习的图像分割,提供了基于标准深层网络结构的基础,以及新的算法模型。在图像分类、检测分割方面,卷积神经网络取得了巨大的成果,它的多层结构能自动学习特征,并且可以学习到多个层次的特征。它可以对传统分割区域赋予特定的语义类别属性,更为细粒度层面进行分类,具有重要的研究意义和广阔的应用前景。
2.4.3医疗大数据可视化技术
基于医疗大数据的精准慢病诊疗可视化技术包含传统的可视化展示和信息可视化,从面向精准诊疗的慢病数据分析角度出发,信息可视化技术尤为重要。根据慢病数据类型可分为时空数据、非时空数据2大类。
时空数据是指具有地理位置与时间标签的数据。基于慢病的时空数据可视化可以与慢病发生的地理制图相结合,与时间、空间维度以及慢病相关的信息对象属性关联,建立可视化表征。面向精准诊疗的慢病大数据环境下时空数据具有高维性、实时性等特点。针对慢病数据的非时空可视化,包括层次和网络数据可视化、文本和文档可视化、复杂高维多元数据可视化3类。层次数据可视化主要通过节点一链接法和空间填充法来实现。
网络数据不具有自下向上或自上向下的层次结构,这决定了网络数据可视化可用弧长链接图法和力引导布局图来实现。文本信息是医疗大数据时代非结构化数据的典型,能够将文本中蕴含的语义特征形象化表达,可采用标签云和文档散,又称旭日图法的2种方法。复杂高维的多元数据是指具有多个维度属性的数据变量。高维多元慢病数据分析的日标是探索高维多元数据项的分布规律和分布模式,从而揭示不同维度属性之间的隐含关系。
3思考与建议
上述慢病数据分析关键技术实现了对精准医疗大数据的处理、分析和应用,从而实现慢病大数据中潜藏价值信息的精准挖掘,更加精确、有效地探索个体间慢病发生的病因和发展过程,识别异常点,找出控制慢病发生、发展的相关因素,进而进行慢病的精准预测、风险判别、及时预警,并辅助临床医生决策,有效降低医疗成本,提高医疗效率和服务质量。
3.1加强数据驱动
当前慢病数据分析与管理常用基于语义规则引擎进行决策支持。虽然规则驱动的方法能够准确表达慢病医学知识,保证结果的可解释性,但该方法需要进行人工维护,无法应对更加复杂的场景和个性化需求。在未来面向精准诊疗的慢病分析研究领域,需要着重对以数据驱动的智能化决策支持方法进行研究。
3.2配备可穿戴设备
慢病患者可通过自我监测进行自身身体状况的掌握和实时动态的预警,这就要求监测数据的准确性。但目前可穿戴设备能够实现局域网络环境的闭环式工作流程相对较少,患者无法方便地在局域网或医疗机构内网环境中进行移动终端设备的实时传输。此外,智能监护算法与物联网设备目前并没有实现产业化闭环式管理。因此,基于物联网技术的居家监测设备集成也是慢病管理未来的研究方向之一。
3.3强化健康
行为千预在慢病管理中,往往无法借助信息技术将相关的健康行为理论完美融合到具体的干预措施之中,缺乏对于患者心理层面的作用与内在行为改变动机的激励。强化健康行为干预,基于健康行为理论的干预方案设计也值得今后研究思考。