根据发表在《PLOS一号》上的一项研究,在对50万名英国生物银行参与者的研究中,包括深度学习和随机森林在内的机器学习方法大大提高了诺丁汉大学团队预测过早死亡的能力。
该研究由助理教授兼研究科学家Stephen F. Weng博士领导,旨在通过开发和报告新的预后模型来补充现有技术,从而将机器学习融入传统的流行病学工作。两年前,同一团队报告称,机器学习模型可以将心血管疾病预测的准确性提高约3.6%。
翁和合著者写道:“在大数据时代,机器学习可以潜在地改变医疗保健,提供诊断评估方法,并使个体化治疗决策达到或优于临床医生,这是非常乐观的。”“使用机器学习开发的应用程序和算法面临的挑战不仅是增强传统方法能够实现的功能,还包括以类似的透明和可复制的方式开发和报告它们。”
对于他们目前的工作,研究人员考虑了502,628名40至69岁的成年人,他们的健康信息记录在英国生物银行2006年至2010年。利用人口统计数据,并考虑生物识别、临床和生活方式因素,他们开发了一个预测死亡率、学习、随机森林和考克斯回归的模型。
根据研究团队的结果,在累计随访3508454人年期间,有近3%的研究人群死亡,死亡率数据与国家记录一致。基于年龄和性别的Cox模型(一种传统的风险预测方法)可预测性最小,曲线下面积(AUC)为0.689,其次是多元Cox回归模型,可将区分度提高6.2%至0.751。
随机森林的应用进一步提高了3.2%的区分度,AUC达到0.783,其中深度学习模型最为成功。多元Cox回归方法得到的区分度为0.790,进一步提高了区分度3.9%。
与准年龄和性别Cox回归模型相比,两种机器学习算法(随机森林和深度学习)的区分度分别提高了9.4%和10.1%。虽然两种机器学习方法已经达到了相似的判别水平,并且校准良好,但Cox回归模型总是高估风险。
“研究表明,机器学习被用于探索各种个体临床、人口统计学、生活方式和环境风险因素的价值,从而产生标准方法无法实现的新颖和整体的模型,”翁等人是的。“这项工作表明,在开发预测或诊断模型时,应该更常规地考虑机器学习。”
作者说,下一步包括在更广泛的人群中验证这些方法,将它们整合到医疗保健系统中,并探索其他机器学习模型(如支持向量机或梯度提升)如何参与风险预测。
他们写道:“机器学习模型组成的有趣变化可以为潜在的重大风险因素提供新的假设生成,否则这些风险因素将不会被发现。”"然后,可以专门设计流行病学研究,并据此进行验证,以验证这些信号."