基于健康体检数据的结直肠息肉风险预测模型的构建与评估

来源:职称论文发表指导网 作者:tt7129 发布时间:
扫码咨询
   摘要:目的:探讨结直肠息肉的影响因素并构建早期风险预测模型。方法:收集2016年11月至2021年10月于郑州大学第一附属医院健康管理中心同时进行结肠镜检查和血常规、生化指标检查的4997名受检者

  目的:探讨结直肠息肉的影响因素并构建早期风险预测模型。方法:收集2016年11月至2021年10月于郑州大学第一附属医院健康管理中心同时进行结肠镜检查和血常规、生化指标检查的4997名受检者资料,包括22项指标,使用最小绝对收缩选择算子(LASSO)进行特征变量筛选。按7:3随机分组,在训练集中采用得到的最优变量构建梯度提升(Catboost)、支持向量机(SVM)、Logistic回归(LR)预测模型,在测试集中进行验证。采用(x^{2})检验比较3种模型的准确率,进一步通过净重新分类指数(NRI)、综合判别改善指数(IDI)、ROC曲线下面积(AUC)评估模型的预测性能,并对纳入因素进行重要性评估。结果:LASSO回归得到性别、年龄、腰围(WC)、尿素(BU)、总蛋白(TP)、肾小球滤过率(GFR)、甘油三酯葡萄糖指数(TyG)等7项特征变量,基于该7项特征变量构建的SVM、Catboost模型的准确率优于LR模型((P<0.05))。SVM、Catboost、LR模型测试集的AUC(95%CI)分别为0.760(0.736~0.784)、0.766(0.742~0.790)和0.676(0.649~0.703)。进一步评估显示SVM模型预测效果最优,Catboost次之,LR最差(SVM vs Catboost/LR:(NRI >0),(IDI >0),(P<0.05);Catboost vs LR:(NRI >0),(IDI>0),(P<0.001))。特征重要性评估显示年龄的重要性最大,其次是WC。结论:基于性别、年龄、WC、BU、TP、GFR、TyG构建的SVM模型具备较好的预测价值。该预测模型的建立可对健康体检人群进行危险分层,有助于尽早发现结直肠癌早期病变。

  论文《基于健康体检数据的结直肠息肉风险预测模型的构建与评估》发表在《郑州大学学报(医学版)》,版权归《郑州大学学报(医学版)》所有。本文来自网络平台,仅供参考。

变量数

  有研究[1]报道,2020年全球结直肠癌(colorectal cancer, CRC)新发病例超过190万,占全球肿瘤病例的10%;死亡病例93.5万,占全球肿瘤相关死亡总数的9.4%。有数据[2]显示我国CRC发病率已居所有恶性肿瘤的第2位,死亡率居第4位。河南省城市男性CRC中标发病率于2010~2018年呈上升趋势,总体发病率随年龄增加而升高[3],因此有必要积极推动CRC的预防控制工作。CRC主要有腺瘤-癌症途径、锯齿状病变途径、炎症途径3个致癌途径[4],其中60%~70%散发的CRC通过腺瘤-癌症途径,15%~30%由锯齿状病变致癌途径[5],有不到2%的CRC通过炎症相关致癌途径发展而来。

  结直肠息肉是CRC的必经阶段,但是发展成CRC需要5~10a的时间,这为早期诊断和临床干预提供了很大的空间,且早期筛查、早诊、早治可以有效降低CRC的死亡率,改善预后[5]。结肠镜检查是早期诊断CRC或结直肠息肉最有效的手段之一[6],但结肠镜是一种侵入性检查,需要严格的肠道准备,而且有穿孔、出血等风险,导致人群的依从性和参与率较低;因此,识别结直肠息肉的影响因素,建立结直肠息肉的预测模型尤为必要。近年来一些研究[7-9]表明,结直肠息肉的发生与性别、年龄、种族、饮食、生活行为习惯、肠道微生物、代谢综合征、家族史等因素相关,但仍然存在争议,且对常规体检项目的研究相对较少。本研究基于健康体检数据构建结直肠息肉预测模型,以期为筛查CRC高危人群提供支持。

  1 对象与方法

  1.1 研究对象

  数据来源于2016年11月至2021年10月在郑州大学第一附属医院健康管理中心进行健康体检的人群,选取其中同时进行结肠镜检查和血常规、生化指标检测者。参照结直肠息肉诊断标准《胃肠道腺瘤和良性上皮性息肉的病理诊断共识》[10],分为息肉组和无息肉组。排除标准:① 研究对象基本资料不全或肠道准备不充分者;② 既往有炎症性肠病、结肠黑变病、CRC等消化道疾病者;③ 严重心脑血管疾病、肝肾疾病、恶性肿瘤者等。本研究经郑州大学第一附属医院医学伦理委员会批准(2018-KY-56)。

  1.2 数据收集

  收集研究对象的体检数据,包括一般人口学特征和实验室生化检查指标共22个:性别、年龄、腰围(waist circumference, WC)、收缩压(systolic pressure, SBP)、舒张压(diastolic pressure, DBP)、BMI、中性粒细胞绝对值(neutrophil, NEU)、淋巴细胞绝对值(lymphocyte, LYM)、总蛋白(total protein, TP)、白蛋白(albumin, ALB)、球蛋白(globulin, GLOB)、尿素(blood urea, BU)、肾小球滤过率(glomerular filtration rate, GFR)、总胆固醇(total cholesterol, TC)、甘油三酯(triglyceride, TG)、高密度脂蛋白(high density lipoprotein cholesterol, HDL-C)、低密度脂蛋白(low density lipoprotein cholesterol, LDL-C)、空腹葡萄糖(fasting blood-glucose, FBG)、白球比(albumin/globulin ratio, AGR)、中性粒细胞淋巴细胞绝对值比值(neutrophil to lymphocyte ratio, NLR)、TC/HDL、甘油三酯葡萄糖指数(TyG),(TyG = ln [TG(mg/dL) × FBG(mg/dL) / 2])。

  1.3 统计学处理

  采用SPSS 25.0与R 4.2.1进行数据分析。连续变量根据是否符合正态分布分别应用t检验或秩和检验,分类变量应用(x^{2})检验进行组间比较。通过最小绝对收缩选择算子(LASSO)回归进行特征变量的筛选和复杂度调整,应用十折交叉验证获得最优的惩罚系数((lambda)),得到该模型最优的变量和变量系数。变量筛选后,将数据集按7:3的随机分组方式分为训练集与测试集,在训练集中分别构建梯度提升(categorical boosting, Catboost)、支持向量机(support vector machine, SVM)、Logistic回归(LR)预测模型,应用(x^{2})检验比较3种模型的准确率,并进一步通过净重新分类指数(net reclassification index, NRI)、综合判别改善指数(integrated discrimination improvement, IDI)、ROC曲线下面积(area under curve, AUC)评估模型的预测性能,并对纳入变量的重要性进行评估。检验水准(alpha=0.05)。

  2 结果

  2.1 结直肠息肉组和无息肉组的人口学特征和实验室生化检查项目比较

  本研究共纳入4997人,其中息肉组2462人,无息肉组2535人。息肉组的年龄、SBP、DBP、BMI、WC、NEU、LYM、BU、AGR、TC、TG、TG/HDL、FBG、TyG高于无息肉组,GFR、TP、ALB、GLOB、HDL-C低于无息肉组,差异均有统计学意义((P<0.05))。详见表1。

  表1 结直肠息肉组和无息肉组的人口学特征和实验室生化检查项目比较

  | 生化检查项目 | 息肉组(n=2462) | 无息肉组(n=2535) | (x^{2})/t/Z | P |

  | 男/例(%) | 1465(57.79) | 1174(46.31) | 169.233 | <0.001 |

  | 年龄/岁 | 50.07±9.53 | 45.45±10.02 | 16.707 | <0.001 |

  | WC/cm | 89.20±9.40 | 85.67±10.16 | 12.747 | <0.001 |

  | SBP/mmHg | 127.89±17.38 | 123.77±16.83 | 8.525 | <0.001 |

  | DBP/mmHg | 79.20±11.96 | 76.31±12.05 | 8.506 | <0.001 |

  | BMI/(kg/m²) | 25.94±3.18 | 25.11±3.42 | 8.823 | <0.001 |

  | NEU/(×10⁹个/L) | 3.39(2.75,4.07) | 3.30(2.64,4.00) | 3.208 | 0.001 |

  | LYM/(×10⁹个/L) | 1.95±0.57 | 1.90±0.53 | 3.070 | 0.002 |

  | NLR | 1.93±0.81 | 1.91±0.82 | 0.770 | 0.442 |

  | TP/(g/L) | 72.63±4.16 | 73.43±4.14 | -4.196 | <0.001 |

  | ALB/(g/L) | 47.82±2.83 | 48.51±2.85 | -5.043 | <0.001 |

  | GLOB/(g/L) | 25.14±3.51 | 25.61±3.51 | -2.988 | 0.003 |

  | AGR | 1.93±0.32 | 1.90±0.30 | 2.817 | 0.005 |

  | BU/(mmol/L) | 5.18±1.23 | 4.91±1.14 | 8.049 | <0.001 |

  | GFR/(mL/min) | 99.52±11.96 | 103.03±11.28 | -10.677 | <0.001 |

  | TC/(mmol/L) | 4.83±0.92 | 4.77±0.89 | 2.368 | 0.018 |

  | TG/(mmol/L) | 1.54(1.05,2.26) | 1.34(0.92,1.97) | 8.129 | <0.001 |

  | HDL-C/(mmol/L) | 1.27±0.33 | 1.34±0.34 | -7.542 | <0.001 |

  | LDL-C/(mmol/L) | 2.96±0.80 | 2.92±0.77 | 1.776 | 0.076 |

  | TG/HDL | 1.27(0.77,2.04) | 1.04(0.63,1.71) | 8.952 | <0.001 |

  | FBG/(mmol/L) | 5.57±1.32 | 5.33±1.05 | 7.309 | <0.001 |

  | TyG | 8.85±0.67 | 8.68±0.65 | 9.054 | <0.001 |

  注:1 mmHg=0.133 kPa

  2.2 特征变量的筛选结果

  对除性别外的数据进行处理后,使用LASSO回归筛选变量,建模和交叉验证结果见图1。选择最小误差一个方差以内的最大(lambda)(0.0312)为最佳(lambda),得到由性别、年龄、WC、BU、TP、GFR、TyG等7项特征变量组成的最简单模型(特征变量之间不存在共线性),系数分别为0.526、0.036、0.008、0.021、-0.004、-0.009和0.121。

  图1 LASSO回归建模和交叉验证结果

  A:预测变量的LASSO系数路径图;B:LASSO正则化路径图(交叉验证曲线);图B中的两条虚线从左至右分别表示两个特殊的(lambda)值,(lambda_{min}=0.0009)和(lambda_{1se}=0.0312)。前者为所有的(lambda)值中误差最低的值;后者为最小误差一个方差范围内得到最简单模型的值(即(lambda_{1se})给出的是一个具备优良性能且自变量个数最少的模型)。

  2.3 风险预测模型的构建及评价结果

  按7:3随机分成两组(训练集3499人,测试集1498人,两集间结直肠息肉构成比差异无统计学意义,(x^{2}<0.001),(P=0.997)),分别构建预测结直肠息肉发生的Catboost、SVM、LR模型。对3种预测模型的准确率进行(x^{2})检验,结果显示差异有统计学意义((x^{2}=22.613),(P<0.001)),成对比较后Catboost、SVM模型的准确率显著高于LR模型((P<0.05))。进一步采用NRI、IDI、ROC曲线评估3种模型的预测性能,结果分别见图2、表2。

  图2 3种预测模型训练集和测试集的ROC曲线

  上:训练集;下:测试集。

  由图2可知,在训练集和测试集中SVM和Catboost模型的AUC均优于LR(训练集中SVM vs LR:(Z=15.609),(P<0.001);Catboost vs LR:(Z=15.136),(P<0.001);测试集中SVM vs LR:(Z=8.434),(P<0.001);Catboost vs LR:(Z=10.503),(P<0.001)),而SVM和Catboost模型训练集差异有统计学意义((Z=3.703),(P<0.001)),测试集无统计学意义((Z=0.994),(P=0.320))。表2结果表明SVM模型与LR、Catboost模型相比,对结直肠息肉发生的预测能力均更优((P<0.05))。

  表2 3种模型的NRI与IDI比较

  | 组别 | 对比模型 | NRI(95%CI) | P | IDI(95%CI) | P |

  | 训练集 | Catboost vs LR | 0.052(0.029~0.076) | <0.001 | 0.035(0.028~0.042) | <0.001 |

  | | SVM vs LR | 0.121(0.095~0.147) | <0.001 | 0.127(0.117~0.137) | <0.001 |

  | | SVM vs Catboost | 0.069(0.045~0.092) | <0.001 | 0.092(0.085~0.099) | <0.001 |

  | 测试集 | Catboost vs LR | 0.092(0.054~0.130) | <0.001 | 0.040(0.029~0.051) | <0.001 |

  | | SVM vs LR | 0.156(0.113~0.199) | <0.001 | 0.104(0.089~0.120) | <0.001 |

  | | SVM vs Catboost | 0.059(0.020~0.098) | 0.003 | 0.064(0.053~0.075) | <0.001 |

  2.4 影响因素重要性排序

  结果见图3。SVM模型中纳入因素对结直肠息肉发生的重要性评估,从大到小依次为年龄、WC、GFR、TyG、性别、BU、TP;年龄的重要性最大,其次是WC。

  ![图3 SVM模型中预测变量的重要性排序](https://example.com/fig3)

  图3 SVM模型中预测变量的重要性排序

  3 讨论

  CRC是威胁生命健康的主要癌症之一,国家癌症中心最新数据显示,2016年我国CRC新增病例约40.8万,占全部恶性肿瘤发病的10.04%,高于2015年的38.76万例(9.87%);死亡病例19.56万例,占全部恶性肿瘤死亡的8.10%,高于2015年的18.71万例(8.01%)[2,11]。CRC筛查和早诊早治是降低死亡率、减轻社会负担的有效措施[6]。作为CRC的癌前病变,发现结直肠息肉发病的影响因素对预防CRC的发生有重要意义。

  周海萍等[8]对8660例正常受检者进行横断面调查,发现男性、高龄、肥胖是结直肠腺瘤发生的危险因素;40~50岁人群有较高的结直肠腺瘤检出率。魏锣沛等[12]采用身高、体重、BMI、WC及腰围身高比等多种身体测量指标探讨肥胖与CRC的发病关系,发现WC和腰围身高比与CRC表现出了较强的关联。在本研究中WC被纳入结直肠息肉预测模型的构建而不是BMI,且重要性居第2,得出了类似的结果。杨翡翠[13]研究结果表明2型糖尿病患者发生结直肠息肉及息肉恶变的风险升高。血脂水平异常也可影响结直肠息肉的发生[14]。可能的机制为高糖及血脂异常等代谢异常使得胰岛素抵抗和胰岛素样生长因子(insulin like growth factor, IGF)水平增加,促进结直肠上皮细胞的增殖,同时抑制凋亡,促进腺瘤的发生;高TG水平可引发炎症反应,上调转化生长因子和IGF的表达,诱发氧化应激反应,导致DNA损伤;另外还可改变胆汁酸的分泌、循环激素、肿瘤细胞能量供应等[15-16]。目前对GFR、BU、TP与肠道肿瘤的研究较少,一些研究[17]表明胃肠道肿瘤与肾损害有一定的相关性,可能的机制为慢性肾脏疾病会增加促炎细胞因子的产生,从而通过炎症介质诱导基因突变、适应性反应、抗凋亡和环境变化促进肿瘤的发生[18]。

  选择合理的指标是构建预测模型的关键。目前有一些关于结直肠息肉的风险预测模型研究[19-20],但预测性能各不一致。冯心怡[19]通过健康体检数据建立预测模型,将年龄、性别、WC、嗜酸性粒细胞计数和LHR(LDL-C/HDL-C)纳入模型,训练集AUC(95%CI)为0.678(0.649~0.708),验证集AUC(95%CI)为0.679(0.639~0.729)。本研究基于常规体检数据构建Catboost、SVM、LR预测模型,在测试集中SVM与Catboost模型的AUC大于LR模型,NRI和IDI分析结果显示SVM模型相较于Catboost和LR模型预测效能更优(NRI和IDI均>0)。

  本研究的局限性:① 这是一项单中心研究,可能会导致选择偏倚,使得模型的扩展性存在局限;② 缺乏一些流行病学及生活方式的资料,如家族史、吸烟史、饮酒史、饮食情况等,可能会影响研究的结果;③ 该研究为横断面研究,仅能提供病因线索,无法进行更深层次的研究,主要是由于肠镜检查的大众接受度仍然较低,很难获得研究对象的连续资料。

  综上,基于常规的体检项目中性别、年龄、WC、BU、TP、GFR、TyG等7项指标构建的SVM预测结直肠息肉风险模型具备良好的预测价值,可能会帮助特定人群更早地发现CRC,以改善预后。

  参考文献

  [1] SUNG H, FERLAY J, SIEGEL RL, et al. Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA Cancer J Clin, 2021, 71(3):209-249.

  [2] ZHENG RS, ZHANG SW, ZENG HM, et al. Cancer incidence and mortality in China, 2016[J]. J Natl Cancer Cent, 2022, 2(1):1-9.

  [3] 张建功, 刘茵, 陈琼, 等. 2018年河南省结直肠癌流行现状及2010-2018年流行趋势分析[J]. 郑州大学学报(医学版), 2022, 57(4):482-487.

  [4] KEUM N, GIOVANNUCCI E. Global burden of colorectal cancer: emerging trends, risk factors and prevention strategies[J]. Nat Rev Gastroenterol Hepatol, 2019, 16(12):713-732.

  [5] KANTH P, INADOMI JM. Screening and prevention of colorectal cancer[J]. BMJ, 2021, 374:n1855.

  [6] 国家癌症中心中国结直肠癌筛查与早诊早治指南制定专家组. 中国结直肠癌筛查与早诊早治指南(2020)[J]. 中华肿瘤杂志, 2021, 43(1):16-38.

  [7] 顾芳慧, 杨雷, 张希, 等. 北京市结直肠癌高危人群内镜筛查依从性分析及对策探讨[J]. 中国预防医学杂志, 2021, 22(6):428-433.

  [8] 周海萍, 沈忠磊, 赵坚培, 等. 结直肠腺瘤分布特征及危险因素分析[J]. 中华胃肠外科杂志, 2018, 21(6):678-683.

  [9] 刘道江, 何国辉, 刘鹏, 等. 结直肠息肉发生危险因素的研究进展[J]. 国际消化病杂志, 2019, 39(6):389-392.

  [10] 中华医学会病理学分会消化疾病学组. 胃肠道腺瘤和良性上皮性息肉的病理诊断共识[J]. 中华病理学杂志, 2020, 49(1):3-9.

  [11] 郑荣寿, 孙可欣, 张思维, 等. 2015年中国恶性肿瘤流行情况分析[J]. 中华肿瘤杂志, 2019, 41(1):19-28.

  [12] 魏锣沛, 李霓, 王刚, 等. 身体测量指标与男性结直肠癌发病关系的前瞻性队列研究[J]. 中华预防医学杂志, 2018, 52(7):685-690.

  [13] 杨翡翠. 2型糖尿病与结直肠息肉的相关性分析[D]. 大连: 大连医科大学, 2022.

  [14] 袁萍, 张若尘, 崔艳欣, 等. 结直肠息肉与尿酸、血脂水平的相关性分析[J]. 胃肠病学, 2018, 23(2):98-101.

  [15] 李佳, 杨落落, 周长丽, 等. 结直肠息肉患者发病相关危险因素分析[J]. 吉林大学学报(医学版), 2018, 44(3):646-650.

  [16] 李杰, 谢海玲, 李昭辉, 等. 氧化应激在炎症性肠病和结肠炎相关结直肠癌疾病中的研究进展[J]. 胃肠病学和肝病学杂志, 2022, 31(7):836-840.

  [17] 肖润沙, 唐文彬, 陈子华, 等. 胃肠道肿瘤合并肾损害30例报告并文献复习[J]. 中国普通外科杂志, 2020, 29(4):504-510.

  [18] KOMAKI Y, KOMAKI F, MICIC D, et al. Risk of colorectal cancer in chronic kidney disease: a systematic review and meta-analysis[J]. J Clin Gastroenterol, 2018, 52(9):796-804.

  [19] 冯心怡. 基于健康体检数据的结直肠息肉风险预测模型构建[D]. 扬州: 扬州大学, 2022.

  [20] 郭甜甜, 贾祯, 蔚磊, 等. 结直肠息肉发生的危险因素分析及临床预测模型构建[J]. 中华消化杂志, 2023, 43(9):626-631.

声明:

①文献来自知网、维普、万方等检索数据库,说明本文献已经发表见刊,恭喜作者.

②如果您是作者且不想本平台展示文献信息,可联系学术顾问予以删除.

《道路交通事故责任鉴定标准相关要点分析》
上一篇:血清铁蛋白可识别肠衰竭相关性肝病
下一篇:没有了