科研动态

张正军教授团队利用人工智能新算法识别癌症发病关键基因

  • 十七载磨一剑 人工智能新算法破解死亡杀手癌症密码
  • 近日,中国科学院大学经管学院张正军教授与合作者的文章“Towards precision oncology discovery: four less known genes and their unknown interactions as highest-performed biomarkers for colorectal cancer”在nature旗下医学期刊npj precision oncology发表。该研究基于最大逻辑竞争风险因子模型,使用一类新型AI模型和算法来识别在结直肠癌发病过程中起关键作用的基因,文章发表后引起了很大反响。

    结直肠癌是世界上发病率和死亡率最高的恶性肿瘤之一。该研究开创性地应用极大逻辑竞争风险因子模型来识别人类恶性肿瘤的关键基因,其结果在不同人群中具有可解释性和可重复性;研究首次证明了4个基因在结直肠癌中的相互作用效应,代表了在识别结直肠癌关键基因方面的重大进展,为精准肿瘤学研究做出了宝贵贡献,为今后在基因网络分析、探索相关基因及其功能相互作用以及确定潜在的因果关系方面的研究奠定了基础,也为结直肠癌的精准诊断、检测试剂开发、药物开发和个性化治疗方案提供了一个新的维度的认识和指导,具有现实意义。

    张正军介绍,该研究工作最早可以追溯回2007年,当时他已经发现了3个基因,但其后的研究一直处于时断时续的状态,一是他觉得3个基因还不足以识别结直肠癌的多种亚型;另外,由于是跨学科、跨界研究,他的研究受到了很多质疑。但张正军一直对研究抱有信心,也一直没有放弃琢磨研究方法。转机出现在2016年,张正军与中山医科大学开展合作,对方的一名医生对张正军的计算所得出的结果的精度十分感兴趣,并使用真实的病例数据,亲自进行了计算验证,计算结果同样精准,这在一定程度上推进了研究向前的脚步。

    此后,研究团队通过对来自世界不同地区不同人种不同研究目标共10个队列超过2000个病例的严苛的队列交叉验证与分析,发现由组织样本识别出的4个基因——CXCL8、PSMC2、APP和SLC20A1及其交互关系完全可以识别结直肠癌。

    “上述4个基因中,CXCL8/IL8和PSMC2是表达值相对越低越好,SLC20A1是表达值相对越高越好,这三个基因代表了结直肠癌的共性和一致性,而APP的表达值具有异质性。研究发现,APP在欧美人、中国人、日本人中的表达具有逆向性。”张正军表示。

    “我们这个研究中找到的4个基因,它们之间的相互作用几乎就能完全刻画结直肠癌。不论是用作检测手段,亦或用于药物开发和治疗方案,均有一定的指导作用,希望我们的研究发现能够引起医学界和生物学界的关注。”张正军说。

    张正军团队的研究使用的是统计学的方法,其研究成果现在还没有得到医学界的认可,但不可否认的是,统计学方法从另一个角度为医学研究指出了一条路。

    道阻且长,行则将至,希望通过医学研究者与统计学家的共同努力,人类疑难疾病的终结不再遥不可及。

    背景链接:张正军,中国科学院大学经济与管理学院长聘教授、统计与数据科学系系主任,中国科学院预测科学研究中心副主任,原为美国威斯康辛大学统计系终身教授和系副主任,威斯康辛大学生物医学信息系兼职教授,主要研究方向包括统计理论和方法、计量经济学、金融计量学、计算医学与实践、极端气候等等。现为国际数理统计协会会士,美国统计协会会士,担任JASA,JBES, Statistica Sinica,JDS,EJS、STaRF等国际期刊副主编。在国际顶级期刊包括统计(AoS,JASA,JRSSB)、计量(JoE, EE)、金融(JBES, JBF)、医学(AFM,Vaccines,npj Precision Oncology)、气象 (ATM) 等发表论文上百篇。代表性工作和首创性思想和作品包括: 新极值理论、绝对和相对同步有效性(AbRelaTEs)、双边截断极值惩罚变量选择机器学习模型(TWT-LR-ETP)、商相关系数(QCC、TQCC)、非对称广义相关系数(GMC)、滞后尾部相依系数(lambda_k)、最大线性回归模型(MaxLR)、最大逻辑回归模型(Max-logistic)、EGB2期权定价公式、盯市在险价值(MMVaR)、条件极值Frechet自回归(AcF), 虚拟标准数字货币(VSTC),新冠基因组学、癌症基因组学的几何空间(DARPA:Mathematical Challenge Fifteen: The Geometry of Genome Space)等等。

    责编 : 脱畅