dota雷竞技
  您现在的位置>> 新闻首页>> 教学科研

工学院在真菌蛋白三级结构智能聚类分类取得进展

近日,我校工学院和林学院有关交叉研究团队在生物信息学期刊《Briefings in Bioinformatics》(数学与计算生物学中科院一区,IF=7.7)发表了题为“Deep learning–enhanced clustering and classification of protein molecule tertiary structures using weighted distance matrices”的研究论文。该论文系统研究了真菌蛋白质分子三级结构智能聚类与分类问题,针对传统方法在多维结构信息提取与跨家族分类泛化能力方面的不足,提出了一种基于加权距离矩阵的深度学习聚类–分类一体化框架,该方法可以有效捕捉蛋白质的结构和功能特征,为结构生物学提供了一种强大的工具,也为林草种质资源智慧育种中蛋白功能注释与智能筛选提供了坚实的技术支撑。


该研究首先从种质资源库及公共数据库中收集了765个非冗余的Verticillium dahliae蛋白质序列(经去重后的UniProt条目),利用AlphaFold2对其三级结构进行高精度预测,提取了每对蛋白质的Cα原子欧氏距离矩阵。基于此,团队构建了包含主成分分析(PCA)特征、结构邻接关系和表面电荷分布的多通路加权距离矩阵,系统研究了不同通路权重分配策略对后续智能化处理的影响,并确定了最优加权方案。


在聚类阶段,研究团队设计了融合深度提取的图卷积网络(GCN)与自注意力机制的无监督聚类模型,对加权距离矩阵进行端到端学习。实验结果显示,与传统K-means方法相比,该模型的平均轮廓系数(Silhouette Score)提高了22.5%,实现了对多样化结构家族的更精细化分组。基于聚类标签,进一步引入LightGBM分类器进行监督学习,最终在独立测试集上达到93.1%的分类准确率与0.92的宏平均F₁值,有效区分了不同功能类和不同结构域类蛋白并显著优于随机森林和支持向量机等基线模型。


最后,研究团队展示了UNSE神经网络(图1);比较我们的方法在从 Alphafold2 和其他结构预测方法获得的结构数据上的性能,探索了在 PDB 结构上训练 UNSE 的三级结构数据容差(图2)。直观呈现了方法在处理复杂蛋白族群时的优势与泛化能力。该框架不仅可应用于真菌蛋白,还可拓展至植物、动物等多源种质资源,为智慧育种过程中的蛋白质功能预测和关联挖掘提供了一体化、端到端的技术路径。


图1 UNSE自编码器模型结构示意图


图2 不同质量数据的模型性能对比测试结果


工学院硕士研究生刘俊龙为论文第一作者,工学院苏勋文副教授、林学院王永林教授为通讯作者,论文完成单位为北京林业大学和国家林草种质资源设施保存库(雄安)。论文研究得到了国家自然科学基金(32130071)和中央高校基本科研业务费(QNTD202510)资助。


论文链接:https://academic.oup.com/bib/article/26/4/bbaf331/8191418#525085471


作者:刘俊龙、苏勋文;审稿:张军国      |     编辑:宋和; 审核:欧阳汀
Baidu
map
Baidu
map