摘 要:了解蛋白质的结构有助于认识蛋白质的功能、功能机制和执行方式。文章总结了四种新型基于计算机理论的蛋白质结构预测方法,包括基于深度学习的蛋白质二级结构预测方法和基于多信息融合的蛋白质结构预测方法,分析了两种预测方法的核心技术,并就两种预测方法的预测准确度与传统方法进行了比较,结果表明两种预测方法的预测效果较好,此外还对具有代表性的蛋白质结构数据库进行了总结,提出了对未来研究方向的展望。
关键词:计算机科学;蛋白质结构预测;深度学习;多信息融合;信息熵;遗传算法
DOI:10.19850/j.cnki.2096-4706.2022.18.030
基金项目:遵义医科大学硕士启动资金项目(F-755)
中图分类号:TP18 文献标识码:A 文章编号:2096-4706(2022)18-0122-04
Exploration on the Methods of Protein Structure Prediction
WANG Fang, LI Hongjin, LI Huyang
(Department of Medical Information Engineering, Zunyi Medical University, Zunyi 563000, China)
Abstract: Understanding the structure of proteins is helpful to understand the functions, functional mechanisms and execution modes of proteins. This paper summarizes four new protein structure prediction methods based on computer theory, including the protein secondary structure prediction method based on deep learning and the protein structure prediction method based on multi information fusion, analyzes the core technologies of the two prediction methods, and compares the prediction accuracy of the two prediction methods with the traditional methods. The results show that the two prediction methods have better prediction effects, In addition, the representative protein structure databases are summarized, and the future research directions are proposed.
Keywords: computer science; protein structure prediction; deep learning; multi information fusion; information entropy; genetic algorithm
参考文献:
[1] 王超,朱建伟,张海仓,等 . 蛋白质三级结构预测算法综述 [J].计算机学报,2018,41(4):760-779.
[2] 宋昕,洪羽蓉,胡秋莹 . 阿尔兹海默病发病原因及机制的研究进展 [J]. 临床和实验医学杂志,2015(10):871-873.
[3] LAU K F,DILL K A. A lattices statistical mechanics model of the conformation and sequence spaces of proteins[J].Macromolecules,1989,22(10):3986-3997.
[4] 陶华,唐旭清 . 蛋白质序列的聚类结构分析 [J]. 生物信息学,2012,10(4):269-273.
[5] 秦笙,蔡禄 . 基于二级结构信息的蛋白质相互作用贝叶斯分类预测 [J]. 内蒙古科技大学学报,2010,29(1):80-83.
[6] 孙向东,刘拥军,黄保续,等 . 蛋白质结构预测——支持向量机的应用 [M]. 北京:科学出版社,2008.
[7] CAI Y D,ZHOU G P.Prediction of protein structural classes by neural network[J].Biochimie,2000,82(8):783-785.
[8] CHOU K C.Prediction of protein cellular attributes using pseudo-amino acid composition [J].Proteins: Structure, Function and Ge-netics,2001,43(3):246-255.
[9] BAIROCH A,APWEILER R. The SWISS - PROT protein sequence data bank and its supplement TrEMBL [J]. Nucleic Acids Research,1997,25(1):31-36.
[10] 张安胜,王爱平 . 基于深度学习的蛋白质二级结构预测[J]. 计算机仿真,2015,32(1):392-396.
[11] 娄立峰 . 基于多信息融合的蛋白质结构预测 [D]. 青岛:青岛科技大学,2018.
[12] 曹佳佳 . 基于多信息融合的蛋白质结构类预测方法研究[D]. 杭州:浙江理工大学,2015.
[13] 谢腾宇 . 基于信息熵的蛋白质结构预测方法研究 [D]. 浙江:浙江工业大学,2019.
[14] 杨瑶 . 基于改进的遗传算法的蛋白质三维结构预测研究[D]. 武汉:中国地质大学,2013.
[15] 武利 . 蛋白质二级结构类预测中的信息提取与预测方法研究 [D]. 杭州:杭州电子科技大学,2011.
[16] 薛庆中等 .DNA 和蛋白质序列数据分析工具(第三版)[M]. 北京:科学出版社,2012.
作者简介:王芳(1987—),女,汉族,河北唐山人,讲师,硕士研究生,主要研究方向:计算复杂性。