W 中文站

国外开发出新一代6G太赫兹波... 首乌藤提取物 首乌提取物 优质植物提取物 厂家直销 欢迎选购价格 88元/元/... 美股三大指数涨跌互现 苹果、台积电股价创新高... 图片批量添加去除白边工具... csgo的kast多少及格...
栏目分类

热点资讯
Creta World中文网

你的位置:W 中文站 > Creta World中文网 > Research | 中科院天津工业生物所生物设计中心开发全新酶功能预测AI工具ECRECer|序列|生物学|蛋白质|中国科学院

Research | 中科院天津工业生物所生物设计中心开发全新酶功能预测AI工具ECRECer|序列|生物学|蛋白质|中国科学院

发布日期:2025-01-04 16:39    点击次数:61

来源:“Research科学研究”微信公众号近期,中国科学院天津工业生物技术研究所生物设计中心科研团队开发出基于深度学习的算法HDMLF(Hierarchical Dual-core Multitask Learning Framework),实现了高准确率、高可靠性的蛋白功能预测,并基于该方法发布了免费公共蛋白功能注释平台ECRECer(https://ecrecer.biodesign.ac.cn/)。ECRECer可以高质量完成以下任务:1)对全新发现的蛋白进行酶或非酶注释;2)对全新发现的蛋白进行完整的催化功能注释;3)对具有两个或两个以上酶编号的混杂酶进行功能注释;4)对已有注释不完全的酶或注释错误的酶进行补全和纠正。该工具是预测查询酶催化功能的强大工具,可以极大地促进功能基因组学、酶学、酶工程、合成生物学、代谢工程等领域的研究。该工作的题目为:“Enzyme Commission Number Prediction and Benchmarking with Hierarchical Dual-core Multitask Learning Framework”,发表在Research期刊上。Citation:Shi Zhenkun Deng Rui Yuan Qianqian Mao Zhitao Wang Ruoyu Li Haoran Liao Xiaoping Ma Hongwu . Enzyme Commission Number Prediction and Benchmarking with Hierarchical Dual-core Multitask Learning Framework. Research. 2023:6;0153. DOI:10.34133/research.0153. https://spj.science.org/doi/10.34133/research.0153研究背景蛋白质功能注释是通过对蛋白质序列和结构进行分析,确定其生物功能的过程,在功能基因组学等研究领域具有重要意义。然而,蛋白质功能注释仍然面临着巨大挑战。近年来,测序技术和宏基因组学的发展帮助科学家们从各类生物体中发现了大量蛋白质序列。目前,UniProt蛋白库(包含大约1.9亿个蛋白序列),只有不到0.3%(约50万个)经过了人工审核,其中仅有不到19.4%的蛋白质得到了明确的实验证据支持。这意味着蛋白质功能注释仍然高度依赖计算注释方法,但现有计算工具在自动注释酶类蛋白质时存在着约40%的错误注释率。酶号(EC)是国际酶学委员会制定的一套酶的编号分类法,从大类上将酶分成氧化还原酶、转移酶、水解酶、裂合酶、异构酶、连接酶等,通常由4个数字组成(比如EC 3.14.11.4),可以将蛋白质序列与其催化的生化反应联系起来,对于准确理解酶的功能和细胞代谢至关重要。虽然已经提出了许多基于计算的方法来预测给定输入蛋白质序列的EC号码,但这些方法在处理最近发现的蛋白质时,预测性能(准确度、召回率、精确度)、可用性和效率严重下降。尤其在对新发现的蛋白进行注释时,因其缺乏同源序列,注释性能更是大打折扣。因此,亟需开发更高性能的蛋白功能注释方法。研究进展作者针对蛋白功能注释一问题进行了大量调研,并对当前主流的EC号预测工具进行了比较,比较结果如表1所示。研究发现,当前预测工具在预测EC时还存在预测时间长、预测准确率不足的问题,尤其是在对新发现且具有较少同源性序列的蛋白,现有工具性能衰减非常严重,几乎达到了无法使用的程度。表1 蛋白-EC注释方法预测性能分析为了开发一款预测准确高、对新发现蛋白预测性能衰减小且生物学家方便使用的蛋白功能注释方法与工具,中科院天津工业生物技术研究所生物设计中心团队开发了一种名为Hierarchical Dual-core Multitask Learning Framework(简称“HDMLF”)的新型深度学习框架(图1),并基于该方法,发布了一个名为ECRECer的网络平台(https://ecrecer.biodesign.ac.cn,图2)。图1 双核驱动的酶号预测方法图2 酶号注释与推荐平台HDMLF采用了嵌入核和学习核的层次双核多任务学习架构,其中嵌入核利用最新的蛋白质语言模型对蛋白质序列进行嵌入,而学习核则用于EC号的预测。HDMLF以门控循环单元(GRU)为基础,以多目标层次、多任务的方式首先对酶或非酶进行预测,然后对可能具有多个EC的杂合酶进行功能数量预测,最后分别给出预测的EC号。另外,还引入了注意力层对模型进行优化,并采用贪心策略集成和微调最终模型。与DeepEC等四种代表性方法进行的对比分析表明(图3),HDMLF稳定地提供了最高的性能,准确度和F1得分分别提高了60%和40%。a)任务三:EC号预测的性能比较;b)任务一:酶和非酶预测的性能比较;c)任务二:多功能酶预测的性能比较图3 不同EC预测方法性能比较此外,研究发现好的蛋白表示方法(Embedding)可以极大地提高下游预测任务的性能,其中基于蛋白语言模型ESM-1b的表示方法对于下游任务带来了提升(图4);另外,与其他方法相比,HDMLF的性能对于不能年份蛋白注释效果比较稳定,不会出现明显的衰减,展现出更好的对于新数据的预测能力(图5)。a)使用不同分类方法对testset_20上的酶或非酶预测进行的嵌入性能(F1分数)比较;b)使用不同分类方法对tesset_22上的酶或非酶预测进行的嵌入性能(F1分数)比较;c)使用HDMLF对testset_20上的EC编号预测进行的不同评估指标下的嵌入性能比较;d)使用HDMLF对testset_22上的EC编号预测进行的不同评估指标下的嵌入性能比较。图4 不同Embedding方法预测性能比较图5 EC预测性能随时间变化比较另外,HDMLF在揭示酶的多样性方面的潜力,成功预测了大肠杆菌酪氨酸转氨酶tyrB的混杂性,准确预测tyrB同样能催化天冬氨酸转氨酶aspC所催化的反应(与文献报道一致),而其他方法都不能(图6)。图6 酶的混杂性预测未来展望该研究的成果是基于序列预测酶催化功能的强大工具,这一突破性研究对于推动酶学、代谢工程、合成生物学等领域相关领域的科学发展和应用具有重要的贡献。未来,计划进一步推广到酶的其他功能注释,例如酶稳定性、酶催化反应等,实现对蛋白功能的更全面认识。作者简介廖小平,博士,中国科学院天津工业生物技术研究所项目研究员。主要围绕工业生物大数据智能分析展开研究,开发核心的数据库、算法和工具。形成了工业生物相关的数据技术体系,开发了一系列工业生物专属数据库,比如糖基转移酶数据库pUGTdb、P450酶数据库、大肠杆菌代谢调控图谱ERMer等;开发了一系列的网站平台,包括自动化编辑序列设计平台AutoESD、途径计算及可视化平台CAVE、新一代基于人工智能蛋白酶号预测工具ECRECer等;近年来在Nature Genetics、Nucleic Acids Research、Science Advances、Molecular Plant等国内外高水平期刊发表文章40余篇。主要研究方向:生物信息学、计算生物学、人工智能生物学等。马红武,博士,中国科学院天津工业生物技术研究所研究员,博士生导师,生物设计中心主任。有20多年大规模代谢网络分析和应用的研究经历,承担多项科技部、基金委、天津市和中科院合成生物学方面的研究项目,发表论文近百篇,汤森路透高被引科学家奖。生物设计中心研究内容涵盖合成生物学研究中的数据库知识库构建分析、细胞模型构建、途径和代谢改造策略设计、大数据人工智能算法开发等多个领域。

Powered by W 中文站 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024