ACS Cent. Sci. | 基于深度学习的文库设计用于从头发现生物活性硫肽

推荐一篇发表在ACS Cent. Sci.上的论文，题目为“Deep Learning-Driven Library Design for the De Novo Discovery of Bioactive Thiopeptides”，本文的通讯作者是来自东京大学化学系同课题组的Yuki Goto教授、Hiroaki Suga教授以及Alexander A.Vinogradov，Yuki Goto教授和Hiroaki Suga教授主要研究方向为遗传密码子重编程以及非标肽的核糖体合成。

核糖体合成酶和翻译后修饰肽（Ribosomally synthesized and post-translationally modified peptides，RiPP）是一类具有结构和功能多样性的天然产物。RiPP生物合成酶具有广泛的底物耐受性，这为RiPP工程提供了许多有效的策略。然而，尽管RiPP生物合成酶具有宽松的底物特异性，它的底物偏好性是难以确定的。因此，在设计RiPP前体的组合文库时，需要考虑到化合物多样性以及底物适应性。然而，要在二者之间取得平衡仍具有挑战性。

Lactazole A是乳酸链霉菌（Streptomyces lactacystinaeus）的一种硫肽，有五种酶LazBCDEF 参与其生物合成。在这篇文章中，作者采用深度学习模型以实现基于LazA的mRNA文库的设计。首先，作者构建随机的LazA文库，采用体外翻译（FIT）和mRNA展示，将合成的多肽通过puromycin与mRNA相连，并将Nα-生物素化的Phe作为N末端，使用Laz酶处理以及HA纯化后，完全成熟的底物将会失去N末端的生物素标签。然后通过链霉素和素磁珠进行富集，其中线型形式的LazA突变体被磁珠保留，而环化为硫肽的LazA突变体则保留在溶液中。其中完全修饰的硫肽的未结合部分和线型形式的肽的结合部分在每一轮中都被回收和扩增，共进行六轮，以获得可以环化为硫肽的LazA突变体以及线型形式的LazA突变体序列，并将它们作为数据集来训练可以区分LazA突变体底物适应性的卷积神经网络（Convolutional neural network，CNN）。最终模型可以达到0.963的准确性并且通过LC-MS验证了经过训练的模型对于LazA突变体肽的底物适应性的估算是可靠的。

接下来，作者随机生成了10^4条多肽，并使用该模型计算了它们的平均修饰效率。首先针对11聚体文库进行设计，通过采用GCG（Ala）替换每个NNK简并密码子来进行Ala扫描，发现位置1和11对预测LazA突变体成熟效率的影响最大，通过评估位置1和11中已识别密码子的组合，结果表明dsk-(nnk)9-nnu是最佳的设计。对于较短的文库，结果表明dbk-(nnk)n (n = 5−9) 是得分最高的设计。

最后，作者针对IRAK4（先天炎症信号通路中的关键激酶）和TLR10（与先天免疫有关的孤儿受体）这两种蛋白测试了它们与硫肽亲和的能力，通过pulldown(+)和pulldown (−)实验筛选得到了靶向IRAK4和TLR10的硫肽。实验表明发现针对IRAK4的最佳化合物的KD值高达1.3 nM，针对TLR10的最佳化合物KD值高达300 nM。IRAK4 靶向化合物还在体外能够以个位数的μM浓度抑制激酶，可以有效内化到HEK293H细胞中，并抑制细胞中NF-kB介导的信号传导。

总而言之，作者所开发的方法简化了具有重新设计的生物活性和有利药理学特性的非天然 RiPP 的发现。

本文作者：CQS

责任编辑：WFZ

原文链接：https://doi.org/10.1021/acscentsci.3c00957

原文引用：DOI：10.1021/acscentsci.3c00957