学术-Into the Cosmos,  生物,  顶置

【生物化学】2.蛋白质的结构层级:讨论生物信息的时候我们在说些什么?

我们一定会好奇:几个氨基酸连在一起形成的链条,为什么会有各种各样的生物学功能呢?

这个问题甚至带上了一些哲学的意味。我们先放下某些难以描述的思路,仅仅从微观的角度看,蛋白质能有功能是因为氨基酸链没有老老实实地像一根铁链一样横着。它们会盘曲折叠,形成各种各样的“结构域”,来发挥它们的功能。

丹麦科学家Linderstram将蛋白质分子划分为一级、二级和三级结构,随后英国的Bernal增加了四级结构来命名蛋白质结构,但是随着科学不断进步,超二级结构、结构域等相继被发现,这预示着蛋白质具有丰富又复杂结构层次。1959年佩鲁茨和肯德鲁对血红蛋白和肌血蛋白进行结构分析,第一次构建了蛋白质三维空间结构,获1962年诺贝尔化学奖。之后鲍林介绍了蛋白质的基本结构,克里克、沃森在X射线衍射资料的基础上,提出了DNA三维结构的模型。获1962年诺贝尔生理或医学奖。50年代后豪普特曼和卡尔勒建立了应用X射线分析的以直接法测定晶体结构的纯数学理论,更加促进了蛋白质结构的研究。

现代生物技术很大一部分研究都建立在蛋白质的结构上。我们跟着Linderstram和Bernal的思路,来研究一下蛋白质的结构层级吧:

蛋白质的结构层级

蛋白质一般被划分为四个层级结构:

  • 一级结构:组成蛋白质多肽链的线性氨基酸序列。
  • 二级结构:依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构,主要为α螺旋和β折叠。
  • 三级结构:通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构。
  • 四级结构:用于描述由不同多肽链(亚基)间相互作用形成具有功能的蛋白质复合物分子。

除了这些结构层次,蛋白质可以在多个类似结构中转换,以行使其生物学功能。对于功能性的结构变化,这些三级或四级结构通常用化学构象进行描述,而相应的结构转换就被称为构象变化

1. 一级结构(primary structure)

一级结构就是指氨基酸残基在肽链上的排列顺序,换句话说就是蛋白质一级结构与氨基酸的种类和排列顺序有密切关系。蛋白质的一级结构是后面所有高级结构的基础,也是决定更高层结构的主要因素。天然蛋白质中常见的氨基酸大概有20种,这些氨基酸个体通过肽键共价结合。如果两个不同的蛋白质具有相似的一级结构,那么我们可以称这两个蛋白质彼此同源(homology)。

比如如胰岛素A链的一级结构是:

Gly-Ile-Val-Glu-Gln-Cys-Cys-Thr-Ser-Ile-Cys-Ser-Leu-Tyr-Gln-Leu-Glu-Asn-Tyr-Cys-Asn

这就是是蛋白质的共价(肽键)结构。对于每一种蛋白质而言,都是独特的;由编码它的基因的核苷酸序列决定;是遗传信息的一种形式;书写总是从N端到C端。所以维持一级结构最重要的键是共价键(肽键)。

如何判断两个蛋白质是否同源呢?在生物信息中,同源主要是指序列上的同源,也就是用来说明两个或多个蛋白质或DNA序列具有相同的祖先。同源关系的强弱可以帮助了解物种间的亲缘关系,是重构系统发生树的有力手段。而且,同源的序列一般有相似的功能。序列中同源的部分也被称为保守的(conserved)
蛋白质和DNA的同源性常常通过它们序列的相似性(Sequence similarity)来判定,相似性一般用检测序列和目标序列之间序列一致性(Percent identity)来表示。
相似性(Sequence similarity)是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。一般来说,当相似程度高于50%时,常推测检测序列和目标序列可能是同源序列;当相似性程度低于20%时,就难以确定其是否具有同源性。

第二个需要搞清楚概念就是同源的两种基本类型,直系同源(orthology)和旁系同源(paralogy)。
同源现象可以分为直系同源(orthology)旁系同源(paralogy)
直系同源(orthology)是指在不同物种中的某一基因來自同一祖先,在演化过程中因物种形成(speciation)而被区分开,也就是说,一个基因原先存在于某个物种,后来该物种分化成了两个物种,那么新形成的物种之间,或相应的基因关系,便是直系同源的关系。(见图中绿色大括号)
旁系同源(paralogy)是指种系间的基因复制。若生物体中的某个基因被复制了,在演化过程中,存在于同一物种基因组中不同的两个位置,那么这两个副本序列之间的关系就是旁系同源的。

在实际科研中我们一般借助软件来辅助判断。一个有名的软件MEGA(单击即可进入官网)就是判断蛋白质同源性的有力工具。为了研究同源性,我们会构建系统发育进化树(Phylogenetic tree)也叫系统进化树,系统发育树,进化树。它是对多序列比对(MSA)结果以树形图形式的一个呈现,对于研究进化关系有很大的帮助,通过进化树分析我们可以对关键功能基因和蛋白得出一些假说,一般利用树状分支图形来表示各物种或基因间的亲缘关系,了解实验研究中基因的分类地位。这是一张示意图:

另外,使用BLAST可以对比氨基酸序列,找到所有与已知蛋白相同或相似的序列。BLAST的全称“Basic Local Alignment Search Tool” ,顾名思义,在序列相似性搜索过程中BLAST执行“局部”对齐。这是NCBI提供的一个非常强大的生物学工具。

2. 二级结构(secondary structure)

蛋白质的二级结构指多肽链的主链原子在氢键作用下沿一维方向排列成具有周期性的结构构象,这是肽链局部的空间构象,不涉及氨基酸侧链原子。蛋白质的二级结构有很多,主要可以分为α螺旋、β折叠(β折片)、β转角、无规卷曲等等。

2.1 α螺旋(α-helix)

应该是蛋白质中最为常见的一种,其结构特征为:①主链骨架围绕中心轴形成右手结构;②螺旋每上升一圈为3.6个氨基酸残基,螺距为0.54nm;③相邻螺旋圈之间形成氢键;④侧链基团位于螺旋外侧。不利于α螺旋形成的原因有:①侧链基团存在较大的氨基酸残基;②连续存在带相同电荷的氨基酸残基;③存在脯氨酸残基

这是一个能清楚看到这个结构的蛋白:杀肠菌素A / B家族脂蛋白(Entericidin A/B family lipoprotein)。

α-螺旋是一种不对称的结构,所以具有旋光能力。天然α-螺旋一般会使偏振光的偏振面向右旋转。所以α-螺旋的含量对蛋白质整体的旋光性是有影响的,可以通过测量蛋白质的旋光性变化来分析α-螺旋含量的改变。不过由于氨基酸组成对整体旋光性的影响难以区分,所以应用有限。

α-螺旋结构还有一个特性,就是对左、右旋圆偏振光的吸收率不同,称为圆二色性吸收,简称圆二色性(Circular dichroism,CD)。因为氨基酸并没有圆二色性现象,所以圆二色性光谱更适于二级结构分析。一般来说,蛋白质在远紫外区(180-250 nm)的CD光谱可以反映其二级结构特征,常用来研究蛋白质的二级结构组成和动态变化,比如蛋白质结构类型分析、蛋白质折叠研究、蛋白质与其它物质相互作用等多种方面。

α-螺旋是重要的二级结构单元,是构成蛋白质三级结构的基础之一,对于蛋白质的结构与功能十分重要。α-螺旋结构具有一定的刚性,对于一些蛋白质的整体构象起着支撑作用。比如,在毛发中,很多条α-螺旋有组织、有层次地平行排列,构成柔韧的纤维结构。一个典型的例子,在肌红蛋白(Myoglobin)中,由8段α-螺旋构成一个球状结构,同时为血红素辅基构建一个疏水洞穴,而将大部分亲水基团分布在蛋白表面:

角蛋白是动物的不溶性纤维状蛋白,是由动物的表皮衍生而来的。它包括皮肤的表皮以及毛发、鳞、羽、甲、蹄、角、丝等。动物的毛发几乎完全由角蛋白构成,所以在蛋白质早期研究中成为首选材料。蛋白质构象的α-螺旋模型就是在研究角蛋白结构的时候提出的。

角蛋白可分为两类,一类是α-角蛋白,胱氨酸含量丰富,如角、甲、蹄的蛋白胱氨酸含量高达22%;另一类是β-角蛋白,不含胱氨酸,但甘氨酸、丙氨酸和丝氨酸的含量很高,蚕丝丝心蛋白就属于这一类。

α-角蛋白暴露于湿热环境中几乎可以伸长一倍,冷却干燥后又收缩到原来长度。而β-角蛋白则基本不能拉伸。这种差别的原因在于二者肽链构象不同,β-角蛋白本身就是比较伸展的构象。分析表明,丝心蛋白的X-射线衍射图案与α-角蛋白拉伸后的图案非常相似。

α-角蛋白本质上是中间丝(intermediate filament,IF)家族蛋白的一员。比如这个在小鼠肌肉中的同步蛋白(Syncoilin,属于非典型III型中间丝(IF)蛋白,可能在肌原纤维和纤维外部之间的机械应力的有效耦合中发挥支持作用。可促进骨骼肌收缩期间的侧向力传递。不会与其他IF蛋白形成同丝或异丝):

与之类似的还有胶原蛋白。胶原蛋白是生物高分子,动物结缔组织中的主要成分,也是哺乳动物体内含量最多、分布最广的功能性蛋白,占蛋白质总量的25%~30%,某些生物体甚至高达80%以上。

一般的蛋白质是双螺旋结构,而作为细胞外基质(ECM)的一种结构蛋白,胶原蛋白由三条多肽链构成三股螺旋结构,或称胶原域,即3条多肽链的每条都左旋形成左手螺旋结构,再以氢键相互咬合形成牢固的右手超螺旋结构。胶原特有的左旋a链相互缠绕构成胶原的右手复合螺旋结构,这一区段称为螺旋区段,螺旋区段最大特征是氨基酸呈现(Gly-X-Y)n周期性排列,其中X、Y 位置为脯氨酸(PrO)和羟脯氨酸(Hyp),是胶原蛋白的特有氨基酸,约占25%,是各种蛋白质中含量最高的;胶原蛋白中存在的羟基赖氨酸(Hyl)在其它蛋白质中不存在,它不是以现成的形式参与胶原的生物合成,而是从已经合成的胶原的肽链中的脯氨酸(Pro)经羟化酶作用转化来的。而一般陆生哺乳动物蛋白质中羟脯氨酸和焦谷氨酸的含量极微少。与陆生动物相比,水生动物中的胶原蛋白,其脯氨酸和羟脯氨酸的总量少,而含硫元素的蛋氨酸(Met)含量要远大于陆生动物中的胶原蛋白。这是来自拟南芥的胶原蛋白三螺旋蛋白(collagen triple helix protein):

另外,在另一种硬蛋白——弹性蛋白中α-螺旋也占主要地位。弹性纤维主要存在于韧带和脉管壁。弹性纤维与胶原纤维共同存在, 赋予组织以弹性和抗张能力。跟胶原一样,弹性蛋白也富含甘氨酸和脯氨酸,但是与胶原不同的是,弹性蛋白的羟基化程度不高,没有羟赖氨酸的存在。弹性蛋白分子间通过赖氨酸残基形成共价键进行相互交联,它们形成的交联网络可通过构型的变化产生弹性。

虽然胶原能够给细胞外基质以强度和韧性,但是对于某些组织来说还需要富有弹性。特别是肺、心脏等组织尤其是这样。这种弹性主要依赖于细胞外基质中的弹性纤维。弹性纤维如同橡皮带一样,它的长度能够伸展到正常长度的几倍,当收缩时又能恢复到原始长度。组织的弹性则是通过改变散布在弹性纤维中胶原的数量来控制。这是人体中的弹性蛋白纤维(Elastin):

2.2 β折叠(β-pleated sheet)

折叠一般有两种形式,一种为平行式,另一种自然为反平行式。两者的区别就如字面意思一样,平行β折叠即相邻肽链是同向的,反平行式为逆向的。其结构特征为:①若干条肽链或肽段平行或者反平行排列成片;②所有肽键的C=O和N-H形成链间氢键;③侧链基团分别交替位于片层的上、下方。

β-折叠是一种比较伸展的构象,其X-射线衍射图案与α-角蛋白拉伸后的图案很相似。在β-折叠中,若干肽段平行排列,相邻肽段之间通过氢键结合。氢键方向与肽链的长轴接近垂直。这样就形成了片层结构。不过片层并非平面,而是锯齿状的折叠片,因为这样可以避免相邻侧链间的位阻,形成最多的氢键。此时二面角φ=-139°,ψ=+135°。侧链基团交替位于片层的上方和下方,方向与片层垂直。氨基酸序列是有方向的。在三维图中,β折叠的方向就是箭头指向的方向。

这是一个简单的含有β折叠结构的蛋白质:50S核糖体蛋白L36(50S ribosomal protein L36)

β-折叠在β-角蛋白(如蚕丝和蛛丝中的丝心蛋白)中含量丰富。丝心蛋白(fibroin)也称丝素蛋白,可以溶解于含有某些盐类(如溴化锂)的溶液中,所以容易制成薄膜或丝线。丝心蛋白具有良好的生物相容性和透气性,在生物医药领域应用广泛,比如作为伤口敷料、外科手术缝合线等。在美容化妆方面,可用于护发、保湿、面膜等。形成β-折叠结构要求侧链基团越小越好。在丝心蛋白中,每隔一个氨基酸就是甘氨酸,所以在片层的一侧都是氢原子;而在另一侧丙氨酸较多,所以主要是甲基。如果肽链中侧链基团过大,或者带有同种电荷,就很难形成β-折叠。如丝心蛋白重链样亚型X35(fibroin heavy chain-like isoform X35):

β-折叠也是一种具有刚性的结构,在蛋白质中与α-螺旋一起构成整体构象的基本骨架。在磷酸丙糖异构酶中,α-螺旋和β-折叠有规则地组合在一起,形成一种典型的桶状结构。如磷酸糖异构酶YwlF(Putative sugar phosphate isomerase YwlF):

我最近对一种大量含有β折叠的结构非常感兴趣,并正在进行和这种蛋白相关的研究:β-桶蛋白。有兴趣的读者可以与我交流。一个例子:血红素转运蛋白BhuA(Heme transporter BhuA):

2.3 β转角(β-turn)

常发生在多肽链180°回折时的转角上,通常由4个氨基酸残基构成,借助第一和第四残基之间形成氢键,从而形成一个紧密的环。目前发现的该结构多位于球状蛋白表面。事实上,β折叠中那个转角便是β转角。我们再看一次50S核糖体蛋白L36(50S ribosomal protein L36):

已经发现的蛋白质的抗体识别、磷酸化、糖基化和羟基化位点经常出现在转角和紧靠转角。

2.4 无规卷曲(random coli)

无规卷曲就是指主链骨架无规律排列形成的构象,也泛指那些不能归入明确的二级结构的多肽区域。常出现在α螺旋与α螺旋、α螺旋与β折叠、β折叠与β折叠之间。

比如刚刚看到的丝心蛋白重链样亚型X35(fibroin heavy chain-like isoform X35),外围那些乱七八糟的区域:

那些没有固定形状的线一样的结构很多都可以归属为无规卷曲。但是注意无规卷曲不代表没有功能,这些部位也可能是蛋白质分子功能实施和构象的重要区域。

3. 超二级结构和结构域

超二级结构(supersecondary structure)和结构域(domain)是介于二级和三级结构之间的空间构象。

超二级结构为那些相邻的二级结构单元体组合在一起,排列形成具有规则的、能够在空间结构上辨识的二级结构组合体,同时又可以充当三级结构的功能部件,常见的形式由αα、ββ、βαβ等。

3.1 αα

αα是由两股或三股右手α螺旋彼此缠绕形成的左手超螺旋,重复距离约为140埃。由于超螺旋的影响,其中每一股α-螺旋与独立的结构略有偏差。毛发中的α-螺旋就是这样,三股右手螺旋形成左手超螺旋,称为原纤维,直径2纳米。原纤维再排列成“9+2”的微纤维,直径8纳米。上百根微纤维再组成大纤维,最后构成皮层细胞。生物分子经常采用类似的层级结构,DNA的结构虽然与蛋白质完全不同,但同样是一层一层反复折叠压缩,最后形成染色质结构的。

一个最简单的αα结构比如:UPF0391 膜蛋白FHY56_16830(UPF0391 membrane protein FHY56_16830):

显然在这个例子中两股α-螺旋的相互作用不明显。我们一般所说的αα更偏向于α-螺旋形成了α-螺旋束,比如前文提到的α-角蛋白中就有明显的αα结构。再次观察在小鼠肌肉中的同步蛋白:

在钙调蛋白(Calmodulin,通过钙结合介导大量酶、离子通道、水通道蛋白和其他蛋白质的控制,作为钙信号转导途径的一部分。钙结合是钙调蛋白激活所必需的。钙调蛋白-钙复合物刺激的酶包括许多蛋白激酶,例如肌球蛋白轻链激酶和钙调蛋白依赖性蛋白激酶II型(CaMK2)和磷酸酶)中,α-螺旋的交互体现得会很明显:

3.2 ββ

ββ的例子还是50S核糖体蛋白L36(50S ribosomal protein L36):

最简单的ββ结构称为β发夹结构,也就是只由两个β-pleated sheet组成的单位。β-发夹通常用来连接两条反平行的β-链。50S核糖体蛋白L36形成的结构叫β-曲折(β-meander),这是种常见的超二级结构,由氨基酸序列上连续的多个反平行β折叠股通过紧凑的β-转角连接而成。

3.3 βαβ

βαβ是很常见的结构。其实它的基本组成是αβ。比如这种来自白鞘布鲁氏菌的某个不清楚功能的蛋白质(
FHY56_02250):

前文提到,β-发夹通常用来连接两条反平行的β-链。那如何才能连接两条平行的β-链?如果两条相邻块平行β-链的残基顺序是连续的,其连接部分必须处于β-回折的两端。多肽链必须依靠环区域转两次才能够使这两条链平行,依次为:β链-环1-α螺旋-环2-β链,这样的结构就是称为βαβ。这种在具有平行β-回折的每一种蛋白质结构中均存在。在这样的结构中,与β-链的羧基端和α-螺旋的氨基端相连的环1常含有功能性结合部位或活性部位,而另一个与β-链的氨基端和 α-螺旋的竣基端相连的环2则尚未发现与活性部位有关。

在磷酸丙糖异构酶 YwlF(Putative sugar phosphate isomerase YwlF)里βαβ结构提现得特别清楚:

3.4 βαβαβ

βαβαβ是βαβ结构的延伸,是最常见的βαβ组合。事实上在磷酸丙糖异构酶 YwlF就已经属于βαβαβ结构。这种折叠方式又称罗斯曼(Rossman)折叠模式,是一种由两个重复的部分组成,每个部分包括6个平行的β折叠与两对α螺旋形成β-α-β-α-β的拓扑结构的蛋白质结构基序,常见于核苷酸结合蛋白质,特别是辅因子NAD结合蛋白。比如(NAD binding site:UBA/THIF-type NAD/FAD binding fold protein):

4. 三级结构(tertiary structure)

蛋白质的三级结构(tertiary structure)是指多肽链中所有原子和基团的构象。它是在二级结构的基础上进一步盘曲折叠形成的,包括所有主链和侧链的结构。三级结构就是指整条多肽链的三维结构啦,这就包括了主链骨架以及侧链在内的所有原子的空间结构。它是在二级结构的基础上进一步盘旋、折叠形成的具有一定规律的三维结构。三级结构主要通过氨基酸侧链间的疏水相互作用、氢键、范德华力、静电相互作用等来维持。假设一个蛋白质仅由一条多肽链构成,那么三级结构就为它的最高结构层次。

哺乳动物肌肉中的肌红蛋白整个分子由一条肽链盘绕成一个中空的球状结构,全链共有8段α螺旋,各段之间以无规卷曲相连。在螺旋肽段之间有一个疏水性的空穴,是用来放置血红素基团的。三级结构是蛋白质发挥生物活性所必须的,所以蛋白质变性时生物功能会受到破坏。

在三级结构中,多肽链的盘曲折叠是由分子中各氨基酸残基的侧链相互作用来维持的。二硫键是维持三级结构唯一的一种共价键,能把肽链的不同区段牢固地连接在一起,对于整体构象的稳定起着重要作用。一般二硫键的改变引起的失活也可看作变性。

疏水性较强的氨基酸一般通过疏水键和范德华力聚集成紧密的疏水核,而极性残基之间往往以氢键和盐键相互结合。在水溶性蛋白中,极性基团分布在外侧,与水形成氢键,使蛋白溶于水。这些非共价键统称次级键,虽然单个键的强度较弱,但总体数目庞大,而且彼此协同,所以仍然是维持三级结构的主要力量。

较大蛋白质的三级结构往往由几个相对独立的三维实体构成,这些三维实体称为结构域(domain)。结构域是在三级结构与超二级结构之间的一个组织层次。一条长的多肽链,可先折叠成几个相对独立的结构域,再缔合成三级结构。这在动力学上比直接折叠更为合理。

各结构域之间常常只有一段肽链相连,称为铰链区。铰链区柔性较强,使结构域之间容易发生相对运动,所以酶的活性中心常位于结构域之间。小蛋白多由一个结构域构成,由多个结构域构成的蛋白一般分子量大,结构复杂。比如双功能UDP-N-乙酰葡糖胺2-差向异构酶/N-乙酰甘露糖胺激酶(Bifunctional UDP-N-acetylglucosamine 2-epimerase/N-acetylmannosamine kinase):

再比如,富含半胱氨酸的大周质蛋白OmcB(Large cysteine-rich periplasmic protein OmcB)有四个结构域:

结构域不仅在空间上相对独立,往往也具有相对独立的生理功能。例如,很多脱氢酶含有两个结构域,一个负责结合辅酶,另一个负责催化。转录因子经常含有DNA结合结构域(BD)和转录激活结构域(AD)。在一些凝血因子中含有与γ-羧基谷氨酸有关的Gla结构域。一些转录因子具有锌指结构域。还有与残基修饰有关的结构域、与酶原激活有关的结构域等等。

结构域可以说是蛋白质结构与功能的基本单位,结构域的组合是形成复杂蛋白的主要方式。在研究一个未知蛋白的功能时,对其保守结构域的分析经常可以提供一个探索方向。在蛋白质的进化过程中,结构域的重复、重组和转移起到了非常重要的作用。

5.球状蛋白质的三级结构

蛋白质按分子形状可以分为球状蛋白和纤维状蛋白两大类。前者外形近似球体,多溶于水且具有活性,如酶、转运蛋白、蛋白激素、抗体等。其长度与直径之比一般小于10。后者一般外形细长,分子量大,多为结构蛋白,如胶原蛋白等。纤维状蛋白可分为可溶性纤维蛋白与不溶性纤维蛋白。前者如血液中的纤维蛋白原、肌肉中的肌球蛋白等,后者如角蛋白等结构蛋白。

球状蛋白质分子含多种二级结构元件;球状蛋白质三维结构具有明显的折叠层次,多肽链主链在熵驱动下折叠成借氢键维系的α-螺旋、β-折叠等二级结构,在一级序列上相邻的二级结构往往在三维折叠中彼此靠近并相互作用形成超二级结构;球状蛋白质分子是紧密的球状或椭球状实体;球状蛋白质分子疏水侧链埋藏在分子内部,亲水侧链暴露在分子表面,因此球状蛋白质分子是水溶性;球状蛋白质分子的表面有空穴(也称为裂沟或口袋),这种空穴常是结合底物、效应物等配体并行使生物功能的活性部位。

根据球状蛋白质的组装特征(也就是结构域的解刨学)分类可能是一件有意义的事。实际上,如何给蛋白质分类是一个非常前沿的课题。若读者能解决这一难题,往小了说,发表一篇高引用的Nature是没有问题的。

这一小节的意义是和读者一起了解蛋白质多种多样的构造。在读完本小节后,相信你会对蛋白质结构的多样性有新的认识。

5.1 全α蛋白质

全α蛋白质也就是α-螺旋占优势的蛋白质(请注意不一定全为α-螺旋)。前文提到的钙调蛋白就是典型的全α蛋白质:

再比如,天冬氨酸氨基转移酶3(Aspartate aminotransferase 3, chloroplastic):

复杂一些的结构比如PutA蛋白(Bifunctional protein PutA):

5.2 全β蛋白质

全β蛋白质也就是β-折叠占优势的蛋白质,存在大量β-片层结构。这类蛋白质很多会形成相当复杂的拓扑结构。比如超氧化物歧化酶(superoxide dismutase,也就是大家熟悉的SOD)形成了“希腊钥匙”结构(也就是小桶):

还有一种“果冻卷桶”结构与之类似但不同,比如RmlC样果冻卷折叠蛋白(RmlC-like jelly roll fold protein):

前文已经提到,全β蛋白包括一种结构非常有趣的β-桶蛋白,如血红素转运蛋白BhuA(Heme transporter BhuA):

β-桶蛋白包括了孔蛋白,在跨膜运输中发挥至关重要的作用,比如外膜蛋白Omp25(Outer-membrane protein Omp25):

全β蛋白质还包括一些结构非常复杂的蛋白,比如AsmA蛋白(AsmA family protein):

β-桶蛋白的结构也可以很复杂,比如TonB 依赖性受体(TonB-dependent receptor)等等…:

5.3 α/β蛋白质

也就是α螺旋和β折叠出现的蛋白质。这种结构可能是最复杂的立体结构。α/β蛋白质绝大多数跟与核苷酸(及其衍生物,如辅酶NAD)或糖类底物结合的蛋白质有关。β折叠是疏水的,一般存在于这类蛋白的疏水核心。

第一种α/β蛋白质是单绕平行β桶,二元结构组件构成骨架,如Triosephosphate isomerase(Triosephosphate isomerase):

另外一种是双绕平行β桶。这种结构其实在前文见过,它会含有Rossman折叠的超二级结构。如L-乳酸脱氢酶(L-lactate dehydrogenase A chain):

5.4 小蛋白质(富含金属键或二硫键)

很多小于100残基的小蛋白质结构域是不规则的,只含少量二级结构。金属键或二硫键会对小蛋白的构想起稳定作用。它们可能长成这样:

6. 四级结构(quaternary structure)

在了解四级结构之前,首先需要了解一下亚基(subunit),亚基通常都有一条多肽链构成,尽管亚基具有二、三级结构,但是我们把一个亚基单独拎出来,它是没有生物学功能的。因此这些亚基得聚集在一起,具有完整的四级结构才具备生物学功能。所以我们把亚基和亚基之间通过次级键结合形成的有规律的空间结构成为蛋白质的四级结构,而构成四级结构的每一条肽链称为一个亚基。

由两条或两条以上肽链通过非共价键构成的蛋白质称为寡聚蛋白。其中每一条多肽链称为亚基,每个亚基都有自己的一、二、三级结构。亚基单独存在时没有完整生物活性,只有相互聚合成特定构象时才具有完整的生物活性。四级结构就是寡聚蛋白天然构象中各个亚基的空间排布方式。

最常见的寡聚蛋白是血红蛋白。它是由两条α链和两条β链构成的四聚体,分子量65 KD。其分子呈四面体构型,肽链之间没有共价连接,所以每条肽链是一个亚基。每个亚基都和肌红蛋白类似,含有一个血红素辅基,可以结合一分子氧。这是血红蛋白亚基α:

当其中一个亚基与氧结合时,所有亚基都会发生运动,引起四个亚基相对空间位置的变化,使两个α亚基相互接近,两个β亚基则远离。这个变化会增加其余亚基对氧的亲和力,而第二、第三个亚基与氧结合同样增加剩下亚基对氧的亲和力。这样,第四个亚基对氧的亲和力可以达到第一个亚基的300多倍。所以血红蛋白在肺中可以迅速与氧结合。

变构现象与蛋白质的生理功能密切相关。有很多酶属于别构蛋白,称为别构酶。这些别构酶控制着代谢反应进行的速度。通过别构效应进行的一个优点是速度快,因为构象的改变可以在极短时间内完成。当机体需要立即加速某个代谢途径时,经常会通过别构效应来实现。相对说来,酶的共价修饰速度就要慢一些,而酶量的调控则属于长期调控的范畴。

很多具有重要生物学功能的蛋白具有四级结构,它们能看到很明显的“重复性”结构。比如:清除受体富含半胱氨酸的 1 型蛋白 M130(Scavenger receptor cysteine-rich type 1 protein M130):

7. AlphaFold介绍

文中展示了许多蛋白质的3D结构模型,这其实都是用AlphaFold模拟的。

2021 年 11 月 17 日,Science 杂志公布了 2021 年的年度科学突破榜单,AlphaFold 和 RoseTTA-fold 两种基于人工智能预测蛋白质结构的技术位列榜首。2021年AlphaFold的横空出世,引起了生物学界的巨大震动,乃至颠覆了整个生命科学,AI可以预测蛋白结构,这种似乎是梦中的事情,竟成为现实,一时间,无论是积极的还是负面的消息,都将AlphaFold推向了舆论的浪尖。

蛋白质可能是维持生命运动最重要的物质。自Anfinsen提出蛋白质的高级空间结构由蛋白质的氨基酸序列决定(因此获得1972年诺奖)后,人们慢慢就开始寻找一种蛋白质结构预测算法,可以精确地从蛋白质的氨基酸序列,由计算机预测出其复杂的空间结构,甚至最终由结构决定其功能。这不但是生物信息学,也是整个生物学中的一个重要的圣杯。开发者DeepMind在在两年一度的蛋白质预测大赛CASP(蛋白质结构预测关键评估)中所向披靡。这个已举办多届的赛事向来是学术人员的竞技场,比赛要求参赛团队对已经通过实验解析但尚未公布的蛋白质结构进行预测。

该比赛的评价方式是将参赛者提供的解决方案与“黄金试验标准”进行对比,用 GDT 评分衡量准确性,范围为 0-100,GDT 分数在 90 分左右,即可视为对人类实验方法具备竞争力。而 DeepMind 旗下的 AlphaFold 系统总分竟然达到了 92.4,和实验的误差在 1.6,即使是在最难的没有同源模板的蛋白质上面,这个分数也达到了了恐怖的 87.0 。同时,AlphaFold 的神经网络能在几分钟内预测出一个典型蛋白质的结构,还能预测较大蛋白质(比如一个含有 2180 个氨基酸、无同源结构的蛋白质)的结构。该模型能根据每个氨基酸对其预测可靠性进行精确预估,方便研究人员使用其预测结果。

在21年 7 月份,DeepMind 创始人兼首席执行官 Demis Hassabis 也在 Nature 杂志上分享了AlphaFold的开源代码,并发表了系统的完整方法论,详尽细致说明 AlphaFold 是如何做到精确预测蛋白质3D结构的。也就是说,这款强大蛋白质结构预测模型已经是完全免费的。

对于我们这些生命科学领域的参与者来说,通过AI软件即可获取一个相对精确的蛋白结构,是一件非常美妙的事情。更美妙的是,为了服务科研界并完善AlphaFold,Google colab免费向公众提供云服务器进行计算:AlphaFold.ipynb – Colaboratory。你也可以访问α折叠蛋白结构数据库 (ebi.ac.uk)来检索已经被计算过的蛋白质结构。

个人认为,相关的AI技术将是下一次生物学界浪潮爆发的起点。这也正是本篇短文最想回顾的。

留言