甜蜜而富有挑戰(zhàn)性的糖基化蛋白質(zhì)組學(xué)研究
? ? 對(duì)于研究糖基化蛋白質(zhì)組學(xué)的學(xué)者們來(lái)講,很多人喜歡用sweet這個(gè)詞來(lái)形容自己的研究課題。我個(gè)人也很喜歡這個(gè)單詞,這是一個(gè)讓人感到幸福而溫暖的詞語(yǔ),會(huì)讓你對(duì)你的課題充滿了愛(ài)意。但回頭想想,當(dāng)初懵懵懂懂讀到研究生,誤打誤撞進(jìn)入蛋白質(zhì)組學(xué)圈,好像也就是隨大流的主動(dòng)抑或是被動(dòng)選擇了博士階段的課題,期間有艱苦,有迷茫,也有收獲,有喜悅。話扯遠(yuǎn)了,就讓我們進(jìn)入今天的話題,談一談糖基化蛋白質(zhì)組學(xué)發(fā)展到了今天,我們所能做的,和我們想要做的,希望能給領(lǐng)域內(nèi)的研究者們帶來(lái)一點(diǎn)點(diǎn)的啟迪,也讓不熟悉這個(gè)領(lǐng)域的科研工作者們對(duì)糖基化蛋白質(zhì)組有個(gè)粗略的印象。
? ? 在講糖基化蛋白質(zhì)組之前,先提一下什么叫做蛋白質(zhì)組??赡軐?duì)于即便是不懂科研的老百姓來(lái)說(shuō),基因組已經(jīng)是耳熟能詳?shù)脑~匯了。但談到蛋白質(zhì)組,好多人就懵圈了。用較為通俗易懂的話來(lái)說(shuō),蛋白質(zhì)組是指一個(gè)細(xì)胞或者一種組織或者一類器官甚至是某一物種所表達(dá)的全部蛋白質(zhì)。實(shí)際上,生物體內(nèi)蛋白質(zhì)組的表達(dá)是一個(gè)動(dòng)態(tài)變化的過(guò)程,在這一瞬間和下一瞬間,都是不一樣的,也許是同一種蛋白質(zhì)的表達(dá)量發(fā)生了變化,也許是其中所表達(dá)的蛋白質(zhì)種類發(fā)生了變化。聽(tīng)起來(lái),這就很復(fù)雜了對(duì)不對(duì)?可是要知道,研究作為其中一個(gè)子集的糖基化蛋白質(zhì)組,更是一件難上加難的事。為什么這么講?那就讓我們先來(lái)了解一下糖基化修飾是如何發(fā)生的。對(duì)于一個(gè)特定蛋白的表達(dá),會(huì)經(jīng)歷從DNA到mRNA的轉(zhuǎn)錄、轉(zhuǎn)錄后加工、最后翻譯成蛋白質(zhì)的一系列過(guò)程。而當(dāng)?shù)鞍踪|(zhì)被正確表達(dá)、剪切、折疊后,很多蛋白會(huì)進(jìn)行一個(gè)我們叫做翻譯后修飾(post translational modification)的過(guò)程,而后才成為具有相應(yīng)生理功能的成熟蛋白。這也就是我們?yōu)槭裁闯3Uf(shuō)One Gene, Many Proteins的緣由。在真核生物體內(nèi)已經(jīng)發(fā)現(xiàn)的翻譯后修飾有好幾百種,其中研究得比較廣泛的應(yīng)該是磷酸化、糖基化、甲基化、乙酰化、泛素化等。
? ?其中,糖基化修飾應(yīng)該算得上是其中比較復(fù)雜的一種了,不像很多其他修飾可能只是在某一種或幾種氨基酸上的側(cè)鏈上增加一個(gè)共價(jià)結(jié)合的分子量固定的基團(tuán),糖基化修飾可能發(fā)生在天冬酰胺Asn的側(cè)鏈氨基(-NH2)上(符合N-X-S/T, X≠P的序列規(guī)律,稱為N-連接糖基化修飾)或者發(fā)生在絲氨酸Ser或者蘇氨酸Thr的側(cè)鏈羥基(-OH)上(稱為O-連接糖基化修飾),而每一個(gè)修飾位點(diǎn)的糖鏈可能存在多種不同的糖型(筆者按:以上為最主要的兩大類糖基化修飾類型,另外還有C-連接糖基化修飾、GPI錨定連接糖基化修飾等)。用直白一點(diǎn)的語(yǔ)言來(lái)說(shuō),就是每個(gè)可能發(fā)生糖基化修飾的位點(diǎn)(不論是哪種類型的糖基化修飾)都可能接上非常多不同種類的糖鏈(圖1列出了N-連接糖基化修飾的三大類——高甘露糖型high mannose、雜合型hybrid和復(fù)雜型complex以及最常見(jiàn)的四種O-連接糖基化修飾的核心結(jié)構(gòu)——core 1, 2, 3, 4)。你可以想象,本來(lái)是一堆一模一樣的光禿禿的蛋白(當(dāng)然這是種夸張的說(shuō)法啦),在它們的第123位氨基酸上有個(gè)糖基化修飾位點(diǎn),于是一堆同樣的蛋白根據(jù)所帶糖鏈結(jié)構(gòu)的不同分成了好幾十堆,這一堆帶一種糖鏈,那一堆帶另一種糖鏈,以此類推……天啦嚕,想想就覺(jué)得很復(fù)雜很頭疼,對(duì)不對(duì)?

? ? 別急,你以為這就是坑了,那請(qǐng)你小心駕駛,前方有更大更深的坑呢。嗯,我還是試著用比較通俗一點(diǎn)的語(yǔ)言來(lái)闡述接下來(lái)的問(wèn)題吧。還是老規(guī)矩,先給大家介紹一下經(jīng)典的蛋白質(zhì)組學(xué)shotgun研究策略。如圖2所示,當(dāng)我們從研究對(duì)象(細(xì)胞、組織、血液樣本等)中提取了全蛋白,通常會(huì)選用合適的酶(最常用的是胰酶trypsin或者Lys-C酶)將蛋白酶解成肽段,為了提高蛋白質(zhì)組的覆蓋深度,可以先將肽段進(jìn)行分級(jí)處理(也就是采用合適的色譜分離方法將一個(gè)樣品分成數(shù)十個(gè)餾分,當(dāng)然你完全可以省略這一步),而后將得到的不同餾分或者整個(gè)肽段混合樣本進(jìn)行RPLC-MS/MS分析(即反向分離后進(jìn)行串級(jí)質(zhì)譜鑒定),從而得到數(shù)十萬(wàn)甚至上百萬(wàn)張二級(jí)譜圖。將這些二級(jí)譜圖,與基于該物種基因組數(shù)據(jù)推導(dǎo)而來(lái)的蛋白質(zhì)序列經(jīng)過(guò)模擬酶切(in silico digestion)后得到的理論譜圖進(jìn)行比對(duì),即可確定我們的研究樣本中究竟有哪些蛋白質(zhì)存在。如果這個(gè)過(guò)程大家理解了,那么我想告訴大家的是,在某一個(gè)樣本中,必然同時(shí)存在含量高的蛋白和含量低的蛋白。含量高的蛋白我們通常稱其為高豐度蛋白,含量低的蛋白則為低豐度蛋白。前面說(shuō),蛋白質(zhì)經(jīng)過(guò)糖基化修飾這一步,才會(huì)在其某些位點(diǎn)上帶上糖鏈。必須指出的是,雖然有很多蛋白都會(huì)發(fā)生糖基化修飾(在真核生物體內(nèi)這個(gè)比例甚至可能高達(dá)50%),但發(fā)生糖基化修飾的蛋白質(zhì)的含量是非常低的。也就是說(shuō),很多蛋白都發(fā)生了糖基化修飾,但對(duì)每個(gè)蛋白而言,只有極少一部分發(fā)生了糖基化修飾。最最關(guān)鍵的是,發(fā)生糖基化修飾的這部分蛋白又不是完全一樣的,有些帶上這一類糖鏈,有些又帶上那一類糖鏈。因此,當(dāng)糖基化肽段和非糖基化肽段同時(shí)被離子化,而后進(jìn)入質(zhì)譜進(jìn)行檢測(cè)時(shí),必然是高豐度的非糖基化肽段被檢測(cè)到的可能性更高。如果質(zhì)譜花了時(shí)間和精力在高豐度的肽段上,那么低豐度的肽段則會(huì)被妥妥忽略,更別提糖基化肽段的離子化效率會(huì)相對(duì)更低一些,也就更難被檢測(cè)到了。

? ? 以上所說(shuō)的是由于糖基化修飾本身所帶來(lái)的研究難點(diǎn)。面對(duì)這種困難,研究者們選擇的是在進(jìn)行質(zhì)譜分析前對(duì)樣品進(jìn)行特殊的操作處理,我們把這種處理步驟稱之為富(enrichment)。糖基化蛋白質(zhì)組學(xué)研究發(fā)展到了今天,各種富集方法和富集策略早已發(fā)展得十分成熟,且應(yīng)用于各種實(shí)際樣本中,獲得了成功。簡(jiǎn)而言之,常見(jiàn)的富集技術(shù)就是那么幾類(可參考文獻(xiàn)Specific enrichment methods for glycoproteome research. Lijuan Zhang, et al. Anal Bioanal Chem (2010) 396: 199-203.):凝集素親和色譜法、免疫親和色譜法、親水性相互作用色譜法(HILIC)、酰肼化學(xué)固相萃取法、硼酸固相萃取法等。不同的富集方法,各有其優(yōu)點(diǎn)及固有局限。像凝集素親和色譜法、免疫親和色譜法和硼酸固相萃取法在某些領(lǐng)域非常受歡迎,而在大規(guī)模糖蛋白質(zhì)組學(xué)研究時(shí),研究者們可能更偏愛(ài)酰肼化學(xué)法和親水性相互作用色譜法。在糖基化蛋白質(zhì)組學(xué)研究發(fā)展的初期,酰肼化學(xué)法因其超高特異性而深受青睞。繼2003年Zhang Hui教授發(fā)表了第一篇基于酰肼化學(xué)富集法的糖蛋白質(zhì)組研究工作后(酰肼化學(xué)法原理見(jiàn)圖3,摘自Nat Biotechnol. 2003 Jun;21(6): 660-666.),不僅有后來(lái)者沿用其原理在技術(shù)本身上做了創(chuàng)新性的工作(Highly specific enrichment of N-linked glycopeptides based on hydrazide functionalized soluble nanopolymers. Lijuan Zhang, et al. Chem. Commun., 2014, 50, 1027-1029.),酰肼化學(xué)富集法同樣被應(yīng)用于DIA技術(shù)研究糖蛋白組的工作中(Yansheng Liu,et al.Molecular & Cellular Proteomics,2014,13,1753-1768.)。然而,酰肼化學(xué)富集有個(gè)固有的缺陷,那就是經(jīng)過(guò)酰肼富集的糖基化蛋白/肽段上的糖鏈結(jié)構(gòu)遭到了破壞,只能得到糖基化位點(diǎn)的信息。至于該位點(diǎn)上到底有哪些種類的糖型結(jié)構(gòu),我們一無(wú)所知。當(dāng)然,這在前幾年,質(zhì)譜硬件條件和軟件算法都還沒(méi)對(duì)完整糖肽解析有特別貢獻(xiàn)的情況下,采用高特異性的酰肼富集方法,我們能夠在蛋白和肽段層面對(duì)糖基化修飾進(jìn)行大規(guī)模的定性定量研究,這就極大的推動(dòng)了糖基化蛋白質(zhì)組的研究進(jìn)程了。

?? 而在今天,自從Thermo推出了Orbitrap Fusion Tribrid質(zhì)譜后,不論是儀器本身的高精度、高靈敏度、高分辨率、超高速度的掃描,還是碎裂模式、能量調(diào)節(jié)方面,可以說(shuō)都提供了較為理想的硬件條件,間接的也對(duì)糖基化蛋白質(zhì)組研究起了非常大的促進(jìn)和推動(dòng)作用。再有一個(gè),更多的研究者們開(kāi)始將注意力轉(zhuǎn)向糖基化肽段上糖型的變化,為此在分析方法、儀器參數(shù)設(shè)置、數(shù)據(jù)處理算法方面都做出了巨大的努力和貢獻(xiàn)。2017年,復(fù)旦大學(xué)的楊芃原教授和中科院計(jì)算所的賀思敏教授課題組在Nature Communications上聯(lián)合發(fā)表了采用國(guó)內(nèi)自主研發(fā)的pGlyco軟件實(shí)現(xiàn)了大規(guī)模完整糖肽的精確解析工作,在一次實(shí)驗(yàn)中同時(shí)完成肽段、糖鏈、完整糖肽三方面的定性與定量分析,并且能夠控制三個(gè)層面上的低假陽(yáng)性率檢出,可以說(shuō)是極大程度的提高了當(dāng)今完整糖肽的質(zhì)譜鑒定水平(圖4)。

? ? 后修飾蛋白質(zhì)組學(xué)一直算得上是蛋白質(zhì)組領(lǐng)域內(nèi)難度和挑戰(zhàn)性最高的分支課題了,這其中尤以糖基化蛋白質(zhì)組更是讓人又愛(ài)又恨。回溯整個(gè)糖蛋白質(zhì)組學(xué)的研究進(jìn)程,可以很清楚的看到,初期大家將目光和重點(diǎn)放在發(fā)展各項(xiàng)糖基化蛋白/肽段富集新技術(shù)上,并力圖將這些技術(shù)應(yīng)用于實(shí)際樣本的大規(guī)模糖基化位點(diǎn)的研究中。而后,隨著各項(xiàng)富集技術(shù)的不斷優(yōu)化和成熟,同時(shí)伴隨著質(zhì)譜儀器的更新?lián)Q代以及軟件算法的日新月異,研究者們不再止步于修飾位點(diǎn)的鑒定,更多的考慮的是在完整糖肽水平去深入挖掘更有意義的數(shù)據(jù),因?yàn)榇罅康难芯勘砻魈囟ㄐ揎椢稽c(diǎn)上糖型的變化很可能預(yù)示著某些生理功能的改變,與疾病的發(fā)生發(fā)展密切相關(guān)。當(dāng)然,我們現(xiàn)在談到的都是N-糖基化蛋白質(zhì)組學(xué)研究。至于O-糖基化蛋白質(zhì)組,我只能很遺憾的說(shuō),其發(fā)展遠(yuǎn)遠(yuǎn)落后于N-糖基化蛋白質(zhì)組,這是與O-糖基化修飾本身的特點(diǎn)密切相關(guān)的(O-糖基化修飾種類繁多,位點(diǎn)沒(méi)有保守序列,糖鏈結(jié)構(gòu)也更為復(fù)雜,數(shù)據(jù)庫(kù)信息非常有限),在不遠(yuǎn)的將來(lái),這也必然是研究者們會(huì)重點(diǎn)關(guān)注和投入力量的領(lǐng)域。