綜述解讀:從神經(jīng)功能到基因調(diào)控前沿動物基因組中的非CG甲基化
瀏覽次數(shù):256 發(fā)布日期:2026-1-15
近日,由西班牙安達盧西亞發(fā)育生物學中心Ozren Bogdanovic和英國倫敦瑪麗女王大學Alex de Mendoza共同通訊,在《Nature Genetics》(IF29/Q1)期刊發(fā)表題為“Non-CG DNA methylation in animal genomes”的重磅綜述,系統(tǒng)梳理了動物基因組中非CG 的DNA甲基化(non-CG DNA methylation, mCH)的分布模式、分子機制與功能意義。本文將非CG 甲基化這一長期被忽視但日益重要的表觀遺傳修飾推向前沿視野,揭示其在神經(jīng)發(fā)育、細胞身份維持及基因組穩(wěn)定性調(diào)控中的保守性與獨特性。
胞嘧啶DNA甲基化(5-methylcytosine,5mC)在動物基因組中廣泛存在且主要發(fā)生在CG二核苷酸(mCG)上,其功能(如基因組印記、維持基因組穩(wěn)定性)已廣泛研究,但非CG DNA甲基化(mCH,其中H=A、C或T)的功能仍知之甚少。
在大多數(shù)脊椎動物組織中,mCH水平通常較低(約1-3%),但在神經(jīng)組織、卵母細胞和胚胎干細胞中較為普遍,且與神經(jīng)發(fā)育障礙相關聯(lián)。此外,在哺乳動物中,mCH早在數(shù)十年前就被觀察到,但由于其在大多數(shù)組織中基因組水平較低,且常與mCG共定位,其功能長期存在爭議,一度被認為是DNMT脫靶效應或亞硫酸鹽轉化假象。隨著研究的深入,發(fā)現(xiàn)源于不同組織背景下甲基化維持機制的差異,mCG由DNMT1維持甲基化,而mCH在每次細胞分裂后都需要不斷重新甲基化是其低水平的主要原因(圖1a)。
大規(guī)模平行測序技術和全基因組重亞硫酸鹽測序(WGBS)的出現(xiàn),使科學家們能夠以前所未有的視角觀察5mC的序列背景,并根據(jù)細胞類型和基因組特征進行分類。在此基礎上開展的研究不僅證實植物基因組中的先驗知識,還在人胚胎干細胞(hESCs)、人生殖細胞及哺乳動物神經(jīng)元中發(fā)現(xiàn)了CAG背景下mCH的顯著富集(圖1b-c)。隨后,研究逐漸擴展至脊椎與非脊椎動物譜系,這為理解mCH的功能與基因組分布模式提供了跨物種視角。然而,mCH對基因組調(diào)控的貢獻程度尚不完全明確,尤其在哺乳動物中,mCG與mCH共有的DNMT3家族酶沉積機制,導致難以構建特異性影響mCH的遺傳模型。
圖1:不同細胞類型中mCH沉積機制及基因組mCH水平
mCH在多能性與種系發(fā)生兩大發(fā)育期的獨特動態(tài)變化
盡管大多數(shù)哺乳動物體細胞的mCH水平極低,但在雌性生殖細胞、hESCs及誘導多能干細胞(iPSCs)中卻檢測到顯著富集。在hESCs中,mCH以CAG環(huán)境為主,偏好性沉積于基因體區(qū)域,但在轉錄因子結合位點及遠端調(diào)控元件中則被清除。這種分布模式在iPSCs中類似,但二者在mCH含量與定位上存在系統(tǒng)性差異,標準化重編程產(chǎn)生的iPSCs表現(xiàn)出大片段差異甲基化區(qū)域(DMRs),其CH低甲基化區(qū)域與H3K9me3修飾富集區(qū)重疊,提示iPSC狀態(tài)存在更廣泛表觀基因組重編程缺失(圖2a)。相比之下,通過瞬時原始態(tài)處理重編程(TNT)產(chǎn)生的iPSCs則能恢復至更接近hESCs的表觀狀態(tài)(圖2a)。這種差異凸顯了mCH作為評估重編程效率與干細胞身份生物標志物潛力。
在哺乳動物生殖系中,mCH呈現(xiàn)顯著的性別差異。雌性生殖細胞在卵母細胞生長期積累mCH,而雄性生殖細胞雖在原始生殖細胞與新生前精原細胞(prospermatogonia)中表現(xiàn)出峰值,但在成熟精子中幾乎完全丟失。卵母細胞中高豐度的mCH(約65%的甲基化胞嘧啶位于CH位點)在CAG與CAC環(huán)境中隨成熟進程持續(xù)增加,且與mCG共定位于基因體與重復序列。值得注意的是,老年小鼠卵母細胞的全局mCG水平下降伴隨mCH上升,鑒于年齡相關的卵母細胞質(zhì)量衰退,mCH可能作為評估卵母細胞質(zhì)量的敏感指標。
具體而言,hESCs中DNMT3B偏好CAG環(huán)境,而DNMT3A則對CAC表現(xiàn)出更高的偏好性,且二者均可被活躍組蛋白標記H3K36me3通過PWWP結構域招募(圖2a)。而在卵母細胞中,DNMT3A與DNMT3L(DNMT3-like)主要負責mCH沉積。有趣的是,在小鼠中敲除DNMT3A與DNMT3L的ADD結構域(識別未甲基化H3K4)導致全局mCG丟失,但少數(shù)位點卻出現(xiàn)mCG與mCH的協(xié)同性異常積累,這一發(fā)現(xiàn)挑戰(zhàn)了mCH僅作為mCG副產(chǎn)物的觀點,暗示其可能具有獨立于mCG沉積的調(diào)控機制?傮w而言,mCH在多能性與生殖系狀態(tài)中呈保守性存在,但其建立機制具有細胞類型特異性,且與發(fā)育狀態(tài)的緊密關聯(lián)提示其在評估細胞質(zhì)量與身份中的診斷價值。

圖2:脊椎動物中mCH的染色質(zhì)環(huán)境與發(fā)育動態(tài)
mCH在哺乳動物神經(jīng)系統(tǒng)中的核心調(diào)控與病理關聯(lián):mCH Reader、writer、調(diào)控效應與表型
在哺乳動物腦中,mCH(主要為CAC環(huán)境)是5mC的主要形式,其豐度甚至超過mCG。這種修飾特異性沉積于基因體,且其水平與基因表達呈現(xiàn)強烈的負相關(圖2a)。神經(jīng)mCH在出生后快速積累,且主要富集于神經(jīng)元。即使在膠質(zhì)細胞中,mCH仍參與抑制神經(jīng)特異性基因的表達,這些基因在神經(jīng)元中通常呈低甲基化狀態(tài)。從功能視角看,mCH在脊椎動物譜系中廣泛關聯(lián)基因沉默,尤其偏好性抑制長基因及參與神經(jīng)發(fā)育的基因群。
DNMT3A是神經(jīng)mCH的主要writer蛋白,其被H3K36me2廣泛招募至拓撲關聯(lián)結構域(topologically associating domains),建立區(qū)域性mCH,而活性組蛋白標記如H3K36me3則排斥DNMT3A。
MeCP2(methyl-CpG-binding protein 2)是目前唯一已知的mCH識別蛋白(reader)(圖2a)。MeCP2在神經(jīng)元中表達量極高,其基因組結合模式廣泛而彌散。MECP2基因突變導致一種名為Rett綜合征(RTT)的X連鎖顯性神經(jīng)發(fā)育障礙。MeCP2被招募至mCH富集區(qū)后,促進NCoR共抑制復合體組裝,而RTT相關突變直接破壞這一互作。關鍵實驗證據(jù)來自僅能結合mCG而不能識別mCH的MeCP2嵌合體,其在小鼠中仍導致RTT樣癥狀,強烈暗示mCH是MeCP2在大腦中發(fā)揮功能的主要信號。
同樣,條件性敲除小鼠腦中DNMT3A導致mCH丟失,產(chǎn)生類似RTT表型。盡管存在PRC2介導的H3K27me3代償機制,但無法完全恢復基因調(diào)控正常化。單細胞亞硫酸鹽測序(scWGBS)研究進一步揭示,mCH是區(qū)分神經(jīng)元亞型的更有效標記物,其異質(zhì)性在腦區(qū)、細胞類型間呈現(xiàn)精細差異。
最近兩項大規(guī)模單細胞研究證實,mCH能更精準定位神經(jīng)元身份,且長基因的高mCH水平與染色質(zhì)環(huán)(loop)形成抑制相關,提示MeCP2與mCH協(xié)同抑制基因激活與三維基因組結構重塑,從而鎖定分化程序。最新斑馬魚研究證實其神經(jīng)mCH調(diào)控模式與哺乳動物高度保守,由DNMT3A的魚類同源物Dnmt3aa與Dnmt3ab催化CAC環(huán)境甲基化,表明這是一條脊椎動物共有的神經(jīng)發(fā)育調(diào)控軸。
mCH在胚胎發(fā)育與演化中的作用:從哺乳動物擴展至胚胎發(fā)育全程與演化比較
在哺乳動物中,mCH主要從卵母細胞遺傳而來。受精后,mCH水平隨著每次細胞分裂而下降;在小鼠中,卵母細胞中約3%的胞嘧啶在mCH背景下發(fā)生甲基化,到2細胞期降至約1%,在內(nèi)細胞團(ICM)中幾乎消失。在人類樣本中也觀察到類似的水平和發(fā)育動態(tài)。因此,mCH在胚胎發(fā)生的極早期階段丟失,隨后在神經(jīng)系統(tǒng)發(fā)育過程中以及卵子發(fā)生過程中重新出現(xiàn)(圖2b)。
在斑馬魚中,研究者在鑲嵌衛(wèi)星重復序列(mosaic satellite repeats, MoSAT)內(nèi)的TGCT序列背景下觀察到高水平的mCH。這些重復序列位于長基因的內(nèi)含子和基因間區(qū)域,通常富集組成型異染色質(zhì)組蛋白修飾H3K9me3。值得注意的是,這些區(qū)域缺失mCG。MoSAT mCH模式由硬骨魚特異性的DNMT3直系同源物Dnmt3ba建立,該酶包含鈣調(diào)蛋白同源(CH)域。在斑馬魚中,mCH在配子中富集,卵母細胞和精子都表現(xiàn)出高mCH水平(圖2c)。在早期胚胎發(fā)育過程中,MoSAT mCH被稀釋,在合子基因組激活(ZGA)時期達到最低點。ZGA之后,mCH水平增加。與哺乳動物不同,斑馬魚中的MoSAT mCH不僅在大腦中重新積累,也在源自所有三個胚層的成年組織中重新積累(圖2c)。在青鳉(與斑馬魚大約在1.5-2億年前分化的遠緣硬骨魚)中,MoSAT mCH僅存在于卵母細胞中,并在受精后丟失。這種模式反映了斑馬魚中觀察到的動態(tài),即mCH水平在ZGA時達到最低點,然后在分化胚胎中重新建立。
在脊椎動物譜系中,mCG和mCH背景下的整體5mC水平通常較低。雖然越來越多的證據(jù)表明mCH可能存在于多種物種中并具有重要的調(diào)控功能,但非脊椎動物中的mCH研究需高度審慎。蜜蜂頭部雖檢測到CA環(huán)境mCH且與蜂王/工蜂差異相關,但其水平極低(約0.2%)且缺乏保守motifs;螞蟻、蛾類、牡蠣等物種雖有報道,但大多未排除單核苷酸多態(tài)性(SNPs)干擾或未設立陰性對照。
盡管如此,鑒于mCH在脊椎動物神經(jīng)系統(tǒng)中的保守積累模式,其在昆蟲中可能代表保守的發(fā)育特征,或僅因缺乏有絲分裂后清除機制而累積的脫靶效應。因此,mCH在脊椎動物中呈現(xiàn)清晰的組織與階段特異性,而在非脊椎動物中的存在與功能仍需嚴格驗證。
mCH在重復基因組調(diào)控中的作用:挑戰(zhàn)其作為單一沉默標記的傳統(tǒng)認知
重復序列(repetitive elements)占人類基因組的50-70%,在斑馬魚中約50%,在某些脊椎動物中高達90%。這些重復元件通常被mCG及H3K9me3等抑制性標記沉默,并組織為組成型異染色質(zhì)。
在脊椎動物中,mCH主要富集于短散在核元件(SINEs)與長散在核元件(LINEs),但其精確功能尚未充分探索。鳥類研究報道m(xù)CH水平與轉座元件表達存在微弱但顯著的負相關;斑馬魚腦中,Tc1-mariner超家族成員TDR與TC1DR3及其他含潛在MeCP2結合位點(5mCAC)的轉座元件均在CH位點高甲基化,提示mCH通過促進MeCP2結合參與轉座元件沉默。
哺乳動物腦中MeCP2抑制LINE-1逆轉座活性提供了進一步證據(jù)。但mCH在重復元件上的功能呈現(xiàn)顯著的背景依賴性,小鼠ESCs中主要衛(wèi)星重復序列(mSat)雖具有高mCH與mCG,但其轉錄活躍且與正確異染色質(zhì)組織相關,提示mCH可能參與染色質(zhì)高級結構構建。同樣,硬骨魚類MoSAT mCH在ZGA前胚胎與成體組織中豐度極高,但其功能可能不必然關聯(lián)轉錄抑制。這與hESCs中基因體mCH與轉錄活性正相關的現(xiàn)象形成對比?缛耸蠖嘟M織比較研究進一步揭示,mCH在CA與CT位點呈細胞類型特異性且可能保守,表明其富集模式受細胞類型與重復類別的雙重調(diào)控。
綜上所述,mCH在重復基因組中的功能遠比簡單的“沉默標記”復雜,其在特定背景下可能參與基因激活、染色質(zhì)組織或結構維持,且植物與動物中mCH介導的CG缺失重復序列調(diào)控可能更為相似,但這需要嚴格的功能驗證。
mCH研究在實驗與生信分析中的技術瓶頸與新興解決方案
在實驗檢測方面,基于亞硫酸鹽轉化方法(WGBS)仍然是檢測甲基化胞嘧啶的金標準(圖3a)。此外,基于酶法轉化甲基化測序(EM-seq)通過TET2氧化與APOBEC3A脫氨協(xié)同作用,將未修飾胞嘧啶轉化為尿嘧啶(圖3a)。ONT則通過檢測DNA過孔時的電流變化直接識別修飾堿基,無需化學轉換,其長讀長優(yōu)勢極大改善重復區(qū)可比對性,但mCH檢測在低豐度場景下仍具挑戰(zhàn)性。此外,非轉化(nonconversion)率導致的假陽性是致命陷阱,未甲基化胞嘧啶未能完全轉換為尿嘧啶,在CH遠多于CG的基因組中,即使0.5-1%的非轉化率也可產(chǎn)生大量假陽性調(diào)用(圖3b)。由于在低甲基化物種中此問題尤為突出,必須引入非甲基化對照(如λ噬菌體DNA)以獨立評估非轉化率。線粒體DNA雖曾被提議作為內(nèi)參,但其甲基化狀態(tài)本身存在爭議且可能受環(huán)形構象影響轉換效率,故外源對照更為可靠。
雖然存在許多用于分析5mC的工具和流程,但大多數(shù)是針對mCG優(yōu)化的,許多流程仍然默認報告mCH和mCHG以適應植物甲基化模式,可能不適用于脊椎動物mCH。此外,傳統(tǒng)短讀長測序技術的主要限制是其在重復基因組區(qū)域的有效性降低,在重復元件中難以可靠比對,尤其在轉化后C→T背景下。長讀長技術雖改善此問題但尚未標準化,且內(nèi)置錯誤率需額外校正策略(圖3c)。
與mCH分析相關的另一個計算挑戰(zhàn)是甲基化的準確識別(圖3d),SNP導致的模糊序列背景是另一重大偏倚,CG位點經(jīng)演化突變變?yōu)镃A/TG,若參考基因組未反映個體基因型,則實際存在的mCG會被錯誤歸類為mCH(圖3d)。此問題在非脊椎動物中因雜合度更高而加劇。為了減少這種偏差,應過濾掉源自含有SNP區(qū)域或在WGBS或EM-seq數(shù)據(jù)中確認為CG的mCH識別。
最后,識別CH背景下的DMRs尤其困難。雖然mCG通常以密集簇形式出現(xiàn),便于檢測離散的DMRs,但mCH往往分布更稀疏。因此CH DMRs可能跨越更大的基因組區(qū)域,遠超傳統(tǒng)工具優(yōu)化范圍。對于特定基因體或重復元件中的mCH分析,可以手動計算注釋區(qū)域上的甲基化水平。目前,將基因組分箱(binning)并比較箱(bins)之間的甲基化水平是檢測CH DMRs最可靠方法之一?傊詥螇A基分辨率評估m(xù)CH可行,但必須仔細考慮實驗和計算上的挑戰(zhàn)。

圖3:mCH檢測和定量中的挑戰(zhàn)和瓶頸
未來展望
mCH研究領域仍存在許多值得探究的未解之謎。
首要問題是mCH究竟是高度保守的調(diào)控機制、譜系特異性趨同演化的產(chǎn)物,還是DNMT3活性的無功能副產(chǎn)物?支持“副產(chǎn)物假說”的證據(jù)包括共有的DNMT3酶系、mCH與mCG的基因組共定位,以及ADD結構域雙敲小鼠中mCH在mCG上調(diào)位點區(qū)域的異常積累。然而,mCH區(qū)別于mCG:1.不同細胞類型間mCH水平的顯著差異(如神經(jīng)元與卵母細胞高、體細胞低)與高度穩(wěn)定的mCG水平形成明顯對比;2.硬骨魚類Dnmt3ba特異性靶向CG缺乏的MoSAT重復序列;3.植物中mCH沉默CG轉座元件缺失;4.mCH在多組織中呈現(xiàn)與mCG不同的發(fā)育動態(tài)轉變;此外,在哺乳動物大腦中,mCH通過MeCP2的抑制活性介導基因沉默,且15-20%的MeCP2靶位點同時包含mCG,使得特異性解析mCH功能極為困難。已有研究提示動物與植物mCH介導的重復序列調(diào)控可能高度相似,屬于功能趨同證據(jù),但仍需進一步驗證。
其次,DNMT3家族介導mCH沉積的招募機制亟待深入解析。相關研究已描繪了多重潛在通路(圖4):1.序列特異性轉錄因子可招募DNMT3至靶位點;2.DNMT3的特殊域如斑馬魚Dnmt3ba的CHD可能賦予其靶向特異性;3.高密度的DNA基序(如串聯(lián)重復)可增強DNMT3部分密度;4.H3K36me2/3通過PWWP域招募等染色質(zhì)環(huán)境將mCH沉積與轉錄活性區(qū)域機械耦聯(lián);5.蛋白-蛋白互作(如DNMT3L-DNMT3穩(wěn)定化)可促進甲基化效率;6.重復元件形成的DNA二級結構(如G-四鏈體)也可能輔助DNMT3靶向。總之,這些通路提示mCH沉積是序列、染色質(zhì)與酶協(xié)同性的綜合結果。
第三,哺乳動物模型的構建需要進一步優(yōu)化。斑馬魚等硬骨魚類擁有可分離mCH與mCG效應的特有DNMT3,其Dnmt3ba敲除模型中mCG缺失雖可被冗余DNMTs補償,但mCH丟失無法挽救。
第四,單細胞與第三代長讀長技術的融合將提供前所未有的分辨率,揭示細胞類型特異性的mCH調(diào)控網(wǎng)絡。
第五,改進ONT的mCH檢測靈敏度或開發(fā)深度學習模型(需針對組織細胞類型訓練)可發(fā)現(xiàn)新調(diào)控模式。
第六,表觀基因組工程技術可實現(xiàn)mCH的靶向添加(writer)或去除(eraser)。
最后,mCH在基因調(diào)控與重復元件調(diào)控中的具體功能仍未完全清楚,需要分子與計算工具的協(xié)同創(chuàng)新來進一步揭示。未來數(shù)十年,將是mCH生物學的黃金時代,其作為神經(jīng)組織中新興基因調(diào)控標記的地位已確立,但其在重復元件調(diào)控、細胞身份維持及疾病中的精確機制仍有待深度挖掘。

圖4:mCH沉積的潛在機制
相關閱讀
參考文獻:Brethouwer T, de Mendoza A, Bogdanovic O. Non-CG DNA methylation in animal genomes. Nat Genet. 2025 Sep 11. doi: 10.1038/s41588-025-02303-1.