2022年1月20日,中國科學(xué)院上海營養(yǎng)與健康研究所李海鵬研究組聯(lián)合其他團(tuán)隊(duì),在人類遺傳學(xué)領(lǐng)域的國際重要學(xué)術(shù)期刊Human Genetics在線發(fā)表了題為“Fine human genetic map based on UK10K data set”的研究論文。遺傳重組是生命進(jìn)化的基礎(chǔ),在有性生物形成配子的過程中,來自父方和母方的染色體相互交換遺傳物質(zhì),從而極大地增加了相鄰基因間不同等位基因的組合,豐富了遺傳多樣性。精確度量基因組不同區(qū)域的遺傳重組率,始終是生物學(xué)研究的一個(gè)熱點(diǎn)問題。精確的遺傳重組圖譜對研究遺傳重組的發(fā)生機(jī)制,雜交育種,準(zhǔn)確定位致病突變和某一性狀的決定基因,均是非常重要的。
遺傳重組率估值的精確度,與數(shù)據(jù)中所囊括的遺傳重組次數(shù)成正比,如果數(shù)據(jù)中囊括了越多的遺傳重組事件,則遺傳重組率估值越精確,反之亦然。這一原則,無論是基于家系或單精子測序的研究,還是基于群體遺傳數(shù)據(jù)的研究,均是成立的。基于群體遺傳數(shù)據(jù)的分析,局限于已有的分析方法,很難運(yùn)用來分析大樣本。在這一研究中,研究者擴(kuò)展了前期開發(fā)的機(jī)器學(xué)習(xí)方法,運(yùn)用新開發(fā)的FastEPRR 2.0分析了公開的UK10K共3,781個(gè)非相關(guān)個(gè)體(n=7,562個(gè)基因組)測序數(shù)據(jù),基于Out-of-Africa群體歷史模型,準(zhǔn)確估計(jì)了遺傳重組率,構(gòu)建了精確的遺傳重組圖譜。總體上看,少數(shù)已知的遺傳重組熱點(diǎn)在UK10K遺傳圖譜中依然存在,但在UK10K遺傳圖譜中,遺傳重組率估值波動較為平緩,遺傳重組異質(zhì)性較低(圖1)。為了探究樣本大小對估值的影響,研究者從UK10K數(shù)據(jù)中隨機(jī)選取了2,000、400和200個(gè)基因組測序數(shù)據(jù),分析結(jié)果顯示,隨著樣本量的降低,遺傳重組率的估值波動加大。上述結(jié)論并不依賴于分析時(shí)所用的群體歷史模型,研究者在使用群體數(shù)量恒定模型中也觀察到了同樣的現(xiàn)象。這一新的研究成果不但為學(xué)術(shù)界提供了精確的人類遺傳重組圖譜,并且發(fā)現(xiàn)遺傳重組在基因組上的分布可能要比目前預(yù)期的更加均勻。正如一個(gè)評審人所說,目前對遺傳重組的研究,整個(gè)學(xué)術(shù)界傾向于發(fā)現(xiàn)越來越多的遺傳重組熱點(diǎn),但是這篇文章卻指出了另一可能。
理論群體遺傳學(xué)領(lǐng)域有著極其完善的數(shù)學(xué)基礎(chǔ),與機(jī)器學(xué)習(xí)中的黑盒子概念截然相反。但是研究者在2008年初,已經(jīng)準(zhǔn)確預(yù)見到了有監(jiān)督的機(jī)器學(xué)習(xí)對群體遺傳學(xué)的促進(jìn)作用,因此在2011年與合作者一起首次將有監(jiān)督的機(jī)器學(xué)習(xí)引入了群體遺傳學(xué)(Genetics)、并在2013年(Genetics)、2016年(G3)持續(xù)發(fā)展這一新范式。雖然有監(jiān)督的機(jī)器學(xué)習(xí)在某些方面做得比極大似然法、貝葉斯等方法更好,但是這一新范式究竟能否為進(jìn)化生物學(xué)領(lǐng)域帶來新發(fā)現(xiàn),依然是未知的。研究者的研究結(jié)果表明,新范式帶來了新發(fā)現(xiàn),同時(shí)也正面回應(yīng)了領(lǐng)域中某些質(zhì)疑意見。
中國科學(xué)院上海營養(yǎng)與健康研究所李海鵬研究員和華東師范大學(xué)的潘逸萱副教授為該論文的共同通訊作者。郝子謙博士和杜朋元博士為共同第一作者。該課題得到了國家自然科學(xué)基金、中國科學(xué)院先導(dǎo)項(xiàng)目、科技部國家重點(diǎn)研發(fā)計(jì)劃和中科院上海營養(yǎng)與健康研究所的支持。
PubMed鏈接:https://pubmed.ncbi.nlm.nih.gov/35048190
全文下載鏈接:https://rdcu.be/cFkND
UK10K鏈接:https://www.uk10k.org

圖1、各個(gè)遺傳重組圖譜中遺傳重組異質(zhì)性的統(tǒng)計(jì)。如果遺傳重組在基因組中均勻分布,此時(shí)將不存在任何遺傳重組異質(zhì)性,并且對應(yīng)曲線為對角線。如果基因組中遺傳重組異質(zhì)性越高,則有更多的遺傳重組熱點(diǎn),對應(yīng)曲線越彎曲。