RNA測序
此條目需要精通或熟悉生命科學的編者參與及協助編輯。 (2012年2月21日) |
In vivo:在生物體內,基因被轉錄,並在(真核生物中)經過剪接,最終產生成熟的mRNA轉錄本(紅色)。
In vitro:隨後從生物體中提取mRNA,將其片段化併合成(逆轉錄加雜合鏈轉換)穩定的雙鏈cDNA(藍色)。接着利用高通量短讀測序法,對雙鏈cDNA進行測序。
In silico:最後,將這些序列與參考基因組序列進行比對,從而重建並確定哪些基因組區域發生了轉錄。此類數據可用於註釋表達基因的位置、其相對表達水平以及各種可變剪接變體[1]。
RNA測序(RNA sequencing,RNA-seq[2][3])或核糖核酸測序,是指分析特定RNA片段的鹼基序列,也就是腺嘌呤(A)、尿嘧啶(U)、胞嘧啶(C)、鳥嘌呤(G)的排列方式。
全轉錄物組測序(whole transcriptome sequencing,WTS[4][5]),相對於全基因組測序(WGS),是利用高通量測序技術,檢測並獲得細胞或組織在特定功能狀態下所轉錄的所有RNA產物序列的方法[6],屬於一種狹義的RNA測序。WTS基於第二代測序技術的轉錄組學研究方法,使用第二代測序的能力,在給定時刻從一個基因組中,揭示RNA的存在和數量的一個快照[7]。
首先提取生物樣品的全部轉錄的RNA,然後反轉錄為c-DNA後進行的二代高通量測序,在此基礎上進行片段的重疊組裝,從而可得到一個個的轉錄本。進而可以形成對該生物樣品當前發育狀態的基因表達狀況的全局了解(global)。進一步說,若和下一階段的生物樣品的RNA-Seq轉錄組進行比較,則可以得到全部的(在轉錄層面)基因表達的上調及下調—這就形成了表達譜,針對關鍵基因則可以形成你要想要的通路(pathway)的構建。
介紹[編輯]
相較於一個靜態的染色體而言,細胞內的轉錄物組是一個處於不斷變化的動態過程。隨着現在的次世代基因測序(NGS)技術的發展,使得可測得的DNA鹼基覆蓋面增加且樣本輸出的吞吐量增大。有助於對細胞內RNA轉錄物進行測序,提供包括選擇性剪接的轉錄、轉錄後的修飾、基因融合、突變/SNPs以及基因表達量改變等細節[8]。,RNA測序不僅能檢測mRNA的轉錄,還能觀測到包括總RNA和小RNA(miRNA、tRNA和核糖體RNA)在內不同尺度的RNA表達譜[9]。RNA測序還能用來確定外顯子/內含子的邊界,修正之前註釋的5'和3'端基因邊界。未來的RNA測序研究還包括觀察感染時細胞傳導路徑的變化[10]和癌症中不同基因表達程度[11]。下一代基因測序之前,對轉錄物組學和基因表達的研究主要基於基因表達晶片(微陣列),後者包含數以千計用於探測靶向序列的DNA探針,可以得到所有表達出轉錄物的表達譜。基因表達晶片之後,基因表達的系列分析(SAGE)是主要的基因分析技術。 相較於一個靜態的染色體而言,細胞內的轉錄物組是一個處於不斷變化的動態過程。隨着現在的次世代基因測序(NGS)技術的發展,使得可測得的DNA鹼基覆蓋面增加且樣本輸出的吞吐量增大。有助於對細胞內RNA轉錄物進行測序,提供包括選擇性剪接的轉錄、轉錄後的修飾、基因融合、突變/SNPs以及基因表達量改變等細節[8]。,RNA測序不僅能檢測mRNA的轉錄,還能觀測到包括總RNA和小RNA(miRNA、tRNA和核糖體RNA)在內不同尺度的RNA表達譜[9]。RNA測序還能用來確定外顯子/內含子的邊界,修正之前註釋的5'和3'端基因邊界。未來的RNA測序研究還包括觀察感染時細胞傳導路徑的變化[10]和癌症中不同基因表達程度[12]。下一代基因測序之前,對轉錄物組學和基因表達的研究主要基於基因表達晶片(微陣列),後者包含數以千計用於探測靶向序列的DNA探針,可以得到所有表達出轉錄物的表達譜。基因表達晶片之後,基因表達的系列分析(SAGE)是主要的基因分析技術。
相對於RNA測序,基因表達晶片(微陣列)測序結果的覆蓋面很窄,只能覆蓋染色體中1千多萬SNP中的常見等位基因的SNP(50萬到200萬)。因此,現有數據庫中一般沒有罕見等位基因的測序結果,而只有常見的SNP的數據,這對研究者來說是一個重大缺陷。很多癌症源於突變概率小於1%的突變,因而很難被檢測出。但是,基因表達晶片(微陣列)測序在已知的等位基因檢測中仍很重要,使它們非常適合監管機構批准的診斷,如囊性纖維化。
分析[編輯]
轉錄體組裝[編輯]
有兩種方法用於將原始序列讀數分配給基因體特徵(即組裝轉錄體):
- De novo: 這種方法不需要參考基因體來重建轉錄體,通常基因體未知、不完整或與參考基因體相比有顯著不同時使用[13]。短讀長序列進行de novo組裝時的挑戰包括:(1) 確定哪些序列應連接成連續序列(重疊序列群, contigs)(2) 測序錯誤和其他人為的穩定性 (3) 計算效率。使用在de novo組裝的主要演算法是從重疊圖轉換而來,稱為de Bruijn圖,其將序列讀長切分為長度k的序列並將所有k-mer轉存成雜湊表[14]。使用de Bruijn圖做組裝的工具有 Velvet[15]、Trinity[13]、Oases[16]和 Bridger[17]。同一樣品的雙端序列和長序列讀長可作為模板或骨架來彌補短讀長序列的缺陷。評估de novo組裝品質的指標包括重疊序列群長度的中位數、重疊序列群數量和 N50[18]。
- 引導式組裝:這種方法使用與DNA比對相同的方式,比對序列至參考基因體的非連續部分則需要額外的計算複雜度[19]。這些非連續序列讀數是對剪接產物進行測序的結果(如圖)。通常比對演算法分為兩個步驟:(1) 對齊序列較短的部分 (seed) (2) 使用 動態規劃 來找到最佳比對,有時結合已知的註釋。使用基因體引導比對的工具包括 Bowtie[20]TopHat(基於Bowtie結果對齊剪接點)[21][22]、Subread[23]、STAR[19]、HISAT2[24]、Sailfish[25]、Kallisto[26]和 GMAP[27]。基因體引導式組裝的品質可以藉由以下兩者來測量:(1) de novo組裝指標(如N50)2)使用精確度、召回率或它們的組合(如F1 score)(與已知的轉錄本、剪接點、基因體和蛋白質序列比較)[18]。此外,可以使用模擬序列讀數的方式進行電腦模擬評估[28][29]。
關於組裝品質的說明:目前的共識是:1) 組裝品質會因所採用的指標而異;2) 在某個物種中表現優異的組裝工具,未必能在其他物種中同樣表現出色;以及 3) 結合不同的方法可能是最可靠的。[30][31][32]
參考文獻[編輯]
- ^ Lowe R, Shirley N, Bleackley M, Dolan S, Shafee T. Transcriptomics technologies. PLOS Computational Biology. May 2017, 13 (5). Bibcode:2017PLSCB..13E5457L. PMC 5436640 可免費查閱. PMID 28545146. doi:10.1371/journal.pcbi.1005457 可免費查閱. 已忽略未知參數
|article-number=(幫助) - ^ Ayturk U. RNA-seq in Skeletal Biology. Curr Osteoporos Rep. 2019;17(4):178-185. doi:10.1007/s11914-019-00517-x
- ^ Simoneau J, Dumontier S, Gosselin R, Scott MS. Current RNA-seq methodology reporting limits reproducibility. Brief Bioinform. 2021;22(1):140-145. doi:10.1093/bib/bbz124
- ^ Esmeray Sönmez E, Hatipoğlu T, Kurşun D, et al. Whole Transcriptome Sequencing Reveals Cancer-Related, Prognostically Significant Transcripts and Tumor-Infiltrating Immunocytes in Mantle Cell Lymphoma. Cells. 2022;11(21):3394. Published 2022 Oct 27. doi:10.3390/cells11213394
- ^ Meggendorfer M, Walter W, Haferlach T. WGS and WTS in leukaemia: A tool for diagnostics?. Best Pract Res Clin Haematol. 2020;33(3):101190. doi:10.1016/j.beha.2020.101190
- ^ 转录物组测序. 術語在線. 全國科學技術名詞審定委員會. (簡體中文)
- ^ Chu Y, Corey DR. RNA sequencing: platform selection, experimental design, and data interpretation. Nucleic Acid Ther. August 2012, 22 (4): 271–4. PMC 3426205 可免費查閱. PMID 22830413. doi:10.1089/nat.2012.0367.
- ^ 8.0 8.1 Maher CA, Kumar-Sinha C, Cao X,; et al. Transcriptome sequencing to detect gene fusions in cancer. Nature. March 2009, 458 (7234): 97–101. PMC 2725402 可免費查閱. PMID 19136943. doi:10.1038/nature07638.
- ^ 9.0 9.1 Ingolia NT, Brar GA, Rouskin S, McGeachy AM, Weissman JS. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nat Protoc. August 2012, 7 (8): 1534–50. PMC 3535016 可免費查閱. PMID 22836135. doi:10.1038/nprot.2012.086.
- ^ 10.0 10.1 Qian F, Chung L, Zheng W; et al. Identification of Genes Critical for Resistance to Infection by West Nile Virus Using RNA-Seq Analysis. Viruses. 2013, 5 (7): 1664–81. PMID 23881275. doi:10.3390/v5071664.
- ^ Beane J, Vick J, Schembri F. Characterizing the impact of smoking and lung cancer on the airway transcriptome using RNA-Seq. Cancer Prev Res (Phila). June 2011, 4 (6): 803–17. PMC 3694393 可免費查閱. PMID 21636547. doi:10.1158/1940-6207.CAPR-11-0212.
- ^ Beane J, Vick J, Schembri F. Characterizing the impact of smoking and lung cancer on the airway transcriptome using RNA-Seq. Cancer Prev Res (Phila). June 2011, 4 (6): 803–17. PMC 3694393 可免費查閱. PMID 21636547. doi:10.1158/1940-6207.CAPR-11-0212.
- ^ 13.0 13.1 Grabherr MG, Haas BJ, Yassour M, Levin JZ, Thompson DA, Amit I, Adiconis X, Fan L, Raychowdhury R, Zeng Q, Chen Z, Mauceli E, Hacohen N, Gnirke A, Rhind N, di Palma F, Birren BW, Nusbaum C, Lindblad-Toh K, Friedman N, Regev A. Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nature Biotechnology. May 2011, 29 (7): 644–52. PMC 3571712 可免費查閱. PMID 21572440. doi:10.1038/nbt.1883.
- ^ De Novo Assembly Using Illumina Reads (PDF). [22 October 2016]. (原始內容存檔 (PDF)於2020-09-24).
- ^ Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Research. May 2008, 18 (5): 821–9. PMC 2336801 可免費查閱. PMID 18349386. doi:10.1101/gr.074492.107.
- ^ Oases: a transcriptome assembler for very short reads. [2019-02-16]. (原始內容存檔於2018-11-29).
- ^ Chang Z, Li G, Liu J, Zhang Y, Ashby C, Liu D, Cramer CL, Huang X. Bridger: a new framework for de novo transcriptome assembly using RNA-seq data. Genome Biology. February 2015, 16 (1): 30. PMC 4342890 可免費查閱. PMID 25723335. doi:10.1186/s13059-015-0596-2.
- ^ 18.0 18.1 Li B, Fillmore N, Bai Y, Collins M, Thomson JA, Stewart R, Dewey CN. Evaluation of de novo transcriptome assemblies from RNA-Seq data. Genome Biology. December 2014, 15 (12): 553. PMC 4298084 可免費查閱. PMID 25608678. doi:10.1186/s13059-014-0553-5.
- ^ 19.0 19.1 Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. January 2013, 29 (1): 15–21. PMC 3530905 可免費查閱. PMID 23104886. doi:10.1093/bioinformatics/bts635.
- ^ Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 2009, 10 (3): R25. PMC 2690996 可免費查閱. PMID 19261174. doi:10.1186/gb-2009-10-3-r25.
- ^ Trapnell C, Pachter L, Salzberg SL. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. May 2009, 25 (9): 1105–11. PMC 2672628 可免費查閱. PMID 19289445. doi:10.1093/bioinformatics/btp120.
- ^ Trapnell C, Roberts A, Goff L, Pertea G, Kim D, Kelley DR, Pimentel H, Salzberg SL, Rinn JL, Pachter L. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature Protocols. March 2012, 7 (3): 562–78. PMC 3334321 可免費查閱. PMID 22383036. doi:10.1038/nprot.2012.016.
- ^ Liao Y, Smyth GK, Shi W. The Subread aligner: fast, accurate and scalable read mapping by seed-and-vote. Nucleic Acids Research. May 2013, 41 (10): e108. PMC 3664803 可免費查閱. PMID 23558742. doi:10.1093/nar/gkt214.
- ^ Kim, D; Langmead, B; Salzberg, SL. HISAT: a fast spliced aligner with low memory requirements.. Nature Methods. April 2015, 12 (4): 357–60. PMC 4655817 可免費查閱. PMID 25751142. doi:10.1038/nmeth.3317.
- ^ Patro R, Mount SM, Kingsford C. Sailfish enables alignment-free isoform quantification from RNA-seq reads using lightweight algorithms. Nature Biotechnology. May 2014, 32 (5): 462–4. PMC 4077321 可免費查閱. PMID 24752080. arXiv:1308.3700 可免費查閱. doi:10.1038/nbt.2862.
- ^ Bray NL, Pimentel H, Melsted P, Pachter L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. May 2016, 34 (5): 525–7. PMID 27043002. doi:10.1038/nbt.3519.
- ^ Wu TD, Watanabe CK. GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. May 2005, 21 (9): 1859–75. PMID 15728110. doi:10.1093/bioinformatics/bti310.
- ^ Baruzzo G, Hayer KE, Kim EJ, Di Camillo B, FitzGerald GA, Grant GR. Simulation-based comprehensive benchmarking of RNA-seq aligners. Nature Methods. February 2017, 14 (2): 135–139. PMC 5792058 可免費查閱. PMID 27941783. doi:10.1038/nmeth.4106 (English).
- ^ Engström PG, Steijger T, Sipos B, Grant GR, Kahles A, Rätsch G, et al. Systematic evaluation of spliced alignment programs for RNA-seq data. Nature Methods. December 2013, 10 (12): 1185–91. PMC 4018468 可免費查閱. PMID 24185836. doi:10.1038/nmeth.2722 (English).
- ^ Lu B, Zeng Z, Shi T. Comparative study of de novo assembly and genome-guided assembly strategies for transcriptome reconstruction based on RNA-Seq. Science China Life Sciences. February 2013, 56 (2): 143–55. PMID 23393030. doi:10.1007/s11427-013-4442-z 可免費查閱.
- ^ Bradnam KR, Fass JN, Alexandrov A, Baranay P, Bechner M, Birol I, Boisvert S, Chapman JA, Chapuis G, Chikhi R, Chitsaz H, Chou WC, Corbeil J, Del Fabbro C, Docking TR, Durbin R, Earl D, Emrich S, Fedotov P, Fonseca NA, Ganapathy G, Gibbs RA, Gnerre S, Godzaridis E, Goldstein S, Haimel M, Hall G, Haussler D, Hiatt JB, Ho IY, Howard J, Hunt M, Jackman SD, Jaffe DB, Jarvis ED, Jiang H, Kazakov S, Kersey PJ, Kitzman JO, Knight JR, Koren S, Lam TW, Lavenier D, Laviolette F, Li Y, Li Z, Liu B, Liu Y, Luo R, Maccallum I, Macmanes MD, Maillet N, Melnikov S, Naquin D, Ning Z, Otto TD, Paten B, Paulo OS, Phillippy AM, Pina-Martins F, Place M, Przybylski D, Qin X, Qu C, Ribeiro FJ, Richards S, Rokhsar DS, Ruby JG, Scalabrin S, Schatz MC, Schwartz DC, Sergushichev A, Sharpe T, Shaw TI, Shendure J, Shi Y, Simpson JT, Song H, Tsarev F, Vezzi F, Vicedomini R, Vieira BM, Wang J, Worley KC, Yin S, Yiu SM, Yuan J, Zhang G, Zhang H, Zhou S, Korf IF. Assemblathon 2: evaluating de novo methods of genome assembly in three vertebrate species. GigaScience. July 2013, 2 (1): 10. Bibcode:2013arXiv1301.5406B. PMC 3844414 可免費查閱. PMID 23870653. arXiv:1301.5406 可免費查閱. doi:10.1186/2047-217X-2-10 可免費查閱. 已忽略未知參數
|article-number=(幫助) - ^ Hölzer M, Marz M. De novo transcriptome assembly: A comprehensive cross-species comparison of short-read RNA-Seq assemblers. GigaScience. May 2019, 8 (5). PMC 6511074 可免費查閱. PMID 31077315. doi:10.1093/gigascience/giz039. 已忽略未知參數
|article-number=(幫助)
外部連結[編輯]
- (英文)RNA-Seq for Everyone (頁面存檔備份,存於互聯網檔案館): a high-level guide to designing and implementing an RNA-Seq experiment.
- (英文)ChIPBase database: 提供的蛋白質編碼基因的表現譜和長鏈非編碼RNA(lncRNAs) (lincRNAs) 從22個組織的RNA測序的數據。
- Martin A. Perdacher (September 2011) Next-Generation Sequencing and its Applications in RNA-Seq[永久失效連結]. Theory part of the Bachelorthesis, Hagenberg. (英文)