Informacja

14: Sekwencjonowanie MRNA do analizy ekspresji i odkrywania transkrypcji — biologia

14: Sekwencjonowanie MRNA do analizy ekspresji i odkrywania transkrypcji — biologia


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

14: Sekwencjonowanie MRNA do analizy ekspresji i wykrywania transkrypcji

Sekwencjonowanie mRNA

MRNA-Seq wykrywa znane i nowe transkrypty oraz mierzy ilość transkryptów w celu dokładnej, kompleksowej analizy

Wprowadzenie do sekwencjonowania mRNA

Sekwencjonowanie mRNA (mRNA-Seq) szybko stało się metodą z wyboru do analizy transkryptomów stanów chorobowych, procesów biologicznych oraz w szerokim zakresie projektów badawczych. Oprócz tego, że jest bardzo czułym i dokładnym sposobem oceny ilościowej ekspresji genów, mRNA-Seq może identyfikować zarówno znane, jak i nowe izoformy transkrypcji, fuzje genów i inne cechy, jak również ekspresję specyficzną dla allelu. mRNA-Seq dostarcza pełnego obrazu transkryptomu kodującego, który nie jest ograniczony filtrem wiedzy.

MRNA-Seq w 3 prostych krokach

Analizuj transkryptom kodujący w standardowych próbkach mRNA za pomocą tego bezproblemowego rozwiązania przepływu pracy.

Zalety sekwencjonowania mRNA

mRNA-Seq zapewnia szereg korzyści w porównaniu z macierzami ekspresji genów w analizie transkryptomu.

  • Oferuje szerszy zakres dynamiczny, umożliwiając bardziej czuły i dokładny pomiar zmian fałd w ekspresji genów
  • Przechwytuje zarówno znane, jak i nowatorskie funkcje
  • Może być stosowany w szerokiej gamie gatunków
Przejście od tablic do mRNA-Seq

Analiza ekspresji opracowała narzędzia ułatwiające porównywanie wyników mRNA-Seq z poprzednimi danymi macierzowymi.

Dokładny widok transkryptomu w wysokiej rozdzielczości

Kompresja współczynnika jest ustalonym technicznym ograniczeniem macierzy ekspresji genów, które zmniejsza zakres dynamiczny i może maskować lub zmieniać zmierzone zmiany transkrypcyjne. 1–3 W przeciwieństwie do tego, mRNA-Seq nie podlega tym błędom i zapewnia bardziej kompleksowe i dokładne pomiary zmian ekspresji genów.

Dodatkowo mRNA-Seq może dostarczać informacji o niciach, co umożliwia wykrycie ekspresji antysensownej, umożliwia dokładniejszą ocenę ilościową nakładających się transkryptów i zwiększa odsetek możliwych do przyrównania odczytów.

Autyzm i mRNA-Seq

Stanley Lapidus, prezes, dyrektor generalny i założyciel SynapDx, omawia, w jaki sposób firma wykorzystuje mRNA-Seq do badania autyzmu.

Faucibus ornare suspendisse sed nisi
Poznaj systemy NextSeq 1000 i 2000

Dzięki ponad 75 przełomowym innowacjom te systemy sekwencjonowania oferują suche oprzyrządowanie, łatwiejszą konfigurację przebiegu i szybką analizę wtórną z wbudowanym oprogramowaniem DRAGEN. Poznaj nasze najprostsze przepływy pracy i wykonuj szeroką gamę nowych i średniowydajnych aplikacji sekwencjonowania.

Zalecany przebieg pracy mRNA-Seq dla próbek standardowych

Przygotowanie biblioteki
Przygotowanie nici mRNA Illumina

Proste, skalowalne, ekonomiczne i szybkie jednodniowe rozwiązanie do analizy kodującego transkryptomu wykorzystujące zaledwie 25 ng wejściowego standardowego (niezdegradowanego) RNA.

Sekwencjonowanie
Systemy NextSeq 1000 i 2000

Te ekonomiczne, przyjazne dla użytkownika, średniowydajne sekwencery laboratoryjne obsługują mRNA-Seq oraz szeroką gamę innych obecnych i powstających aplikacji.

Analiza danych
Rurociąg DRAGE RNA

Wykonuje wyrównanie, kwantyfikację i wykrywanie fuzji.

Ekspresja różnicowa RNA-Seq

Umożliwia analizę różnicowej ekspresji genów.

Polecane artykuły o sekwencjonowaniu mRNA

Mapowanie różnorodności neuronowej

Naukowcy z Allen Institute wykorzystują mRNA-Seq do analizy ekspresji genów w poszczególnych neuronach i klasyfikacji komórek nerwowych V1.

Analiza pojedynczych komórek w biologii rozwoju

Dr Colin Trapnell omawia doświadczenia swojego laboratorium z jednokomórkowym mRNA-Seq i jego wysiłki, aby narzędzia bioinformatyczne były dostępne dla wszystkich.

Rozważania dotyczące sekwencjonowania RNA

Dowiedz się więcej o wymaganiach dotyczących długości i głębokości odczytu dla RNA-Seq i znajdź zasoby, które pomogą w projektowaniu eksperymentów.

Przygotowanie biblioteki sekwencjonowania mRNA

Określ ilościowo ekspresję genów, zidentyfikuj znane i nowe izoformy w transkryptomie kodującym, wykryj fuzje genów i zmierz ekspresję specyficzną dla alleli za pomocą naszych ulepszonych roztworów do przygotowywania bibliotek RNA-Seq.

Kompleksowy przepływ pracy mRNA-Seq

Sekwencjonowanie Illumina przez syntezę (SBS) jest najszerzej stosowaną technologią NGS, wytwarzającą około 90% globalnych danych sekwencjonowania.*

Oprócz wiodącej w branży jakości danych, Illumina oferuje zintegrowane przepływy pracy mRNA-Seq, które upraszczają cały proces, od przygotowania biblioteki po analizę danych i interpretację biologiczną.

Przygotowanie nici mRNA Illumina

Proste, skalowalne, ekonomiczne i szybkie jednodniowe rozwiązanie do analizy kodującego transkryptomu wykorzystujące zaledwie 25 ng wejściowego standardowego (niezdegradowanego) RNA.

Przygotowanie Illumina RNA ze wzbogaceniem

Uzyskaj szybkie, ukierunkowane badanie ogromnej liczby genów docelowych z wyjątkową wydajnością wychwytywania i jednorodnością pokrycia.

Znajdź odpowiedni zestaw przygotowawczy do biblioteki

Użyj tego narzędzia, aby określić najlepszy zestaw do swoich potrzeb.

System MiSeq

Szybkość i prostota dla ukierunkowanych zastosowań, sekwencjonowanie 1 próbki mRNA na przebieg.

System NextSeq 550

Elastyczny sekwencer stacjonarny obsługujący wiele aplikacji, umożliwiający sekwencjonowanie 5–16 próbek mRNA w jednym przebiegu.

Systemy NextSeq 1000 i 2000

Te ekonomiczne, przyjazne dla użytkownika sekwencery laboratoryjne o średniej przepustowości oferują wyjątkową elastyczność w obsłudze nowych i powstających aplikacji.

System NovaSeq 6000

Skalowalna przepustowość i elastyczność dla praktycznie każdego genomu, metody sekwencjonowania i skali projektu.

Narzędzie do porównywania platform

Porównaj platformy sekwencjonowania i zidentyfikuj najlepszy system dla swojego laboratorium i aplikacji.

Odczynniki do sekwencjonowania

Znajdź zestawy zawierające odczynniki do sekwencjonowania, kuwety przepływowe i/lub bufory dostosowane do każdego systemu sekwencjonowania Illumina.

Rurociąg DRAGE RNA

Wykonuje wyrównanie, kwantyfikację i wykrywanie fuzji.

Ekspresja różnicowa RNA-Seq

Umożliwia analizę różnicowej ekspresji genów.

Aplikacja RNA-Seq Alignment

Wyrównuje odczyty RNA-Seq. Określa ilościowo ekspresję genów, wywołuje małe warianty i fuzje genów oraz zapewnia dane wejściowe dla aplikacji do ekspresji różnicowej.

Platforma Bio-IT Illumina DRAGEN

Platforma Bio-IT Illumina DRAGEN (Dynamic Read Analysis for GENomics) zapewnia ultraszybką analizę wtórną danych NGS. Dostępne są różne aplikacje, w tym jedna zaprojektowana do badania fuzji genów.

Genomatix Pathway System (GePS)

Łączy pojedynczy gen lub listę genów z danymi adnotacji dotyczącymi ścieżek, chorób, tkanek i małych cząsteczek.

Przewodnik po iPathway

Różnicowa ekspresja genów, interakcja leków i analiza choroby.

Koncentrator sekwencji BaseSpace

Genomiczne środowisko obliczeniowe Illumina do analizy i zarządzania danymi NGS.

Silnik korelacji BaseSpace

Rozwijająca się biblioteka wyselekcjonowanych danych genomicznych wspierająca naukowców w identyfikowaniu mechanizmów chorobowych, celów leków i biomarkerów.

Powiązane rozwiązania

RNA-Seq w badaniach nad rakiem

Monitorowanie zmian ekspresji genów za pomocą mRNA-Seq może pomóc naukowcom w identyfikacji biomarkerów pozwalających na prognozowanie choroby lub odpowiedź na terapię. Dowiedz się więcej o nowotworach RNA-Seq.

Analiza ekspresji genów w badaniach nad chorobami

Badania profilowania ekspresji genów oparte na RNA-Seq mogą zapewnić wgląd w to, w jaki sposób czynniki genetyczne i środowiskowe przyczyniają się do wielu różnych chorób. Dowiedz się więcej o profilowaniu ekspresji genów.

Odkrycie biomarkera odpowiedzi na lek RNA

Dowiedz się, jak wykorzystać RNA-Seq do identyfikacji nowych biomarkerów odpowiedzi na leki na podstawie RNA. Uzyskaj dostęp do zasobów zaprojektowanych, aby pomóc nowym użytkownikom w adaptacji tej aplikacji. Dowiedz się więcej o analizie biomarkerów RNA odpowiedzi na leki.

Chcesz otrzymywać biuletyny, studia przypadków i informacje o metodach sekwencjonowania?

Dodatkowe zasoby

Przewodnik po metodach

Wszystkie potrzebne informacje, od BeadChips, przez przygotowanie biblioteki, po selekcję i analizę sekwencera. Skorzystaj z tego przewodnika, aby wybrać najlepsze narzędzia do swojego laboratorium.

Jednokomórkowy mRNA-Seq

Dr Norma Neff omawia, w jaki sposób naukowcy z Uniwersytetu Stanforda wykorzystują jednokomórkowy mRNA-Seq do zrozumienia wczesnego rozwoju.

Analiza danych sekwencyjnych RNA

Przyjazne dla użytkownika narzędzia programowe upraszczają analizę danych RNA-Seq dla biologów, niezależnie od doświadczenia bioinformatycznego.

RNA-Seq do badań ekspresji genów

Illumina oferuje zintegrowany przepływ pracy mRNA-Seq dla głębszego zrozumienia biologii.

RNA-Seq próbek niskiej jakości i FFPE

RNA-Seq utrwalonych w formalinie, zatopionych w parafinie (FFPE) i innych próbek niskiej jakości zapewnia cenny wgląd w badania nad chorobami.

Sparowany koniec RNA-Seq

Wszystkie systemy sekwencjonowania Illumina są zdolne do sekwencjonowania parzystymi końcami, co ułatwia wykrywanie nowych transkryptów RNA, fuzji genów i nie tylko.

Bibliografia
  1. Shi L, Tong W, Su Z, et al. Krzywe kalibracji skanera mikromacierzy: charakterystyka i implikacje.Bioinformatyka BMC. 20056 Dodatek 2:S11.
  2. Naef F, Socci ND, Magnasco M. Badanie dokładności i precyzji w macierzach oligonukleotydowych: ekstrakcja większej ilości sygnału przy dużych stężeniach.Bioinformatyka. 200319:178-184.
  3. Yuen T, Wurmbach E, Pfeffer RL, Ebersole BJ, Sealfon SC. Dokładność i kalibracja komercyjnych mikromacierzy oligonukleotydowych i niestandardowych cDNA.Kwasy nukleinowe Res. 200230:e48.

*Obliczenia danych w pliku. Illumina, Inc., 2015

Tylko do celów badawczych

Nie stosować w procedurach diagnostycznych, z wyjątkiem przypadków wyraźnie zaznaczonych.

Innowacyjne technologie

Naszym celem w firmie Illumina jest zastosowanie innowacyjnych technologii do analizy zmienności i funkcji genetycznych, co umożliwi prowadzenie badań, których jeszcze kilka lat temu nie można było sobie wyobrazić. Dostarczanie innowacyjnych, elastycznych i skalowalnych rozwiązań spełniających potrzeby naszych klientów ma dla nas kluczowe znaczenie. Jako globalna firma, która przywiązuje dużą wagę do interakcji opartych na współpracy, szybkiego dostarczania rozwiązań i zapewniania najwyższego poziomu jakości, staramy się sprostać temu wyzwaniu. Innowacyjne technologie sekwencjonowania i macierzy firmy Illumina napędzają przełomowe postępy w badaniach nauk przyrodniczych, genomice translacyjnej i konsumenckiej oraz diagnostyce molekularnej.


Wysokowydajna analiza różnicowej ekspresji genów

Wyjaśnienie zmian w ekspresji genów związanych z procesami biologicznymi jest głównym problemem biologii. Postępy w biologii molekularnej i obliczeniowej doprowadziły do ​​opracowania potężnych, wysokowydajnych metod analizy różnicowej ekspresji genów. Narzędzia te otworzyły nowe możliwości w różnych dyscyplinach, od biologii komórkowej i rozwojowej po opracowywanie leków i farmakogenomikę. W tym przeglądzie omówiono cechy pięciu powszechnie stosowanych metod różnicowej ekspresji genów: sekwencjonowanie ze znacznikami ekspresji ekspresji (EST), hybrydyzacja na mikromacierzach cDNA, klonowanie subtraktywne, prezentacja różnicowa i analiza seryjna ekspresji genów (SAGE). Zastosowanie sekwencjonowania EST i hybrydyzacji mikromacierzy ilustruje odkrycie nowych genów związanych z różnicowaniem osteoblastów. Przedstawiono zastosowanie klonowania subtraktywnego jako narzędzia do identyfikacji genów regulowanych in vivo przez czynnik transkrypcyjny pax-6. Te i inne przykłady ilustrują moc genomiki w odkrywaniu nowych genów, które są ważne w biologii i które stanowią również nowe cele dla rozwoju leków. Głównym tematem przeglądu jest to, że każde z podejść do identyfikacji genów o zróżnicowanej ekspresji jest użyteczne, a kontekst eksperymentalny i późniejsza ocena genów o zróżnicowanej ekspresji są krytycznymi cechami decydującymi o sukcesie.


Wyniki i dyskusja

Zestawy danych sekwencja RNA

Do analizy zgodności wykorzystano sześć publicznie dostępnych wzorcowych zestawów danych RNA-seq. Trzy z nich zostały wykorzystane jako źródłowe zbiory danych do generowania nieparametrycznych danych symulacyjnych. Opis zbiorów danych można znaleźć w sekcji „Metody”, a podsumowanie przedstawiono w Tabeli 2.

Stopień jednorodności między próbkami, mierzony współczynnikiem korelacji Pearsona, był najniższy dla zbioru danych Zhang, a następnie GTEx (patrz także szacunkowe biologiczne współczynniki zmienności w pliku dodatkowym 1: Rysunek S2). Zgodnie z oczekiwaniami, inne zestawy danych miały replikacje, które są bardziej jednorodne, ponieważ zostały uzyskane z wsobnych zwierząt lub hodowanych linii komórkowych, w przeciwieństwie do zestawów danych GTEx lub Zhang zawierających tkanki dla różnych osób. W przypadku zestawów danych Zhang i NGP nutlin, lncRNA wykazywały stosunkowo większą niejednorodność w próbkach niż mRNA. Ponadto lncRNA wykazywały średnio niższą ekspresję niż mRNA (dodatkowy plik 1: Rysunek S3).

Porównanie metod normalizacji

Porównanie narzędzi DE wymaga starannego zwrócenia uwagi na metody normalizacji. Wcześniejsze badania [13, 16, 20, 21] wskazywały, że procedura normalizacji może wpływać na wyniki DE. Celem naszego badania nie jest kompleksowe porównanie wszystkich metod normalizacji. Zamiast tego porównaliśmy pięć metod normalizacji, które są używane w połączeniu z metodami DE ocenianymi w tym badaniu. Pozwoli nam to lepiej zrozumieć ogólne zachowanie narzędzi DE, oceniane w kolejnych sekcjach. Metody normalizacji porównano przy użyciu metryk z Dillies et al. [20], takich jak ich zdolność do zmniejszania zmienności technicznej i eliminowania błędu systematycznego wynikającego z różnic w wielkości bibliotek oraz ich wpływ na analizę DGE.

Wykresy skrzynkowe względnych wyrażeń logarytmicznych pokazują, że dla wszystkich sześciu zestawów danych wszystkie metody normalizacji skutecznie dopasowują rozkłady specyficzne dla próbki, a zatem po normalizacji nie było zauważalnych efektów rozmiaru biblioteki (dodatkowy plik 2: Rozdział 2.2). Co więcej, specyficzny dla genów współczynnik zmienności (CV), który jest wskaźnikiem zmienności wewnątrzgrupowej, był niższy dla wszystkich zestawów danych po normalizacji (ryc. 2b i plik dodatkowy 2: sekcja 2.3). Zaobserwowano prawie równe poziomy zmienności biologicznej w różnych metodach, nawet przy normalizacji kwantylowej, która w innych badaniach wykazała wysoki współczynnik CV [20, 22]. Nakładanie się genów DE z różnymi metodami normalizacji było wysokie (ryc. 2a i plik dodatkowy 2: sekcja 2.4). Ignorując normalizację kwantylową (QN), zaobserwowano średnio (w sześciu zestawach danych) minimum 86% podobieństwa. Analiza DE oparta na QN daje odbiegające wyniki, szczególnie w przypadku projektów z małą liczbą powtórzeń (< 5) średni minimalny odsetek podobieństwa wynosił 70,1% (średnie minima są obliczane dla zbiorów danych). Ogólnie wyniki sugerują, że wszystkie metody normalizacji działają prawie tak samo, z wyjątkiem QN. Niemniej jednak do analizy zgodności narzędzi DE (patrz następna sekcja) uwzględniliśmy potok limma, który wykorzystuje QN (o nazwie limmaQN) do dalszego zbadania jego wpływu na inne metryki wydajności narzędzi DE.

Wpływ metod normalizacji na analizę DGE. a Diagram UpSet pokazuje wielkość przecięcia między analizami DGE (przy 5% FDR), z których każda wykorzystuje inne metody normalizacji, ale ten sam test statystyczny (moderowany T-test z pakietu Limma). Wynik ten dotyczy szczególnie danych CRC AZA. Wszystkie rozważane metody normalizacji generalnie wykazują silną zgodność z wyjątkiem normalizacji kwantylowej (QN). Analiza DGE przy użyciu wszystkich powszechnie zidentyfikowanych metod normalizacji 2820 istotnie różnie wyrażanych (SDE), podczas gdy QN dało 629 genów SDE, które nie są wspólne z innymi metodami normalizacji. b Rozkład genowych współczynników zmienności (CV) z danych Bottomly. Każdy wykres skrzypiec wskazuje kwartyle rozkładu (ciągłe linie poziome). Wyniki oparte na wszystkich sześciu zestawach danych można znaleźć w Dodatkowym pliku 2

Analiza zgodności

Dwadzieścia pięć potoków DE uruchomiono na sześciu zestawach danych RNA-seq i zbadano (nie)podobieństwa między wynikami. Analiza zgodności skupiła się na pięciu miernikach ilościowych i jednej jakościowej: (1) liczbie genów zidentyfikowanych jako istotnie różnie wyrażane (SDE) (2) podobieństwie pod względem zestawu genów SDE (3) stopniu zgodności w rankingu genów (4 ) podobieństwo szacunków krotności zmiany (5) postępowanie z genami o specjalnych właściwościach (lncRNA, geny o małej liczbie, geny z wartościami odstającymi) oraz (6) czas obliczeń. Wyniki dla poszczególnych zbiorów danych przedstawiono w pliku dodatkowym 3.

Wyniki pokazują, że potoki wykazują znaczną zmienność liczby genów SDE. Marginalne podsumowanie we wszystkich zestawach danych wskazuje, że DESeq, NOISeq, baySeq i limmaQN wykryły najmniejszą liczbę genów SDE, podczas gdy QuasiSeq i SAMSeq zwróciły największą liczbę (ryc. 3). Zmienność między potokami DE pod względem liczby genów SDE wydaje się być związana ze zmiennością biologiczną zbioru danych. W przypadku zestawów danych Zhang i GTEx RNA-seq, charakteryzujących się największą wewnątrzgrupową zmiennością biologiczną, liczba genów SDE była zupełnie inna w potokach DE. W przeciwieństwie do tego, liczby genów SDE z zestawów danych NGP nutlin i CRC AZA, wszystkie wykazujące niską zmienność biologiczną, były stosunkowo podobne wśród potoków. lncRNA i ogólnie geny o niskiej liczebności były niedostatecznie reprezentowane wśród genów SDE (dodatkowy plik 3). Na przykład 25% genów SDE było lncRNA, podczas gdy dane zawierają 40% lncRNA.

Podsumowanie wyników analizy zgodności. Hierarchiczne grupowanie 25 potoków DE na podstawie standardowych wyników czterech metryk zgodności (a frakcja genów o istotnie zróżnicowanej ekspresji (SDE) wykrytych przy 5% FDR, b nakładanie się potoków w wykrywaniu genów SDE przy 5% FDR, C porozumienie w sprawie rankingu genów i D podobieństwo oszacowań log krotności zmiany (LFC)). Wyniki są uśredniane w sześciu zestawach danych. Po pierwsze, obserwowane wartości (niech taki, ja = 1,2. 25) metryki zgodności (proporcje i korelacje) dla każdego potoku z danego zbioru danych są konwertowane na standardowe wyniki (zi = (takiȳ)/stak, gdzie ȳ oraz stak są średnią i odchyleniem standardowym taki, odpowiednio). Następnie przedstawiana jest średnia standardowych wyników każdego potoku w zestawach danych. Na przykład wartość ujemna dla frakcji genów SDE wskazuje, że liczba genów SDE wykrytych przez potok jest niższa niż średnia we wszystkich 25 potokach. Następnie obliczana jest odległość euklidesowa wśród marginalnych standaryzowanych wyników czterech metryk porównawczych i stosowana jest metoda pełnego sprzężenia grupowania aglomeracyjnego, w wyniku czego powstają cztery skupienia. Wykresy słupkowe po prawej stronie skupienia pokazują indywidualne wyniki krańcowe każdego narzędzia DE dla czterech miar zgodności. Ponieważ oszacowanie krotności zmiany z SAMSeq jest w kategoriach sumy rang, zostało wyłączone z porównania szacunków LFC

Wiele rurociągów DE wykazało zgodność pod względem zestawu genów SDE (ryc. 3). NOISeq, limmaQN, DESeq, baySeq i SAMSeq wykazały średnio najmniejszą zgodność ze wszystkimi innymi testowanymi rurociągami. Zaobserwowano również, że nakładanie się SDE jest mniejsze dla lncRNA niż dla mRNA (dodatkowy plik 1: rysunek S4). W zestawie danych Zhang istnieje mniej niż 70 i 60% nakładania się SDE we wszystkich narzędziach DE odpowiednio dla mRNA i lncRNA.

Dokładny ranking genów jest niezbędnym etapem dalszej analizy, takiej jak analiza wzbogacenia zestawu genów (GSEA) [23]. Stopień zgodności wśród rankingu genów 25 rurociągów DE jest badany za pomocą rangi π wyniki uwzględniające zarówno istotność, jak i wielkość ekspresji różnicowej [24]. Podsumowane wyniki dla zestawów danych (ryc. 3) wskazują, że wszystkie potoki zdecydowanie się zgadzają, z wyjątkiem baySeq, NOISeq, SAMSeq i limmaQN. Z wyjątkiem baySeq jest to nieco sprzeczne z wynikami badań Soneson i Delorenzi [14]. Może to wynikać z różnicy w punktacji używanej do klasyfikowania genów, ponieważ tylko P wartości zostały użyte do uszeregowania genów w Soneson i Delorenzi [14]. Z wyjątkiem limmaQN, zgodność rankingu genów we wszystkich rurociągach była prawie taka sama dla lncRNA i mRNA z analizy danych z nutlin NGP. Nieco niższą zgodność dla lncRNA zaobserwowano, gdy zastosowano najbardziej zmienny zestaw danych (Zhang) (dodatkowy plik 1: Rysunek S4).

Co więcej, oszacowania logarytmicznej zmiany (LFC) ze wszystkich narzędzi DE były silnie skorelowane, z minimum 0,8 współczynnika korelacji Pearsona (średnio) dla rurociągów limmaVst, limmaQN i limmaTrended (ryc. 3 i plik dodatkowy 3). Jednak korelacje stają się stosunkowo silniejsze dla zestawów danych o większej liczbie próbek na grupę. Ponadto korelacje dla lncRNA były niższe niż dla mRNA (dodatkowy plik 1: rysunek S4 i dodatkowy plik 3: rozdziały 5.4 i 6.4).

Ponadto zbadaliśmy jakościowo postępowanie z genami o wartości odstającej (dodatkowy plik 1: sekcja 3.1). Wybrano zestaw genów z wartością odstającą tylko w jednej z próbek (z danych Zhanga) (dodatkowy plik 1: Rysunek S5). Dostosowany P wartości dla tych odstających genów pokazują, że edgeR dokładny, edgeR GLM, edgeR QL, PoissonSeq, QuasiSeq (oba ustawienia) i baySeq deklarowały większość z nich przy 5% nominalnym FDR (dodatkowy plik 1: Tabela S2), co sugeruje, że mogą być wpływ odstających ekspresji.

Aby dojść do ogólnego wniosku, wyniki połączono w hierarchicznej analizie skupień rurociągów DE, co dało 4 klastry (rys. 3). DESeq, baySeq, limmaQN i NOISeq skupiają się razem, ogólnie wykazując najmniejszą liczbę genów SDE, mniejsze nakładanie się i niższą zgodność w rankingu genów ze wszystkimi innymi potokami DE. Drugi klaster obejmuje edgeR dokładny, edgeR GLM, edgeR QL, DESeq2 (oba ustawienia) i limmaVoom (odporny i nieodporny), wykazując najwyższą zgodność w odniesieniu do wywołania SDE, rankingu genów i oszacowań LFC. Potoki w tym klastrze zazwyczaj identyfikują więcej genów SDE niż metody w pierwszym klastrze. LimmaTrended (odporny i nieodporny) i limmaVst pojawiają się w oddzielnym klastrze ze względu na ich stosunkowo słabo skorelowane szacunki LFC z innymi potokami, ale te potoki bardzo przypominają drugi klaster w odniesieniu do innych metryk zgodności. Ostatni klaster obejmuje QuasiSeq (oba ustawienia), edgeR robust (z obydwoma przetestowanymi wcześniejszymi stopniami swobody), limmaVoom+QW, PoissonSeq i SAMSeq. Wykrywają większość genów SDE i wykazują niewielki odsetek nakładania się, zgodności w rankingu genów i podobieństwa LFC.

Co więcej, w odniesieniu do identyfikacji genów DE wśród genów wykrytych tylko w jednej grupie próbek, DESeq, baySeq i PoissonSeq nie są w stanie oszacować znaczącej zmiany krotności. Z drugiej strony, dokładny test edgeR, DESeq i SAMSeq zwracają nie P wartość dla takich genów o niskim stosunku sygnału do szumu (STN) (dodatkowy plik 1: sekcja 3.2). STN definiuje się jako stosunek średniej do odchylenia standardowego znormalizowanych zliczeń w grupie z wykrytą ekspresją genów [13]. Ogólnie rzecz biorąc, i nie niespodziewanie, wszystkie rurociągi przypisują znaczące P wartości dla takich genów o wysokim stosunku STN (dodatkowy plik 1: Rysunek S6). Sugeruje to, że badacze muszą być ostrożni podczas interpretacji wyników DE, szczególnie gdy liczba odczytów 0 w jednej z grup jest prawdopodobnie spowodowana artefaktami technicznymi. Co więcej, dla lncRNA (również dla mRNA o niskiej liczebności), stosunek STN jest zazwyczaj niski, a zatem wszystkie potoki DE nie wykrywają prawdziwego DE wśród takich genów. Jednak z relacji między STN a skorygowanym P wartości, można dowiedzieć się, że narzędzia limma i QuasiSeq (oraz w mniejszym stopniu edgeR robust i DESeq2) wykrywają takie geny jak SDE nawet przy niskim STN (dodatkowy plik 1: Rysunek S6).

Wyniki uzyskane z trzema ustawieniami DESeq2 nie różniły się znacząco, poza tym, że niezależne filtrowanie wykluczyło więcej lncRNA (29% z danych Zhang) niż mRNA (dodatkowy plik 1: Rysunek S7). Spośród siedmiu rurociągów limma, voom i trended (z solidnym oszacowaniem wcześniejszych stopni swobody i bez niego) wykazały stosunkowo lepszą zgodność. Ponadto voom z wagą jakości próbki (limmaVoom+QW) ma tendencję do identyfikowania większej liczby genów SDE. Podobnie potoki edgeR osiągnęły podobną zgodność, z wyjątkiem tego, że edgeR robust wykrywa nieco więcej genów SDE niż średnia. Chociaż trzy potoki QuasiSeq skupiają się razem, metoda quasi-prawdopodobieństwa (QL) z niezależnym oszacowaniem dyspersji QL pod względem genów wykazała gorszą zgodność pod względem zestawu genów SDE.

Czas obliczeń do wykonania analizy DGE przedstawiony w pliku dodatkowym 1: Rysunek S8 pokazuje, że baySeq i DESeq wymagają najdłuższego czasu, podczas gdy narzędzia limma i PoissonSeq działają szybko. W przypadku danych RNA-seq z dziesięcioma powtórzeniami na grupę i 19150 mRNA najwolniejsze narzędzia, baySeq i DESeq, były odpowiednio około 8000 i 2000 razy wolniejsze niż najszybszy potok, limmaQN.

Odzyskiwanie prawdy biologicznej

Oprócz analizy zgodności oceniliśmy również zdolność narzędzi DE do odzyskiwania genów ze znanymi biologicznymi dowodami DE w zestawach danych porównawczych. W tym celu do zdefiniowania prawdy wykorzystano wyniki trzech opublikowanych badań: geny z ekspresją płciową [25], geny regulowane przez MYCN [26] oraz geny szlaku TP53 [27] (opis patrz „Metody”). Zdolność do odzyskania prawdy jest oceniana za pomocą czterech wskaźników: liczba odzyskanych genów, podobieństwo między potokami DE pod względem zestawu odzyskanych genów, zgodność klasyfikacji genów z prawdą oraz GSEA. Szczegółowe wyniki znajdują się w Dodatkowym pliku 4.

Pomimo wyzwania, jakim jest zdefiniowanie prawdy biologicznej, kilka rurociągów wykazuje stosunkowo dobre wyniki w odzyskiwaniu znanej prawdy, zdecydowanie biorąc pod uwagę, że warunki eksperymentalne nie są identyczne w badaniach porównawczych i badaniach prawdy. Jednak pod względem liczby odzyskanych genów i stopnia wzajemnego podobieństwa rurociągi wykazują znaczne zróżnicowanie. Zgodnie z analizą zgodności, konserwatywne narzędzia (DESeq, baySeq i NOISeq) odzyskały stosunkowo mniejszą liczbę genów o niskim podobieństwie do innych narzędzi (dodatkowy plik 4: Rysunek S8). W przeciwieństwie do tego narzędzia, takie jak SAMSeq i PoissonSeq, które zostały sklasyfikowane jako liberalne (najwyższa liczba genów SDE) zgodnie z analizą zgodności, obecnie zajmują ogólnie niską pozycję pod względem odzyskiwania prawdy biologicznej w trzech badaniach kontrolnych i wykazują najmniejszą zgodność z innymi potokami. W czterech metrykach oceniających prawdę biologiczną DESeq2 (oba ustawienia), edgeR (wytrzymałość) i limma (voom+QW, voom i trend) przewyższały wszystkie inne narzędzia, podczas gdy PoissonSeq, SAMSeq, NOISeq, DESeq i QuasiSeq (oba ustawienia) ) wykazał gorszą zdolność.

Wyniki symulacji

Do realistycznej symulacji danych dotyczących ekspresji RNA-seq zastosowano nieparametryczną procedurę SimSeq [28]. Technika symulacji obejmuje podpróbkowanie powtórzeń z rzeczywistego zestawu danych sekwencji RNA z wystarczająco dużą liczbą powtórzeń. W ten sposób zachowywane są podstawowe cechy źródłowego zbioru danych, w tym rozkłady liczby i zmienność. Reprezentatywność symulowanych danych badano za pomocą różnych metryk jakości, w tym zaproponowanych przez Sonesona i Robinsona [29] (patrz rozdział „Metody”). Przeprowadzono trzy serie symulacji, z których każda rozpoczynała się od innego zestawu danych źródłowych sekwencji RNA: danych Zhang, NGP nutlin i GTEx. Stopień jednorodności między powtórzeniami w tych zestawach danych jest różny, odzwierciedlając różne poziomy zmienności biologicznej wewnątrz grupy (Tabela 2 i plik dodatkowy 1: Rysunek S2). Zestawy danych Zhang i NGP nutlin zawierają opatrzone adnotacjami lncRNA wraz z mRNA, podczas gdy zestaw danych GTEx RNA-seq zawiera tylko opatrzone adnotacjami geny mRNA. Dlatego symulowane zliczenia dla mRNA i lncRNA są pobierane odpowiednio z zliczeń mRNA i lncRNA ze źródłowego zestawu danych.

Ekspresja genów była symulowana w szerokim zakresie scenariuszy, które mogą wpływać na wydajność narzędzi DE: różna liczba powtórzeń od 2 do 40, różne proporcje prawdziwych genów DE (0 do 30%), dwa biotypy genów (mRNA i lncRNA) , a także różne poziomy zmienności biologicznej wewnątrz grupy (zgodnie z trzema źródłowymi zbiorami danych). Na podstawie wyników symulacji obliczono rzeczywisty FDR, współczynnik prawdziwie dodatnich (TPR) i współczynnik fałszywych dodatnich (FPR) dla każdego potoku DE. Porównanie między dwoma biotypami genów przeprowadzono na dwa sposoby: symulując tylko dane lncRNA lub symulując łącznie lncRNA i mRNA, ale analizując osobno.

Wskaźnik fałszywych odkryć i wskaźnik prawdziwie pozytywnych

FDR odnosi się do średniego odsetka nieprawidłowych odkryć wśród genów SDE (geny zidentyfikowane jako DE przy określonym nominalnym progu FDR). Dobre narzędzie DE ma rzeczywisty FDR zbliżony do poziomu nominalnego i ma wysoki TPR. TPR, znany również jako czułość, to średni odsetek genów SDE wśród prawdziwych genów DE. TPR powinien być wystarczająco duży, w przeciwnym razie nie można oczekiwać znalezienia wielu prawdziwych genów DE. Dlatego zwyczajowo poszukuje się potoku DE, który ma najwyższy TPR spośród tych, które kontrolują FDR (tj. rzeczywisty FDR jest bliski nominalnemu FDR). Krzywa FDR versus TPR służy do porównania wydajności rurociągów DE przy różnych nominalnych progach FDR (w zakresie od 0 do 100%).

Wyniki pierwszej symulacji (zaczynając od danych Zhang) ogólnie wskazują, że FDR nie jest dobrze kontrolowany przez wiele rurociągów DE (rys. 4). Wśród rurociągów, które stosunkowo dobrze kontrolują FDR, wiele ma mały TPR. Oprócz biotypu genu (mRNA versus lncRNA), wydajność jest skorelowana z poziomem zmienności wewnątrzgrupowej, liczbą powtórzonych próbek i frakcją genów DE. Wiele narzędzi DE pokazuje poważną inflację FDR i nieco niższy TPR, gdy tylko niewielka część genów to DE (dodatkowy plik 1: Rysunki S9 i S10). Faktyczny FDR może nawet przekroczyć 50%, co oznacza, że ​​ponad połowa genów zwanych SDE może być fałszywymi odkryciami. W przypadku większości narzędzi DE, lepszą kontrolę FDR i wyższą czułość osiągnięto wraz ze wzrostem liczby powtórzeń (ryc. 4 i plik dodatkowy 1: ryc. S11 i S12). Wydajność wszystkich rurociągów DE jest znacznie gorsza dla lncRNA niż dla mRNA (ryc. 4 i 5). Jednak bardzo podobne wyniki (słaba wydajność pod względem kontroli FDR i TPR) uzyskano dla mRNA o niskiej liczebności w oparciu o symulację rozpoczynającą się od danych GTEx (dodatkowy plik 1: Rysunek S13).

Wskaźnik fałszywych odkryć i prawdziwie pozytywny wskaźnik narzędzi DE przy użyciu symulowanych danych z zestawu danych Zhang RNA-seq. Rzeczywisty FDR i TPR (przy różnych nominalnych FDR) ośmiu narzędzi DE ze wspólnej symulacji i analizy DGE mRNA i lncRNA. Te konkretne wyniki pochodzą z symulacji z 25% prawdziwymi genami DE wśród 10 000 genów (stanowiących około 30% lncRNA i 70% mRNA) dla projektów o n = 20 i 40 powtórzeniach na grupę. Krzywe przedstawiają kompromis między średnim TPR a średnim rzeczywistym FDR przy różnych nominalnych FDR (w zakresie od 0 do 100%). Punkty na krzywej wskazują rzeczywiste wartości FDR i TPR przy 5% nominalnym progu FDR. Chociaż ujemne modele dwumianowe (edgeR, DESeq2 i QuasiSeq) wykazały wyższą czułość, na ogół mają tendencję do utraty kontroli FDR w przypadku symulowanych danych o mniejszej liczbie powtórzeń. W przeciwieństwie do tego narzędzia DESeq, NOISeq i PoissonSeq wykazały lepszą zdolność kontrolowania FDR, z rzeczywistym FDR poniżej poziomu progowego (5%), ale narzędzia te mają niższą czułość niż wszystkie inne narzędzia DE. W przypadku symulowanych danych z co najmniej dziesięcioma powtórzeniami na grupę, narzędzia SAMSeq i limma konsekwentnie wykazywały lepszą kontrolę FDR i porównywalne modele TPR z ujemnymi modelami dwumianowymi (więcej wyników można znaleźć w dodatkowym pliku 1). Rurociągi DE generalnie wykazywały wydajność poniżej standardów (wysoki FDR i niski TPR) dla lncRNA niż dla mRNA

False discovery rate and true positive rate of DE tools using simulated data from the NGP nutlin datasets. The actual FDR and TPR (at various nominal FDR) of eight DE tools from joint simulation and DGE analysis of mRNA and lncRNA. These particular results are from simulations with 25% true DE genes among 10,000 genes (constituting approximately 35% lncRNAs and 65% mRNAs) for designs with replicates per group. The curves represent the trade-off between the actual FDR and TPR at different nominal FDR (ranging from 0 to 100%). The points on the curve indicate the actual FDR and TPR values at 5% nominal FDR threshold. In general, DE tools’ performance for gene expression data simulated from the NGP nutlin dataset is better (low FDR and high TPR) than the performance observed from the Zhang based simulation, which can be explained by the difference in the intra-group biological variability. In line with the first simulation, DE tools’ performance appeared to be relatively lower for lncRNAs than for mRNAs

For the simulation that started from the (homogeneous) NGP nutlin data, the results were better (Fig. 5), with good FDR control and high TPR for all DE tools, even for small numbers of replicates. Only for simulations with 5% of true DE genes was the FDR control lost (Additional file 1: Figure S10). The difference in performance between the Zhang and NGP nutlin simulations can be explained by their intra-group variability (Table 2 and Additional file 1: Figure S2): the NGP nutlin data come from cell line replicates that are characterized by low biological variability. For the simulations starting from the GTEx dataset, which has intermediate biological variability, the performance of the DE tools is somewhere in between those for the Zhang and NGP nutlin datasets (Additional file 1: Figure S14).

Because of the trade-off between FDR and TPR, a high TPR is expected for DE tools with a high actual FDR. This was observed for edgeR, DESeq2, and QuasiSeq pipelines, particularly for small numbers of replicates (Fig. 4). limma and SAMSeq showed better FDR control, while retaining a high TPR. Their better performance is true for both biotypes with at least ten and four samples per group for the Zhang and NGP nutlin simulations, respectively (Additional file 1: Figures S11 and S12). DESeq, PoissonSeq, and NOISeq showed better FDR control, but at a cost of severe TPR loss.

Among the seven edgeR pipelines, edgeR robust showed generally better performance for the Zhang data simulations (Additional file 1: Figure S15). However, only a small difference was observed in the simulation that starts with the less variable NGP nutlin data. edgeR robust with data-specific prior degrees of freedom seems more beneficial in maximizing the TPR. Only small performance variation was observed among the limma pipelines, except limmaQN, which deviated substantially (lower performance) in the second simulation (Additional file 1: Figure S16). This deviation may be due to the number of replicates, as only five samples were used in each group. Among all limma pipelines except limmaQN, voom with sample quality weight (limmaVoom+QW) lost control of FDR. Similarly, minor differences were observed among the DESeq2 pipelines (Additional file 1: Figure S17). However, as indicated in the concordance analysis, the independent filtering should be used carefully for lncRNAs. Similarly, among the QuasiSeq pipelines, the one with QL dispersion estimated independently for each gene, appeared to have worse performance (Additional file 1: Figure S18).

The simulation study demonstrated that large heterogeneity among samples has a potential to negatively affect the performance of DE tools, particularly leading to a failure to detect biological signals. The heterogeneity can result from both biological and technical factors. The technical artefacts can be alleviated by filtering low quality or aberrant samples that substantially contribute to the intra-group variability [30]. Such samples can be recognized by the sample-to-sample distances projected into a two-dimensional space using, for example, principal component analysis [10, 32]. This is confirmed by an extra simulation that starts from the Zhang data whereby the most distant (outlying) samples were excluded beforehand (Additional file 1: Section 4.2.3). The results generally indicate that DE tools perform better with respect to FDR control and sensitivity if outlying samples are excluded (Additional file 1: Figures S19 and S20).

Methods for controlling the FDR, for example, Benjamin and Hochberg (BH) [31], rely on the assumption that the raw P values have a flat distribution near P = 1. This assumption, however, might not always hold, especially for low-abundance genes such as lncRNAs and for small numbers of replicates. This concern is demonstrated by (1) a simulation with no DE genes, so that all P values correspond to the null hypothesis, and (2) using the P values from the DE results from the six benchmark RNA-seq datasets. For comparison purposes, the P value distributions from the analysis of a simulated dataset with 30% DE genes is also included. ten P values associated with the null hypotheses are supposed to be uniformly distributed between 0 and 1. For datasets with a fraction of SDE genes, a spike near P = 0 and a flat distribution near P = 1 is expected if the DE tool works fine. For many DE pipelines, the observed P value distribution looks as expected (Additional file 1: Figures S21–S27 and Additional file 2). When the number of replicates is small, a slightly conservative P value distribution (a spike near P = 1) is noticeable for lncRNAs, and to a lesser extent for mRNAs. The underlining cause may be the high variability of lncRNAs. This may result in loss of power to detect true DE lncRNAs, as confirmed by our simulation study. Correct calibration of P values under the null hypothesis and a large sample size can overcome this issue. Overall, QuasiSeq, DESeq, edgeR (exact test), and limma tools (for small numbers of replicates) return P values that do not well satisfy the assumption of P value uniformity.

False positive rate

The FPR refers to the probability of calling a gene SDE in a scenario with no DE genes at all. FPR of DE tools was evaluated using a simulated RNAseq data with 0% DE genes (also known as mock comparison). Results shown in Additional file 1: Figure S28 demonstrate that all DE pipelines resulted in a FPR of less than 1%. The results were similar for both gene biotypes (mRNAs and lncRNAs), except for a slightly higher FPR for lncRNAs than for mRNAs. The FPR was generally larger for methods relying on the negative binomial distribution. This finding is in line with conclusions from a previous comparative study [13] in which it was concluded that the number of false predictions of differential expression from DE tools (most of these DE tools are also the part of our study) is sufficiently low even for genes with low counts (the lowest 25% expressed genes).

Simulation of lncRNA expression data only

Results presented up to this point came from simulating, normalizing, and analyzing lncRNAs and mRNAs together. Of note, joint analysis of the two gene biotypes may affect results. For example, estimates of gene-specific dispersion parameters for negative binomial models are often done by sharing information across all genes using empirical Bays strategy [32,33,34], and hence the results for lncRNAs depend on mRNA read counts and vice versa. In addition, adjusted P values aimed at controlling FDR are calculated taking into account the total number of genes included in the analysis [31]. Therefore, we also evaluated the performance of the DE tools with only lncRNA data, using the same simulation procedures. Our conclusions remain the same. The results are shown in Additional file 1: Figure S29. The FDR control is generally worse when analyzing lncRNA separately, particularly for small replicate sizes. Only a small reduction in TPR is observed.

Web application

All simulation results can be consulted and visualized with a web application [35].


Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks

Recent advances in high-throughput cDNA sequencing (RNA-seq) can reveal new genes and splice variants and quantify expression genome-wide in a single assay. The volume and complexity of data from RNA-seq experiments necessitate scalable, fast and mathematically principled analysis software. TopHat and Cufflinks are free, open-source software tools for gene discovery and comprehensive expression analysis of high-throughput mRNA sequencing (RNA-seq) data. Together, they allow biologists to identify new genes and new splice variants of known ones, as well as compare gene and transcript expression under two or more conditions. This protocol describes in detail how to use TopHat and Cufflinks to perform such analyses. It also covers several accessory tools and utilities that aid in managing data, including CummeRbund, a tool for visualizing RNA-seq analysis results. Although the procedure assumes basic informatics skills, these tools assume little to no background with RNA-seq analysis and are meant for novices and experts alike. The protocol begins with raw sequencing reads and produces a transcriptome assembly, lists of differentially expressed and regulated genes and transcripts, and publication-quality visualizations of analysis results. The protocol's execution time depends on the volume of transcriptome sequencing data and available computing resources but takes less than 1 d of computer time for typical experiments and ∼1 h of hands-on time.

Figury

Software components used in this…

Software components used in this protocol. Bowtie forms the algorithmic core of TopHat,…

An overview of the Tuxedo…

An overview of the Tuxedo protocol. In an experiment involving two conditions, reads…

Merging sample assemblies with a…

Merging sample assemblies with a reference transcriptome annotation. Genes with low expression may…

Analyzing groups of transcripts identifies…

Analyzing groups of transcripts identifies differentially regulated genes. ( a ) Genes may…

CummeRbund helps users rapidly explore…

CummeRbund helps users rapidly explore their expression data and create publication-ready plots of…

CummeRbund plots of the expression…

CummeRbund plots of the expression level distribution for all genes in simulated experimental…

CummeRbund scatter plots highlight general…

CummeRbund scatter plots highlight general similarities and specific outliers between conditions C1 and…

CummeRbund volcano plots reveal genes,…

CummeRbund volcano plots reveal genes, transcripts, TSS groups or CDS groups that differ…

Differential analysis results for regucalcin…

Differential analysis results for regucalcin . ( a ) Expression plot shows clear…

Differential analysis results for Rala…

Differential analysis results for Rala . ( a ) This gene has four…


Bibliografia

Mardis, E.R. The impact of next-generation sequencing technology on genetics. Trendy Genet. 24, 133–141 (2008).

Wold, B. & Myers, R.M. Sequence census methods for functional genomics. Nat. Metody 5, 19–21 (2008).

Schuster, S.C. Next-generation sequencing transforms today's biology. Nat. Metody 5, 16–18 (2008).

Cloonan, N. & Grimmond, S.M. Transcriptome content and dynamics at single-nucleotide resolution. Biol genomowy. 9, 234 (2008).

Wang, Z., Gerstein, M. & Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nat. Ks. Genet. 10, 57–63 (2009).

Mortazavi, A., Williams, B.A., McCue, K., Schaeffer, L. & Wold, B. Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat. Metody 5, 621–628 (2008).

Cloonan, N. et al. Stem cell transcriptome profiling via massive-scale mRNA sequencing. Nat. Metody 5, 613–619 (2008).

Sultan, M. et al. A global view of gene activity and alternative splicing by deep sequencing of the human transcriptome. Nauki ścisłe 321, 956–960 (2008).

Wang, E.T. i in. Alternative isoform regulation in human tissue transcriptomes. Natura 456, 470–476 (2008).

Marioni, J.C., Mason, C.E., Mane, S.M., Stephens, M. & Gilad, Y. RNA-seq: an assessment of technical reproducibility and comparison with gene expression arrays. Genom Res. 18, 1509–1517 (2008).

Pan, Q., Shai, O., Lee, L.J., Frey, B.J. & Blencowe, B.J. Deep surveying of alternative splicing complexity in the human transcriptome by high-throughput sequencing. Nat. Genet. 40, 1413–1415 (2008).

Li, H. i in. Determination of tag density required for digital transcriptome analysis: application to an androgen-sensitive prostate cancer model. Proc. Natl. Acad. Nauka. USA 105, 20179–20184 (2008).

Saitou, M., Barton, S.C. & Surani, M.A. A molecular programme for the specification of germ cell fate in mice. Natura 418, 293–300 (2002).

Chambers, I. et al. Nanog safeguards pluripotency and mediates germline development. Natura 450, 1230–1234 (2007).

Toyooka, Y., Shimosato, D., Murakami, K., Takahashi, K. & Niwa, H. Identification and characterization of subpopulations in undifferentiated ES cell culture. Rozwój 135, 909–918 (2008).

Kurimoto, K. et al. An improved single-cell cDNA amplification method for efficient high-density oligonucleotide microarray analysis. Kwasy nukleinowe Res. 34, e42 (2006).

Kurimoto, K., Yabuta, Y., Ohinata, Y. & Saitou, M. Global single-cell cDNA amplification to provide a template for representative high-density oligonucleotide microarray analysis. Nat. Prot. 2, 739–752 (2007).

Maekawa, M., Yamamoto, T., Kohno, M., Takeichi, M. & Nishida, E. Requirement for ERK MAP kinase in mouse preimplantation development. Rozwój 134, 2751–2759 (2007).

Blake, W.J., Kærn, M., Cantor, C.R. & Collins, J.J. Noise in eukaryotic gene expression. Natura 422, 633–637 (2003).

Raser, J.M. & O'Shea, E.K. Noise in gene expression: origins, consequences, and control. Nauki ścisłe 309, 2010–2013 (2005).

Hamatani, T., Carter, M.G., Sharov, A.A. & Ko, M.S. Dynamics of global gene expression changes during mouse preimplantation development. Odw. Komórka 6, 117–131 (2004).

Tang, F. et al. Maternal microRNAs are essential for mouse zygotic development. Geny Dev. 21, 644–648 (2007).

Murchison, E.P. i in. Critical roles for Dicer in the female germline. Geny Dev. 21, 682–693 (2007).

O'Carroll, D. et al. A Slicer-independent role for Argonaute 2 in hematopoiesis and the microRNA pathway. Geny Dev. 21, 1999–2004 (2007).

de Vries, W.N. et al. Expression of Cre recombinase in mouse oocytes: A means to study maternal effect genes. Geneza 26, 110–112 (2000).

Tam, O.H. i in. Pseudogene-derived small interfering RNAs regulate gene expression in mouse oocytes. Natura 453, 534–538 (2008).

Rambhatla, L., Patel, B., Dhanasekaran, N. & Latham, K.E. Analysis of G protein alpha subunit mRNA abundance in preimplantation mouse embryos using a rapid, quantitative RT-PCR approach. Mol. Powiel. Odw. 41, 314–324 (1995).

Marzluff, W.F., Wagner, E.J. & Duronio, R.J. Metabolism and regulation of canonical histone mRNAs: life without a poly(A) tail. Nat. Ks. Genet. 9, 843–854 (2008).

Nagy, A., Gertsenstein, M., Vintersten, K. & Behringer, R. Recovery and in vitro culture of preimplantation stage embryos. w Manipulating the Mouse Embryo 3rd edn. 194–200 (Cold Spring Harbor Laboratory Press, Cold Spring Harbor, New York, 2003).

Gordon, D.M., Patashnik, O. & Kuperberg, G. New constructions for covering designs. J. Comb. Designs 3, 269–284 (1995).


Bibliografia

Jemal, A. et al. Global cancer statistics. CA Cancer J Clin 61, 69–90 (2011).

Vargo-Gogola, T. & Rosen, J. M. Modelling breast cancer: one size does not fit all. Nat Rev Cancer 7, 659–672 (2007).

Reis-Filho, J. S. & Lakhani, S. R. Breast cancer special types: why bother? J Pathol 216, 394–398 (2008).

Geyer, F. C., Marchio, C. & Reis-Filho, J. S. The role of molecular analysis in breast cancer. Pathology 41, 77–88 (2009).

Weigelt, B. & Reis-Filho, J. S. Histological and molecular types of breast cancer: is there a unifying taxonomy? Nat Rev Clin Oncol 6, 718–730 (2009).

Geyer, F. C., Lopez-Garcia, M. A., Lambros, M. B. & Reis-Filho, J. S. Genetic characterization of breast cancer and implications for clinical management. J Cell Mol Med 13, 4090–4103 (2009).

Buerger, H. et al. Different genetic pathways in the evolution of invasive breast cancer are associated with distinct morphological subtypes. J Pathol 189, 521–526 (1999).

Buerger, H. et al. Ductal invasive G2 and G3 carcinomas of the breast are the end stages of at least two different lines of genetic evolution. J Pathol 194, 165–170 (2001).

Stingl, J. & Caldas, C. Molecular heterogeneity of breast carcinomas and the cancer stem cell hypothesis. Nat Rev Cancer 7, 791–799 (2007).

Brenton, J. D., Carey, L. A., Ahmed, A. A. & Caldas, C. Molecular classification and molecular forecasting of breast cancer: ready for clinical application? J Clin Oncol 23, 7350–7360 (2005).

Sjoblom, T. et al. The consensus coding sequences of human breast and colorectal cancers. Science 314, 268–274 (2006).

Oakman, C., Santarpia, L. & Di Leo, A. Breast cancer assessment tools and optimizing adjuvant therapy. Nat Rev Clin Oncol 7, 725–732 (2010).

Andre, F. & Pusztai, L. Heterogeneity of breast cancer among patients and implications for patient selection for adjuvant chemotherapy. Pharm Res 23, 1951–1958 (2006).

Elston, C. W., Ellis, I. O. & Pinder, S. E. Pathological prognostic factors in breast cancer. Crit Rev Oncol Hematol 31, 209–223 (1999).

Soerjomataram, I., Louwman, M. W., Ribot, J. G., Roukema, J. A. & Coebergh, J. W. An overview of prognostic factors for long-term survivors of breast cancer. Breast Cancer Res Treat 107, 309–330 (2008).

Dawson, S. J., Provenzano, E. & Caldas, C. Triple negative breast cancers: clinical and prognostic implications. Eur J Cancer 45 Suppl 1, 27–40 (2009).

Rakha, E. A. et al. Prognostic significance of Nottingham histologic grade in invasive breast carcinoma. J Clin Oncol 26, 3153–3158 (2008).

Weigelt, B., Geyer, F. C. & Reis-Filho, J. S. Histological types of breast cancer: how special are they? Mol Oncol 4, 192–208 (2010).

Perou, C. M. et al. Molecular portraits of human breast tumours. Nature 406, 747–752 (2000).

Sorlie, T. et al. Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications. Proc Natl Acad Sci U S A 98, 10869–10874 (2001).

Sorlie, T. et al. Repeated observation of breast tumor subtypes in independent gene expression data sets. Proc Natl Acad Sci U S A 100, 8418–8423 (2003).

Rakha, E. A., Reis-Filho, J. S. & Ellis, I. O. Basal-like breast cancer: a critical review. J Clin Oncol 26, 2568–2581 (2008).

van de Vijver, M. J. et al. A gene-expression signature as a predictor of survival in breast cancer. N Engl J Med 347, 1999–2009 (2002).

van 't Veer, L. J. et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature 415, 530–536 (2002).

van 't Veer, L. J. et al. Expression profiling predicts outcome in breast cancer. Breast Cancer Res 5, 57–58 (2003).

Parker, J. S. et al. Supervised risk predictor of breast cancer based on intrinsic subtypes. J Clin Oncol 27, 1160–1167 (2009).

Wang, Y. i in. Gene-expression profiles to predict distant metastasis of lymph-node-negative primary breast cancer. Lancet 365, 671–679 (2005).

Naderi, A. et al. A gene-expression signature to predict survival in breast cancer across independent data sets. Oncogene 26, 1507–1516 (2007).

Sgroi, D. C. Preinvasive breast cancer. Annu Rev Pathol 5, 193–221 (2010).

Weigelt, B., Baehner, F. L. & Reis-Filho, J. S. The contribution of gene expression profiling to breast cancer classification, prognostication and prediction: a retrospective of the last decade. J Pathol 220, 263–280 (2010).

Pusztai, L., Mazouni, C., Anderson, K., Wu, Y. & Symmans, W. F. Molecular classification of breast cancer: limitations and potential. Oncologist 11, 868–877 (2006).

Bauer, K. R., Brown, M., Cress, R. D., Parise, C. A. & Caggiano, V. Descriptive analysis of estrogen receptor (ER)-negative, progesterone receptor (PR)-negative and HER2-negative invasive breast cancer, the so-called triple-negative phenotype: a population-based study from the California cancer Registry. Cancer 109, 1721–1728 (2007).

Carey, L. A. et al. The triple negative paradox: primary tumor chemosensitivity of breast cancer subtypes. Clin Cancer Res 13, 2329–2334 (2007).

Foulkes, W. D., Smith, I. E. & Reis-Filho, J. S. Triple-negative breast cancer. N Engl J Med 363, 1938–1948 (2010).

Finnegan, T. J. & Carey, L. A. Gene-expression analysis and the basal-like breast cancer subtype. Future Oncol 3, 55–63 (2007).

Dent, R. et al. Triple-negative breast cancer: clinical features and patterns of recurrence. Clin Cancer Res 13, 4429–4434 (2007).

Gusterson, B. A. Identification and interpretation of epidermal growth factor and c-erbB-2 overexpression. Eur J Cancer 28, 263–267 (1992).

Gusterson, B. A. et al. Prognostic importance of c-erbB-2 expression in breast cancer. International (Ludwig) Breast Cancer Study Group. J Clin Oncol 10, 1049–1056 (1992).

Badve, S. et al. Basal-like and triple-negative breast cancers: a critical review with an emphasis on the implications for pathologists and oncologists. Mod Pathol 24, 157–167 (2011).

Mortazavi, A., Williams, B. A., McCue, K., Schaeffer, L. & Wold, B. Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods 5, 621–628 (2008).

Haas, B. J. & Zody, M. C. Advancing RNA-Seq analysis. Nat Biotechnol 28, 421–423 (2010).

Trapnell, C., Pachter, L. & Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics 25, 1105–1111 (2009).

Trapnell, C. et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol 28, 511–515 (2010).

Santos, G. C., Zielenska, M., Prasad, M. & Squire, J. A. Chromosome 6p amplification and cancer progression. J Clin Pathol 60, 1–7 (2007).

Richard, F. et al. Patterns of chromosomal imbalances in invasive breast cancer. Int J Cancer 89, 305–310 (2000).

Seute, A. et al. Clinical relevance of genomic aberrations in homogeneously treated high-risk stage II/III breast cancer patients. Int J Cancer 93, 80–84 (2001).

Anders, S. & Huber, W. Differential expression analysis for sequence count data. Genome Biol 11, R106 (2010).

Krzywinski, M. et al. Circos: estetyka informacji dla genomiki porównawczej. Genome Res 19, 1639–1645 (2009).

Licatalosi, D. D. & Darnell, R. B. RNA processing and its regulation: global insights into biological networks. Nat Rev Genet 11, 75–87 (2010).

Watkins, G., Douglas-Jones, A., Bryce, R., Mansel, R. E. & Jiang, W. G. Increased levels of SPARC (osteonectin) in human breast cancer tissues and its association with clinical outcomes. Prostaglandins Leukot Essent Fatty Acids 72, 267–272 (2005).

Morabito, A. et al. Analysis and clinical relevance of human leukocyte antigen class I, heavy chain and beta2-microglobulin downregulation in breast cancer. Hum Immunol 70, 492–495 (2009).

Ricolleau, G. et al. Surface-enhanced laser desorption/ionization time of flight mass spectrometry protein profiling identifies ubiquitin and ferritin light chain as prognostic biomarkers in node-negative breast cancer tumors. Proteomics 6, 1963–1975 (2006).

Cao, X. X. et al. RACK1: A superior independent predictor for poor clinical outcome in breast cancer. Int J Cancer 127, 1172–1179 (2010).

Moore, L. E. et al. Proteomic biomarkers in combination with CA 125 for detection of epithelial ovarian cancer using prediagnostic serum samples from the prostate, lung, colorectal and ovarian (PLCO) cancer screening trial. Cancer (2011).

Williams, D. B. Beyond lectins: the calnexin/calreticulin chaperone system of the endoplasmic reticulum. J Cell Sci 119, 615–623 (2006).

Sorlie, T. et al. Distinct molecular mechanisms underlying clinically relevant subtypes of breast cancer: gene expression analyses across three different platforms. BMC Genomics 7, 127 (2006).

Hu, Z. i in. The molecular portraits of breast tumors are conserved across microarray platforms. BMC Genomics 7, 96 (2006).

Garber, M., Grabherr, M. G., Guttman, M. & Trapnell, C. Computational methods for transcriptome annotation and quantification using RNA-seq. Nat Methods 8, 469–477 (2011).

Ozsolak, F. & Milos, P. M. RNA sequencing: advances, challenges and opportunities. Nat Rev Genet 12, 87–98 (2011).

Watkins, G., Martin, T. A., Bryce, R., Mansel, R. E. & Jiang, W. G. Gamma-Linolenic acid regulates the expression and secretion of SPARC in human cancer cells. Prostaglandins Leukot Essent Fatty Acids 72, 273–278 (2005).

Cao, X. X. et al. RACK1 promotes breast carcinoma migration/metastasis via activation of the RhoA/Rho kinase pathway. Breast Cancer Res Treat 126, 555–563 (2011).

Cao, X. X. et al. RACK1 promotes breast carcinoma proliferation and invasion/metastasis in vitro and in vivo. Breast Cancer Res Treat 123, 375–386 (2010).

Li, H. i in. The Sequence Alignment/Map format and SAMtools. Bioinformatics 25, 2078–2079 (2009).


MRNA Sequencing (mRNA-seq)

RNA sequencing (RNA-seq) has been transforming the study of cellular functionality, which provides researchers with an unprecedented insight into the transcriptional landscape of cells. Employing the high-throughput and accurate next-generation sequencing technique (NGS), RNA-seq reveals Ekspresja genu profiles and describes the continuous variations in the transcriptome. In the RNA-seq technique, the single-stranded messenger RNAs (mRNAs) are selectively captured or enriched, and converted to complementary DNA (cDNA) for library preparation.

At Novogene, the state-of-the-art Illumina NovaSeq platforms are used for a paired-end 150 bp sequencing strategy (short-reads) to sequence the cDNA libraries. With strong sequencing capacity and rich experience, Novogene offers multiple services to meet various needs, including the access to not only eukaryotic mRNA sequencing (mRNA-seq) services, but also the studies on prokaryotic transcripts, non-coding RNAs, full-length isoforms (long-reads), whole transcriptomes, and meta-transcriptomes.


Box 1: Comparisons of microarrays and sequencing for gene expression analysis

Several comparisons of RNA-seq and microarray data have now been made. These include proof-of-principle demonstrations of the sequencing platform [2, 31, 32], dedicated comparison studies [34, 75–77] and analysis methodology development [10]. The results are unanimous: sequencing has higher sensitivity and dynamic range, coupled with lower technical variation. Furthermore, comparisons have highlighted strong concordance between microarrays and sequencing in measures of both absolute and differential expression. Nevertheless, microarrays have been, and continue to be, highly successful in interrogating the transcriptome in many biological settings. Examples include defining the cell of origin for breast cancer subtypes [78] and investigating the effect of evolution on gene expression in Drosophila [79].

Microarrays and sequencing each have their own specific biases that can affect the ability of a platform to measure DE. It is well known that cross-hybridization of microarray probes affects expression measures in a non-uniform way [80, 81] and sequence content influences measured probe intensities [82]. Meanwhile, several studies have observed a GC bias in RNA-seq data [45] and RNA-seq can suffer from mapping ambiguity for paralogous sequences. Furthermore, there is a higher statistical power to detect changes at higher counts (for example, a twofold difference of 200 reads to 100 reads is more statistically significant than 20 reads to 10, under the null hypothesis of no difference) this bias typically manifests in RNA-seq as an association between DE and gene length, an effect not present in microarray data [66, 68]. Other studies indicate that specific sequencing protocols produce biases in the generated reads, which can be related to the sequence composition and distance along the transcript [49, 50, 83, 84]. For example, library preparation for small RNAs has been found to strongly affect the set of observed sequences [85]. Furthermore, transcriptome assembly approaches are necessarily biased by expression level because less information is available for genes expressed at a low level [11, 14]. Many of these biases are still being explored and clever statistical methods that harness this knowledge may be able to provide improvements on existing methods.

In addition to the larger dynamic range and sensitivity of RNA-seq, several additional factors have contributed to the rapid uptake of sequencing for differential expression analysis. First, microarrays are simply not available for many non-model organisms (for example, Affymetrix offers microarrays for approximately 30 species [86]). By contrast, genomes and sequence information are readily available for thousands of species [87]. Moreover, even when genomes are not available, RNA-seq can still be performed and the transcriptome can still be interrogated (for instance, a recent study used RNA-seq to investigate the cell origin of the Tasmanian Devil facial tumor [88]). Second, sequencing gives unprecedented detail about transcriptional features that arrays cannot, such as novel transcribed regions, allele-specific expression, RNA editing and a comprehensive capability to capture alternative splicing. For example, a recent RNA-seq study [11] was able to show several examples of isoform switching during cell differentiation, and RNA-seq was used to show parent-of-origin expression in mouse brain [5].

Sequencing is not without its challenges, of course. The cost of the platform may be limiting for some studies. However, with the expansion in total sequencing capacity and the ability to multiplex, the cost per sample to generate sufficient sequence depth will soon be comparable to that of microarrays. However, the cost of informatics to house, process and analyze the data is substantial [89]. Researchers with limited access to computing staff and resources may elect to use microarrays because data analysis procedures are relatively mature. Finally, it is clear that data analysis methodologies for sequencing data will continue to evolve for some time yet.


Informacje o autorze

Afiliacje

Broad Institute of MIT and Harvard, Cambridge, Massachusetts, USA

Cole Trapnell, Loyal Goff, David R Kelley & John L Rinn

Department of Stem Cell and Regenerative Biology, Harvard University, Cambridge, Massachusetts, USA

Cole Trapnell, Loyal Goff, David R Kelley & John L Rinn

Department of Computer Science, University of California, Berkeley, California, USA

Adam Roberts, Harold Pimentel & Lior Pachter

Department of Electrical Engineering and Computer Science, Computer Science and Artificial Intelligence Lab, Massachusetts Institute of Technology, Cambridge, Massachusetts, USA

Department of Medicine, McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University School of Medicine, Baltimore, Maryland, USA

Geo Pertea, Daehwan Kim & Steven L Salzberg

Department of Biostatistics, Johns Hopkins University, Baltimore, Maryland, USA

Geo Pertea & Steven L Salzberg

Center for Bioinformatics and Computational Biology, University of Maryland, College Park, Maryland, USA

Department of Mathematics, University of California, Berkeley, California, USA

Department of Molecular and Cell Biology, University of California, Berkeley, California, USA


Obejrzyj wideo: From DNA to protein - 3D (Lipiec 2022).


Uwagi:

  1. Dave

    Dzięki! Teraz odwiedzę tego bloga każdego dnia!

  2. Scoville

    W pełni się zgadzam.

  3. Hakim

    Dzięki. Dokładnie to, co jest potrzebne ))

  4. Kigacage

    Super!

  5. Shadi

    Wszyscy jesteśmy bohaterami naszych powieści ...

  6. Blaise

    Jest w tym coś. Thank you so much for the explanation, now I will not make such a mistake.

  7. Enzo

    Ta wspaniała myśl się przyda.



Napisać wiadomość