Informacja

Definicja desquilibrium sprzężenia (LD)

Definicja desquilibrium sprzężenia (LD)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Według wiki nierównowaga sprzężeń $D$ równa się

$$D = x_{11} - p_1cdot q_1$$

gdzie:

$$ egin{macierz} ext{Haplotyp} & ext{Częstotliwość} A_1B_1 & x_{11} A_{1}B_{2} & x_{12} A_{2}B_{1 } & x_{21} A_{2}B_{2} & x_{22} end{matrix} $$

oraz

$$ egin{macierz} ext{Allele} & ext{Częstotliwość} A_{1} & p_{1}=x_{11}+x_{12} A_{2} & p_{2} =x_{21}+x_{22} B_{1} & q_{1}=x_{11}+x_{21} B_{2} & q_{2}=x_{12}+x_{ 22} end{macierz} $$

Według Hartla i Clarka nierównowaga sprzężenia $D$ równa się:

$$D = x_{11}x_{22}-x_{12}x_{21}$$

Pytanie

Czy możesz udowodnić, że te dwa sformułowania nierównowagi sprzężeń są równoważne (zakładając, że są równoważne)? Jeśli nie są… Czy używamy różnych definicji? Jakie są ich znaczenia?


Wystarczy rozwiązać równanie. p1 = X11 + X12; q1 = X11 + X21; 1 = X11 + X12 + X21 + X22.

D = X11 - (X11 + X12) * (X11 + X21)

D = X11 - (X11X11 + X11X21 + X11X12 + X12X21)

D = X11 - X11X11 - X11X21 - X11X12 - X12X21

D = X11 * (1 - X11) - X11X21 - X11X12 - X12X21

D = X11 * (X11 + X12 + X21 + X22 - X11) - X11X21 - X11X12 - X12X21

D = X11 * (X12 + X21 + X22) - X11X21 - X11X12 - X12X21

D = X11X12 + X11X21 + X11X22 - X11X21 - X11X12 - X12X21

D = X11X22 - X12X21

Przepraszam za bardzo długą odpowiedź, ale pomyślałem, że będzie jaśniej, jeśli wszystko wypiszę.


Modelowanie nierównowagi sprzężeń zwiększa dokładność oceny ryzyka poligenicznego

Oceny ryzyka poligenicznego okazały się bardzo obiecujące w przewidywaniu ryzyka złożonej choroby i staną się dokładniejsze wraz ze wzrostem wielkości próby szkoleniowej. Standardowe podejście do obliczania punktacji ryzyka obejmuje przycinanie markerów oparte na nierównowadze powiązań (LD) i stosowanie progu wartości p do statystyk asocjacji, ale powoduje to odrzucenie informacji i może zmniejszyć dokładność predykcyjną. Wprowadzamy LDpred, metodę, która określa a posteriori średni rozmiar efektu każdego markera przy użyciu wcześniejszego rozmiaru efektu i informacji LD z zewnętrznego panelu odniesienia. Teoria i symulacje pokazują, że LDpred przewyższa podejście polegające na przycinaniu, po którym następuje progowanie, szczególnie w przypadku dużych próbek. W związku z tym przewidywane R(2) wzrosło z 20,1% do 25,3% w dużym zestawie danych dotyczących schizofrenii i od 9,8% do 12,0% w dużym zestawie danych o stwardnieniu rozsianym. Podobną względną poprawę dokładności zaobserwowano dla trzech dodatkowych dużych zbiorów danych dotyczących choroby oraz dla pozaeuropejskich próbek schizofrenii. Przewaga LDpred nad istniejącymi metodami będzie rosła wraz ze wzrostem wielkości próby.

Copyright © 2015 Amerykańskie Towarzystwo Genetyki Człowieka. Wydane przez Elsevier Inc. Wszelkie prawa zastrzeżone.

Figury

Dokładność prognozy zastosowanej P+T…

Dokładność prognoz P+T zastosowana do symulowanych genotypów zi bez LD The…

Porównanie czterech metod przewidywania…

Porównanie czterech metod przewidywania zastosowanych do symulowanej dokładności przewidywania cech…

Porównanie metod stosowanych do…

Porównanie metod zastosowanych do siedmiu zbiorów danych dotyczących choroby WTCCC Dokładność przewidywania…

Porównanie metod treningowych na…

Porównanie metod szkoleniowych na temat dużych statystyk podsumowujących GWAS dla pięciu różnych chorób…


Abstrakcyjny

Istnieje duże zainteresowanie wzorcami i zakresem nierównowagi sprzężeń (LD) u ludzi i innych gatunków. Charakterystyka LD ma kluczowe znaczenie dla badań mapowania genów i może dostarczyć wglądu w biologię rekombinacji i historię demograficzną człowieka. Tutaj dokonujemy przeglądu ostatnich osiągnięć w tej dziedzinie, w tym niedawno zaproponowanego modelu „haplotypowo-blokowego” LD. Szczegółowo opisujemy niektóre z ostatnich danych i porównujemy zaobserwowane wzorce z tymi zaobserwowanymi w symulacjach.


Wyniki

Aby ustalić punkty odniesienia, przetestowaliśmy podhipotezy modelu Malecota na mapach fizycznych używanych przez autorów (8, 9). Wartości L są znacznie większe niż przewidywano na podstawie wagi informacji, w przeciwieństwie do doświadczenia z SNP w znacznie niższej rozdzielczości (10). Oczywiście trzy parametry modelu Malecota nie mogą dokładnie opisać struktury bloków na mapie fizycznej. Obie sekwencje są krótkie, rozmiary próbek są stosunkowo małe, a bloki są zbyt widoczne, aby je oszacować L bezpośrednio. Wartości m są istotnie

Testy m = 1 dla mapy fizycznej

Struktura blokowa jest ewidentna w obu próbkach, dobrze korespondująca, ale nie idealnie, z różnymi algorytmami stosowanymi przez autorów (ryc. 1 i 2). Trzy główne etapy w 6p21.3 zbiegają się z gorącymi punktami rekombinacji mejotycznej. Gęstość SNP w obrębie etapów nie jest wystarczająco wysoka, aby zlokalizować zimne punkty LD z taką samą precyzją, jak odpowiadające im gorące punkty rekombinacji, które oszacowano na rozpiętość <2 kb (8). Jeśli zimny punkt LD okaże się szerszy, istnieją co najmniej trzy możliwe wyjaśnienia (7). Po pierwsze, algorytm mapowania LD może nie mieć wymaganej precyzji. Po drugie, w małym regionie może być wiele gorących punktów rekombinacji. Po trzecie, na lokalizację obecnych gorących punktów mogą wpływać mutacje, insercje i delecje w sekwencjach rekombinogennych, a zatem mogą być bardziej zmienne w LD niż w obecnej rekombinacji.

Wykres mapy LD 6p21.3 (A) i rekombinacji mejotycznej (b) zgłoszone przez Jeffreysa i in. (8), zorientowany od pter do kwarty. Linia kropkowana jest przybliżonym oszacowaniem rekombinacji w obrębie głównych bloków określonych przez gorące punkty rekombinacji jako centymorgan (cM)/Mb = 0,04. Tak niskie poziomy powodują, że definicja małych kroków jest arbitralna, a zatem wątpliwa przydatność do klonowania pozycyjnego.

Wykres mapy LD 5q31 (A) i porównanie z 11 blokami (b) wywnioskowane ze zmiennych latentnych przez Daly i in. (9). Jest to bardziej typowy region, niewyselekcjonowany przez gorące punkty rekombinacji. Ilustruje wysoką częstotliwość małych kroków (np. między blokami 2 i 3, 5 i 6 oraz 8 i 9), a tym samym subiektywność definicji bloku. Pozostaje do ustalenia, czy podział lub skupienie jest bardziej korzystne dla klonowania pozycyjnego, czy nieistotne.

Metryka ρ jest unikalna, ponieważ jest prawdopodobieństwem opartym na teorii ewolucji i ma zastosowanie do losowych lub wybranych próbek (12). Zgodnie z oczekiwaniami, ρ pasuje do danych asocjacyjnych znacznie lepiej niż alternatywne metryki, niezależnie od tego, czy każda jest ważona informacjami o hipotezie zerowej, że ρ = 0, czy hipotezie alternatywnej h1 modelu Malecot (10). Jednak poprzednie próby były w niskiej rozdzielczości i mogły nie mieć zastosowania do analizowanych tutaj próbek. Dlatego porównujemy ρ z r, wartość bezwzględna korelacji z informacją n na hipotezie zerowej (10). Warunkiem koniecznym i wystarczającym dla ρ = 1 jest to, że jedna z częstości haplotypów wynosi 0, co jest zgodne z brakiem u założycieli. Przeciwnie, r = 1 tylko wtedy, gdy dwie częstotliwości poza przekątną wynoszą 0, mało prawdopodobne jest, aby zbieg okoliczności charakteryzował założycieli. Zgodnie z oczekiwaniami szacunki m są znacznie mniej dla r niż dla ρ, parametry są niespójne (Tabela 2), a wariancja resztowa (błędu) jest znacznie większa niezależnie od tego, czy odległość jest mierzona w kb, czy LDU (Tabela 3). Użycie metryk innych niż ρ wprowadza zewnętrzną zmienność w pomiarach LD, wymagając większej próbki w celu uzyskania tej samej mocy w klonowaniu pozycyjnym. Tylko część wariancji wynika z próbkowania i jest odwrotnie proporcjonalna do wielkości próby, podczas gdy ρ i LDU zmniejszają wariancję ewolucyjną, która jest niezależna od wielkości próby. Dlatego koszt nieefektywnej metryki jest systematycznie zaniżany w Tabeli 3: Wymagane byłyby nawet większe rozmiary próbek, które mogą nie być wystarczające do konkurowania z optymalnym miernikiem. Wariancja ewolucyjna i błąd w modelu zwykle zawyżają się V, wymagające jego włączenia do testów istotności. Region 6p21.3 jest wyjątkowy pod względem redukcji V poniżej 1, odzwierciedlając korelację ɛi przy dużej gęstości. Będzie to coraz częściej obserwowane na mapach LD w wysokiej rozdzielczości.

Porównanie ρ i r dla odległości w kb i LDU

Wariancja empiryczna, wielkość próby i efektywność dla ρ i r

W ramach końcowego testu map LD zmieniliśmy minimalną wartość ɛi od 0 do 0,001. Wariancja wzrasta przy wysokich wartościach. Ustawienie minimum na 0 daje najlepsze wyniki (Tabela 4). Szacunek L zgadza się z przewidywaną wartością dla 5q31, ale nie dla 6p21.3. Ten ostatni znacznie wzbogaca liczbę SNP wokół intensywnych punktów rekombinacyjnych, a więc sąsiednie bloki są mylone z L. Istnieje zgodność między gorącymi punktami rekombinacji (8) a zimnymi punktami LD wskazanymi na Rys. 1. Zgodność z mniej dobrze zdefiniowanymi blokami w 5q31 jest bardziej przybliżona (Rys. 2), ale nie może być oceniona przy braku dowodów rekombinacji i uzasadnienie zmiennej latentnej użytej do zdefiniowania kroków (9). Każdy autor do tej pory stosował inne kryterium definiowania bloków. Optymalna definicja zależy od nieznanej użyteczności uzupełniającej informacje w mapach LD, które ujawniają strukturę bloku, ale nie określają definicji bloku.

Dobroć dopasowania minimum ɛi dla mapy LD

Standardowy błąd długości mapy LD, gdyby obserwacje nie były autoskorelowane, a model Malecota dla mapy fizycznej był dokładny, wynosiłby SE(ɛ)ΣDi, gdzie błąd standardowy SE (ɛ) obejmuje wariancję empiryczną. Jest to niedoszacowanie, gdy założenia są błędne, więc nie będziemy na tym polegać. Długości regionów 6p21.3 i 5q31 wynoszą odpowiednio 9,84 i 2,51 LDU. Łącznie łączy się 12,35 LDU i 832,32 kb. Jeśli długość genomowa wynosi 3 × 106 kb, odpowiednia długość w LDU wynosi 44,514. Na tak fragmentarycznych dowodach istnieje ≈1 LDU na locus, ale z dużym zróżnicowaniem między regionami. Region 6p21.3 został wybrany ze świadomością, że zawiera gorący punkt rekombinacji TAP2 (13), ale szacowana długość genetyczna 0,22 cM jest ściśle zgodna z przewidywaną wartością dla segmentu 216 kb z 0,89 cM/Mb u samca mapa (8). Szacowany czas powrotu do założycieli, jeśli θ = 0,0022 to T = 9,84 LDU/0,022 = 4473 pokolenia lub około 100 000 lat, w dobrej zgodzie z wąskim gardłem spowodowanym migracją z Afryki mniej więcej w tym czasie.


Materiały i metody

Definicja asymetrycznych miar rozwoju lokalnego

Istnieją dwie warunkowe miary ALD, w zależności od tego, który locus jest uwarunkowany. Dla uproszczenia często opisujemy szczegółowo środek warunkujący na b umiejscowienie. Wyprowadzenie miary komplementarnej, warunkującej A locus, jest nadawany przez zamianę ról loci A oraz b.

ten indywidualny HSF wartości (Tabela 1) są łączone jako średnia ważona dla wszystkich alleli w uwarunkowanym locus w celu uzyskania dwóch ogólnie miary homozygotyczności specyficzne dla haplotypu: FA/B oraz FB/A (Tabela 1 i patrz dodatek dla wyrażeń alternatywnych). Maksymalna wartość FA/B może trwać to 1.0, gdy każdy A allel występuje tylko z jednym b allel.

WA/B 2 (kwadrat miary ALD) otrzymuje się przez normalizację ogólny ważony HSF wartość w oparciu o zakres możliwych wartości, które może osiągnąć (Tabela 1): Dla danych biallelicznych w obu loci (patrz dodatek).

Gdy odejdziemy od posiadania dwóch alleli w obu loci, dwie miary ALD są równe tylko w niektórych szczególnych przypadkach (patrz poniżej). Dla danych biallelicznych współczynnik korelacji wyraża się wzorem r dla danych multiallelicznych Wn oraz środki ALD, WA/B oraz WB/A, podaj odpowiednie współczynniki korelacji.

Pozostałe czynniki są takie same, ALD wzrasta wraz z silniejszym LD pomiędzy dwoma loci. Na wartości ALD wpływa również liczba alleli w każdym locus. W szczególności dla loci multiallelicznych z nierówny liczba alleli, np., kA < kb (z kA ≥ 2), w skrajnym przypadku każdy bJ allel wystąpi tylko z jednym Ai allel i WA/B = 1 (wskazując na brak zmienności w locus A na żadnym haplotypie zawierającym specyficzny bJ allel) a także Wn = 1 (odbicie tego efektu). Jednakże, WB/A < 1 odzwierciedla wymaganą zmienność, biorąc pod uwagę nierówność liczby alleli, w locus B na niektórych lub wszystkich haplotypach zawierających określony Ai allel (patrz przypadek szczególny e, poniżej).

Przypadki specjalne

biallelski loci z trzy haplotypy czterech możliwych, np., A1b1, A1b2, oraz A2b2. Przy następujących częstościach alleli LD jest maksymalna (D = ): D′ = 1, ale r (= Wn = WA/B = WB/A) <1. Odzwierciedla to, że częstości alleli w dwóch loci nie są w 100% skorelowane.

Loci multialleliczne z równy liczba alleli (tj., kA = kb = k) i tylko haplotypy symetryczne (tj., Fii > 0, dla wszystkich i = 1, 2, …, k, oraz Fij = 0 w przeciwnym razie). Jak powyżej dla przypadku biallelicznego a, istnieje pełna symetria i 100% korelacja częstotliwości alleli w dwóch loci: D′ = 1, oraz Wn = WA/B = WB/A = 1. Przykładem z trzema allelami w obu loci jest F11 = 0.5, F22 = 0.3, F33 = 0,2, ze wszystkimi pozostałymi Fij = 0. Nie ma zmienności alleli locus A na żadnym z haplotypów uwarunkowanych allelami locus B i na odwrót.

Loci multialleliczne z nierówny liczba alleli (np., kA < kb), z każdym bJ allel występujący tylko z jednym Ai allel (patrz przykład 1 we Wstępie). Podczas Wn = WA/B = 1, WB/A < 1.

Jeden locus bialleliczny i drugi multialleliczny (np., kA = 2, kb > 2): Wn = WA/B WB/A. W różnych zbadanych przypadkach WB/A < WA/B, ale nie mamy dowodu, że tak jest zawsze.

Zobacz akta S1 dla dowodów szczególnych przypadków c–f.


DYSKUSJA

W tym artykule wprowadziliśmy nowy model statystyczny odnoszący wzorce LD w wielu loci do podstawowego tempa rekombinacji i zbadaliśmy jego skuteczność w wywnioskowaniu podstawowego tempa rekombinacji. Innym potencjalnym zastosowaniem naszego modelu są metody mapowania LD (asocjacji) w badaniach „przypadkowo-kontrolnych”, w których chromosomy zostały zebrane i typowane zarówno dla osobników przypadków, jak i osób z grupy kontrolnej. Kilku autorów, w tym McPeek i Strahs (1999), Morris i in. (2000) i Liu i in. (2001) opracowali metody wykorzystywania typów genetycznych w wielu loci do wykonywania mapowania asocjacyjnego dla badań kliniczno-kontrolnych. Metody te mają na celu ulepszenie innych powszechnych metod — które zazwyczaj testują małe grupy markerów, jedna grupa na raz, pod kątem powiązania z cechą — poprzez jednoczesne rozpatrywanie danych z wielu markerów SNP. Chociaż metody różnią się w szczegółach, ogólnie rzecz biorąc, wszystkie realizują strategię zakładającą, że (podzbiory) chromosomów przypadku mają pewien region identyczny przez pochodzenie o przyczynowej mutacji i w rezultacie będą bardziej podobne, niż można by się spodziewać przypadkowo. Wyzwaniem jest zatem zidentyfikowanie regionów, w których (podzbiory) chromosomów przypadku są bardziej podobne, niż można by się spodziewać przypadkowo. Modele LD odgrywają tu kluczową rolę, ponieważ to, czego można by oczekiwać „przypadkowo”, zależy w sposób decydujący od ilości LD wśród loci. W szczególności korelacje między loci powodują, że chromosomy są przypadkowo bardziej podobne, niż gdyby loci były niezależne. McPeek i Strahs (1999) używają łańcucha Markowa pierwszego rzędu do modelowania LD, aby prawdopodobieństwo obserwowania typów (x1. xL) w L loci wzdłuż chromosomu to Pr(x1) Pr(x2|x1) Pr(x3|x2). Pr(xL|xL–1), gdzie prawdopodobieństwa warunkowe Pr(xr|xr–1 są szacowane za pomocą chromosomów kontrolnych. Model ten został również przyjęty przez Morris i in. (2000). Chociaż założenie Markowa pierwszego rzędu jest lepsze niż założenie, że loci są niezależne i może wystarczyć, jeśli wśród markerów jest mało LD, ogólnie wydaje się, że nie jest to dobry model dla LD. W szczególności nie ujmuje faktu, że markery mogą znajdować się w słabym LD z sąsiednimi markerami, ale w silnym LD z bardziej oddalonymi markerami. Chociaż McPeek i Strahs (1999) wspominają, że modele Markowa wyższego rzędu mogą być lepszym modelem LD, wydaje się, że modele takie nie będą pomocne w praktyce ze względu na trudność w oszacowaniu wszystkich niezbędnych parametrów. Wprowadzony przez nas model zapewnia oszczędną metodę modelowania LD: nawet bardziej ogólny model zmieniających się szybkości rekombinacji ma mniej parametrów niż stosowany wcześniej model Markowa pierwszego rzędu. Co więcej, w tego rodzaju zastosowaniach, w których oszacowanie bazowych stóp rekombinacji może mieć jedynie pośrednie znaczenie, użyteczność naszego modelu będzie zależeć tylko od tego, czy Pr(h1. hn|ρ) jest rozsądnym rozkładem dla h1. hn dla Niektóre wartość parametrów ρ, nawet jeśli to ρ nie odpowiada dokładnie szybkości rekombinacji tła przeskalowanej przez efektywną wielkość populacji. W tych okolicznościach nasze dwa przybliżenia πA i πb powinien działać prawie identycznie, więc πA może być preferowany ze względu na to, że jest łatwiejszy do zrozumienia i wdrożenia oraz bardziej podatny na badania teoretyczne.

Kolejny model LD w wielu lokalizacjach, wprowadzony przez D aly i in. (2001) opiera się na empirycznych obserwacjach, że w niektórych regionach genomu LD wykazuje strukturę „blokową”. D ali i in. (2001) modelują każdy obserwowany haplotyp jako mozaikę „haplotypów przodków”, przy czym szybkości przejścia między tymi stanami przodków (reprezentujące „częstość rekombinacji historycznej” między każdą parą kolejnych markerów) są oszacowane przez maksymalne prawdopodobieństwo. Haplotypy przodków są identyfikowane przez wstępny skan dla regionów o niskiej różnorodności haplotypów, chociaż w zasadzie można je traktować jako parametry w modelu. D ali i in. (2001) wykorzystali ten model do stworzenia podsumowania wzorców LD, które ilustruje strukturę haplotypów w ich danych wyraźniej i bardziej szczegółowo niż wykresy parami miar LD.Jednak obecnie nie jest jasne, w jakim stopniu ten model może być pomocny w zastosowaniach związanych z wnioskowaniem statystycznym lub przewidywaniem, szczególnie w regionach, w których wzorce LD są mniej podobne do bloków.

Przy zastosowaniu naszej metody do rzeczywistych danych, które tutaj zignorowaliśmy, może pojawić się kilka wyzwań. W szczególności założyliśmy w naszych przykładach, że haplotypy są znane i że nie ma brakujących genotypów ani błędów genotypowania. Nowa wersja pakietu oprogramowania PHASE (Stephens i in. 2001) jest w trakcie opracowywania i zajmie się tymi problemami poprzez włączenie prawdopodobieństwa PAC do algorytmu Monte Carlo łańcucha Markowa w celu wspólnego oszacowania parametrów szybkości rekombinacji, haplotypów, brakujących genotypów i potencjalnych lokalizacji błędów genotypowania. Algorytm ten tworzy również metodę szacowania haplotypów, która uwzględnia rozpad LD wzdłuż chromosomów. Wstępne wyniki dla symulowanych danych sugerują, że te pomysły dają nieco dokładniejsze oszacowania haplotypów niż metoda opisana w Stephens i in. (2001).

Istnieją również biologiczne aspekty prawdziwych danych, których tutaj nie uwzględniliśmy, w tym na przykład konwersja genów, której wpływ na wzorce LD u ludzi był ostatnio przedmiotem znacznego zainteresowania (zob. Frise i in. na przykład 2001). Wpływ, jaki obecność konwersji genów będzie miała na naszą metodę, będzie się różnić w zależności od tego, jak długość przewodu – o której niewiele wiadomo u ludzi – porównuje się z gęstością markera. Zdarzenia konwersji genów o bardzo małych długościach odcinka w porównaniu z gęstością markera rzadko będą dotyczyć typowanego markera, a zatem będą miały niewielki wpływ na naszą metodę, chyba że takie zdarzenia są niezwykle częste. Odwrotnie, zdarzenia konwersji genów o dłuższych odcinkach – porównywalnych z typową odległością między markerami – często wpływają na jeden lub więcej markerów i będą wyglądać jak zdarzenia podwójnego krzyżowania w naszej metodzie. Obecność konwersji genów przy tego rodzaju długości odcinka podniesie zatem nasze szacunki szybkości rekombinacji, być może znacznie, a regiony o podwyższonych szybkościach takiej konwersji genów mogą pojawiać się jako gorące punkty rekombinacji w naszej metodzie. W zasadzie model PAC można rozszerzyć, aby wyraźnie uwzględnić konwersję genów przez odpowiednią modyfikację rozkładu warunkowego π. Konkretną sugestią, jak to osiągnąć, byłoby rozszerzenie przestrzeni ukrytego modelu Markowa dla procesu mozaiki (opisanego szczegółowo w załączniku a) o uwzględnienie zarówno obecnego, jak i poprzedniego „skopiowanego” chromosomu, a następnie zmodyfikowanie procesu skoku Markowa aby wykonać skoki z powrotem do poprzednio skopiowanego chromosomu z większym prawdopodobieństwem niż skoki do innych chromosomów. Jednak znacznie zwiększyłoby to koszty obliczeniowe modelu, czyniąc go nieatrakcyjnym w praktyce. Bardziej atrakcyjną możliwością byłoby zadowolić się modelowaniem tylko tych zdarzeń konwersji genów, które wpływają na pojedynczy marker (który, w zależności od długości przewodu i gęstości markera, może być ogromną większością zdarzeń konwersji genów wpływających na wzorce LD). Wymagałoby to jedynie prostej modyfikacji rozkładu warunkowego (może być obsługiwane podobnie do sposobu, w jaki mutacje są obecnie obsługiwane), zasadniczo bez zwiększania wymaganych obliczeń.

Innym aspektem rzeczywistych danych, którego nie uwzględniliśmy wprost, jest struktura populacji. Wyniki naszej symulacji na rysunku 3 sugerują, że w celu identyfikacji gorących punktów rekombinacji nasza metoda jest odporna na pewną strukturę populacji. Niemniej jednak jawne modelowanie struktury populacji może okazać się pomocne w niektórych sytuacjach. Na przykład może być wykorzystany do rozszerzenia metod wykrywania struktury populacji z niepołączonych markerów (np., Pritchard i in. 2000), aby umożliwić ich zastosowanie do zestawów ściśle powiązanych markerów. Ponownie naturalnym podejściem jest zmodyfikowanie rozkładu warunkowego π w celu wyraźnego uwzględnienia struktury populacji. Jedną z sugestii jest zmodyfikowanie procesu kopiowania w k + 1-szy chromosom (patrz dodatek a ), aby zamiast mieć równe prawdopodobieństwo skopiowania wszystkich r istniejących chromosomów, istnieje większe prawdopodobieństwo skopiowania chromosomów z tej samej populacji niż chromosomów z innej populacji. To skutecznie modeluje strukturę populacji poprzez zwiększenie prawdopodobieństwa zobaczenia podobnych chromosomów w tej samej populacji w porównaniu z innymi populacjami. Obecnie badamy skuteczność podobnego pomysłu na mapowanie LD w badaniach kliniczno-kontrolnych: traktowanie przypadków i kontroli jako oddzielnych populacji i badanie, czy w niektórych regionach wydaje się, że istnieją dowody na to, że chromosomy danego przypadku są bardziej podobne do chromosomów innych przypadków niż kontrolować chromosomy.

Chociaż skoncentrowaliśmy się tutaj na modelach loci biallelicznych, pomysły, które przedstawiliśmy, mogą być również wykorzystane do modelowania LD wśród loci multiallelicznych, takich jak mikrosatelity. Istnieje naturalny odpowiednik πA dla loci z K allele (patrz także rozkład warunkowy dla K-allele loci sugerowane w FD) i może to stanowić punkt wyjścia do dalszych badań.

Aby poradzić sobie z problemem polegającym na tym, że prawdopodobieństwo PAC zależy od kolejności rozpatrywania haplotypów, wybraliśmy uśrednienie prawdopodobieństwa w kilku losowych rzędach. Jedną z możliwych alternatyw byłoby użycie pseudoprawdopodobieństwa (B esag 1974) opartego na naszym rozkładzie warunkowym, L pseudo ( ρ ) = ∏ k = 1 n π ( h k ∣ H − k ) , (7) gdzie hk oznacza zbiór wszystkich haplotypów z wyłączeniem hk. Pseudo-prawdopodobieństwo z definicji nie zależy od kolejności haplotypów. Pomysł ten jest bardziej podobny do sposobu, w jaki te rozkłady warunkowe są używane w Stephens i in. (2001). Jednak we wstępnych badaniach stwierdziliśmy, że to pseudoprawdopodobieństwo wypadło słabo przy szacowaniu ρ. Nasze intuicyjne wyjaśnienie tego jest takie, że pseudoprawdopodobieństwo w efekcie zawiera tylko informacje o rekombinacji występującej w wierzchołkach drzew, a nie o strukturze drzewa jako całości. (Co ciekawe, w naszym przybliżeniu pierwsze dwa haplotypy nie zawierają informacji o ρ, więc w pewnym sensie informacja o ρ pochodzi z haplotypów pośrednich.) Niemniej jednak możliwe jest, że pseudoprawdopodobieństwo może okazać się przydatne w warunkach, w których szacowanie ρ nie jest bezpośredniego zainteresowania.

Wprowadziliśmy tutaj dwa modele zmienności szybkości rekombinacji: prosty model z jednym gorącym punktem i bardziej ogólny model, który pozwala na zmianę szybkości rekombinacji wzdłuż chromosomu. Każdy z tych modeli ma słabości. Prosty model pojedynczego hotspotu przyjmuje pewne nierealistyczne założenia: rekombinacja tła prawdopodobnie nie będzie stała, podobnie jak tempo rekombinacji w hotspotu, może być więcej niż jeden hotspot. Bardziej ogólny model zawiera niewiele założeń i pozwala na bardziej elastyczne badanie wzorców zmienności szybkości rekombinacji wzdłuż regionu. Jednak ta dodatkowa elastyczność odbywa się kosztem wprowadzenia dodatkowych parametrów, co może skutkować zmniejszeniem precyzji, z jaką można oszacować parametry. Kiedy używamy modelu jako ogólnego modelu dla LD, a nie do estymacji parametrów, jak skoncentrowaliśmy się tutaj, precyzja oszacowań parametrów może być nieistotna, a kilka założeń przyjętych przez bardziej ogólny model czyni go szczególnie atrakcyjnym w tej sytuacji. Gdy głównym celem jest oszacowanie szybkości rekombinacji, bardziej ogólny model może być postrzegany jako najbardziej odpowiedni do eksploracyjnej analizy danych, identyfikującej prawdopodobne pozycje gorących punktów, których wielkości można oszacować za pomocą bardziej oszczędnego modelu. W takiej sytuacji warto rozważyć modyfikację bardziej ogólnego modelu poprzez umieszczenie bardziej informacyjnego przedrostka λJ's. W szczególności przeor, w którym λJsą skorelowane wzdłuż chromosomu (np., autoregresywny uprzedni) zmniejszyłby wariancję oszacowań parametrów kosztem założenia, że ​​zmiany w szybkości rekombinacji zachodzą mniej lub bardziej gładko wzdłuż chromosomu (co może, ale nie musi).

Oceniając nasz model jako metodę szacowania szybkości rekombinacji na podstawie danych sekwencyjnych w umiarkowanych regionach genomowych, być może najbardziej naturalne porównania, jakie można wykonać, dotyczą metod prawdopodobieństwa złożonego Hudsona (2001) oraz F. Earheada i Donnelly'ego (2002). (Chociaż niektóre inne metody oparte na podsumowaniach danych mogą być konkurencyjne w stosunku do tych podejść, gdy założono stałą szybkość rekombinacji, wydaje się, że ucierpią one z powodu utraty informacji podczas dopasowywania modeli z większą liczbą parametrów, takich jak jeden z naszych modeli szybkości rekombinacji zmienność.) Spośród dwóch metod prawdopodobieństwa złożonego, chociaż obie są wykonalne do szacowania ρ dla dużych regionów genomowych, tylko metoda Hudsona jest porównywalna z naszą własną pod względem kosztów obliczeniowych: nasza metoda i metoda Hudsona zwykle zajmują sekundy lub mniej, aby obliczyć wiarogodność, podczas gdy metoda Fearnheada i Donnelly'ego może zająć godziny na obliczenie prawdopodobieństwa. Chociaż czas i wysiłek włożony w zbieranie tego rodzaju danych sprawiają, że czekanie godzinami lub dniami na wyniki analizy nie jest nierozsądne, dodatkowe obciążenie obliczeniowe może sprawić, że metoda Fearnheada i Donnelly'ego będzie trudna do rozszerzenia na bardziej ogólne ustawienia obejmujące brakujące dane genotypowe, genotypowanie. na przykład błąd i/lub nieznana faza haplotypowa. Podejście polegające na dzieleniu danych sekwencji na sąsiadujące segmenty ma również wadę, zauważoną wcześniej, polegającą na szacowaniu szybkości rekombinacji w regionie tylko na podstawie miejsc w regionie, a nie miejsc po obu stronach regionu, co skutkuje potencjalną utratą informacji. Nasze ograniczone porównania z metodą Hudsona sugerują, że działa ona podobnie do naszej metody szacowania szybkości rekombinacji, gdy przyjmuje się, że jest ona stała w całym regionie. W zasadzie metodę Hudsona można by również zastosować do dopasowania modeli o różnym tempie rekombinacji wzdłuż sekwencji, a istnienie więcej niż jednej metody do dopasowania takich modeli byłoby mile widziane. Oba podejścia wydają się oferować znaczną przewagę nad innymi dostępnymi metodami modelowania LD i wnioskowania wzorców niejednorodności szybkości rekombinacji.


Wyniki

Szacowanie LD na podstawie danych

W sekcji Materiały i metody przedstawiamy podejście do obliczania nieobciążonych estymatorów dla dużej rodziny statystyk dwumiejscowych, przy użyciu danych etapowych lub niefazowych. Obejmuje to powszechnie używane statystyki, takie jak D oraz D 2 , dodatkowe statystyki w układzie Hilla-Robertsona ( ⁠ D ( 1 − 2 p ) ( 1 − 2 q ) i p ( 1 − p ) q ( 1 − q ) ⁠ , które oznaczamy Dz oraz π2, odpowiednio) i ogólnie dowolna statystyka, która może być wyrażona jako wielomian w częstościach haplotypów (F's) lub pod względem P, Q, oraz D. Używamy tego samego podejścia, aby znaleźć bezstronne estymatory dla międzypopulacyjnych statystyk LD, które zostały ostatnio użyte do wywnioskowania historii demograficznej wielu populacji (Ragsdale i Gravel 2019).

Dla danej pary loci i oraz J, korzystamy z naszych estymatorów dla D 2 i π2 zaproponować kosztorys dla r 2 między miejscami i oraz J z danych niefazowych, które oznaczamy r ÷ i , j 2 = D 2 ^ i , j / π 2 ^ i , j (dalej upuszczamy indeksy i, J). r ÷ 2 jest obciążonym estymatorem dla r 2 . Jednak wypada korzystnie w porównaniu z powszechnym podejściem polegającym na pierwszym obliczeniu r^ i po prostu podniesieniu wyniku do kwadratu, jak w Rogers i Huff (2009) (rys. 1).

Estymacja LD. (A, b) Przetwarzanie danych D 2 poprzez wzięcie kwadratu kowariancji przeszacowuje prawdziwą wartość, podczas gdy nasze podejście jest nieobciążone dla dowolnej wielkości próby. (C, D) Podobnie, obliczenia r 2 przez oszacowanie r a podniesienie jej do kwadratu (tutaj, poprzez podejście Rogersa–Huffa, r RH 2 ⁠ , oraz podejście Excoffiera–Slatkina EM, r EM 2 ⁠ ) przeszacowuje wartość rzeczywistą. Nasze podejście, r ÷ 2 ⁠ , nie zawyża poziomu populacji r 2 , chociaż wszystkie estymatory wykazują zmienne błędy systematyczne w zależności od podstawowych częstości haplotypów w populacji. Porównania z dodatkowymi estymatorami i konfiguracjami częstotliwości znajdują się na dodatkowym rysunku S1, Materiały uzupełniające online. (mi) Porównanie parami r 2 dla 500 sąsiadujących SNP w chromosomie 22 w CHB z 1000 Genomes Project Consortium et al. (2015). r ÷ 2 (góra) i r RH 2 (dół) są silnie skorelowane, chociaż r ÷ 2 wykazuje mniej fałszywych szumów tła.

Estymacja LD. (A, b) Przetwarzanie danych D 2, biorąc kwadrat kowariancji, przeszacowuje prawdziwą wartość, podczas gdy nasze podejście jest nieobciążone dla dowolnej wielkości próby. (C, D) Podobnie, obliczenia r 2 przez oszacowanie r a podniesienie jej do kwadratu (tutaj, poprzez podejście Rogersa–Huffa, r RH 2 ⁠ , oraz podejście Excoffiera–Slatkina EM, r EM 2 ⁠ ) przeszacowuje wartość rzeczywistą. Nasze podejście, r ÷ 2 ⁠ , nie zawyża poziomu populacji r 2 , chociaż wszystkie estymatory wykazują zmienne błędy systematyczne w zależności od podstawowych częstości haplotypów w populacji. Porównania z dodatkowymi estymatorami i konfiguracjami częstotliwości znajdują się na dodatkowym rysunku S1, Materiały uzupełniające online. (mi) Porównanie parami r 2 dla 500 sąsiadujących SNP w chromosomie 22 w CHB z 1000 Genomes Project Consortium et al. (2015). r ÷ 2 (góra) i r RH 2 (dół) są silnie skorelowane, chociaż r ÷ 2 wykazuje mniej fałszywych szumów tła.

Aby zbadać wydajność tego estymatora, najpierw zasymulowaliśmy różne rozmiary próbek diploidalnych z bezpośrednim próbkowaniem wielomianowym ze znanych częstotliwości haplotypów ( rys. 1A-D i rys. uzupełniający S1 , Materiały uzupełniające online). Szacunki D 2 były bezstronne zgodnie z oczekiwaniami, a r ÷ 2 szybko zbliżyły się do prawdy r 2 wraz ze wzrostem wielkości próbki. Błędy standardowe naszego estymatora były prawie nie do odróżnienia od Rogersa i Huffa (2009) (rysunek uzupełniający S2 , Materiał uzupełniający online), a wariancje estymatorów dla statystyk w systemie Hilla-Robertsona zanikały przy wielkości próby ∼ 1 n 2 ( rys. S3, Materiały uzupełniające online).

Po drugie, symulowaliśmy 1 Mb segmenty chromosomów w warunkach demografii stanu stacjonarnego (przy użyciu msprime [Kelleher et al. 2016]), aby oszacować r 2 krzywe zaniku przy użyciu obu podejść. Nasz estymator był niezmienny w stosunku do fazowania i wykazywał prawidłowe właściwości zaniku w limicie dużej odległości rekombinacji (rys. 2A). Wraz ze wzrostem odległości między SNP, r ÷ 2 zbliżało się do zera, jak oczekiwano dla LD na poziomie populacji, podczas gdy Rogers-Huff r 2 szacunki zbiegły się z wartościami dodatnimi, jak oczekiwano w próbie skończonej (Waples 2006).

Rozpad r 2 z odległością. (A) Porównanie naszego estymatora ( ⁠ r ÷ 2 ⁠ ) z Rogersem i Huffem (2009) (RH) w warunkach demografii stanu ustalonego. Krzywa r ÷ 2 pokazuje odpowiednie zachowanie zaniku i jest niezmienna w stosunku do fazowania, podczas gdy estymator wilgotności względnej podaje napiętą w górę r 2 , a to ogólne podejście jest wrażliwe na phasing. Szacunki obliczono na podstawie 1000 1 Mb replikacji symulacji ze stałymi szybkościami mutacji i rekombinacji (każda 2 × 10 - 8 na zasadę na pokolenie) dla n = 50 próbkowanych diploidów przy użyciu msprime (Kelleher et al. 2016). (b) r RH 2 Rozpad dla pięciu populacji w Konsorcjum Projektu 1000 Genomów et al. (2015), w tym dwie przypuszczalnie wymieszane populacje amerykańskie (MXL i PUR), obliczone z regionów międzygenowych. (C) r ÷ 2 Rozpad dla tych samych populacji. (D) Rozpad σ D 2 obliczony jako ∑ D 2 ^ / ∑ π 2 ^ ⁠ . Krzywe zaniku r RH 2 pokazują nadmiar LD dalekiego zasięgu w każdej populacji, podczas gdy nasz estymator jakościowo różnicuje populacje.

Rozpad r 2 z odległością. (A) Porównanie naszego estymatora ( ⁠ r ÷ 2 ⁠ ) z Rogersem i Huffem (2009) (RH) w warunkach demografii stanu ustalonego. Krzywa r ÷ 2 pokazuje odpowiednie zachowanie zaniku i jest niezmienna w stosunku do fazowania, podczas gdy estymator wilgotności względnej podaje napiętą w górę r 2 , a to ogólne podejście jest wrażliwe na phasing. Szacunki obliczono na podstawie 1000 1 Mb replikacji symulacji ze stałymi szybkościami mutacji i rekombinacji (każda 2 × 10 - 8 na zasadę na pokolenie) dla n = 50 próbkowanych diploidów przy użyciu msprime (Kelleher et al. 2016). (b) r RH 2 Rozpad dla pięciu populacji w Konsorcjum Projektu 1000 Genomów et al. (2015), w tym dwie przypuszczalnie wymieszane populacje amerykańskie (MXL i PUR), obliczone z regionów międzygenowych. (C) r ÷ 2 Rozpad dla tych samych populacji. (D) Rozpad σ D 2 obliczony jako ∑ D 2 ^ / ∑ π 2 ^ ⁠ . Krzywe zaniku r RH 2 pokazują nadmiar LD dalekiego zasięgu w każdej populacji, podczas gdy nasz estymator jakościowo różnicuje populacje.

W końcu obliczyliśmy rozpad r 2 w pięciu populacjach z Konsorcjum Projektu 1000 Genomów et al. (2015) ( rys. 2B-D). r ÷ 2 wykazuje wyraźne zachowanie jakościowe w populacjach, przy czym populacje ostatnio domieszane wykazujące LD o dużym zasięgu. Jednakże, r 2, jak oszacowano za pomocą podejścia Rogersa-Huffa, wykazywał daleki zasięg LD w każdej populacji, myląc sygnał domieszki w postaci r 2 krzywe zaniku.

Szacowanie N e z LD pomiędzy niepowiązanymi loci

Waples pokazał, że r ^ W 2 usuwa większość błędu systematycznego w nmi szacunki ( rys. 1C i D). Bulik-Sullivan i in. (2015) zastosowali podobną korekcję błędu systematycznego (poprzez δ-metoda), która wydaje się działać porównywalnie z r ^ W 2 ( rys. uzupełniający S1 , Materiały uzupełniające online).

Przewidywanie σ D 2 dla Unlinked i Linked Loci

Równanie Avery'ego (1) zostało wyprowadzone przy założeniu, że oczekiwanie wskaźników jest równe stosunkowi oczekiwań. Pracując bezpośrednio z σ D 2 ⁠ , oszczędzamy zatem zarówno teoretyczne przybliżenie, jak i potrzebę empirycznej korekcji błędu systematycznego skończonej próbki. W losowo dopasowanym diploidalnym modelu Wrighta-Fishera z C = 1/2, pokazujemy w danych uzupełniających, że E [ σ D 2 ] = 1/3 N e ⁠ , jak sugeruje równanie Avery'ego, podczas gdy monogamia prowadzi do E [ σ D 2 ] = 2/3 N e ⁠ . Podobne podejście pozwala nam pokazać, że E [ D ( 1 - 2 p ) ( 1 - 2 q ) ] ⁠ , inna statystyka z systemu Hilla-Robertsona, jest w przybliżeniu równa zeru dla niepołączonych loci (jego człon pierwszego rzędu jest rzędu 1 / N e 2 ⁠ ).

To przybliżenie jest dokładne w równowadze demograficznej zarówno dla dużych, jak i małych populacji o niskich wskaźnikach mutacji i odległościach rekombinacji (rys. 3A). Przekształcanie równania (3) zapewnia bezpośrednie oszacowanie dla nmi dla dowolnej odległości rekombinacji (rys. 3B), chociaż przybliżenie jest ważne tylko dla c ≪ 1 ⁠ .

Używając σ D 2 do oszacowania N e ⁠ . (A) Aproksymacja σ D 2 według Ohty i Kimury (1969) jest dokładna zarówno dla dużych, jak i małych próbek. Tutaj porównujemy z tymi samymi symulacjami użytymi na rysunku 2A dla N e = 10 000 z wielkością próbki n = 50 i nmi = 500 z wielkością próbki n = 10. (b) Użycie σ D 2 oszacowanego z tych samych symulacji i przekształcenia równania (3) zapewnia oszacowanie nmi dla każdego pojemnika rekombinacyjnego. Większa wariancja dla nmi = 500 wynika z małej wielkości próbki prowadzącej do szumu w szacowanym σ D 2 ⁠ .

Używając σ D 2 do oszacowania N e ⁠ . (A) Aproksymacja σ D 2 według Ohty i Kimury (1969) jest dokładna zarówno dla dużych, jak i małych próbek. Tutaj porównujemy z tymi samymi symulacjami użytymi na rysunku 2A dla N e = 10 000 z wielkością próbki n = 50 i nmi = 500 z wielkością próbki n = 10. (b) Użycie σ D 2 oszacowanego z tych samych symulacji i przekształcenia równania (3) zapewnia oszacowanie nmi dla każdego pojemnika rekombinacyjnego. Większa wariancja dla nmi = 500 wynika z małej wielkości próbki prowadzącej do szumu w szacowanym σ D 2 ⁠ .

Porównanie metod szacowania N e Korzystanie z danych symulowanych

Przesymulowaliśmy dane z efektywnymi rozmiarami populacji nmi = 100 i 400 przy użyciu fwdpy11 (Thornton 2014) w celu porównania wydajności wnioskowania N ^ e z NeEstimator w wersji 2.1 (Do et al. 2014), która używa r ^ W 2 ⁠ i z σ D 2 (patrz Materiały i metody dla szczegóły symulacji). Ogólnie rzecz biorąc, użycie naszych estymatorów dla σ D 2 dało mniej obciążone oszacowania nmi ( rys. 4 i rys. uzupełniający S4 , Materiały uzupełniające online). Miało to miejsce nawet wtedy, gdy dane filtrowano według częstości małych alleli (MAF), co jest strategią zalecaną w celu zmniejszenia błędu NeEstimator, ale nie jest to wymagane ani pożądane w podejściu σ D2. Szacunki z r ^ W 2 miały mniejszą wariancję podczas filtrowania przez MAF, ale wyższy błąd średniokwadratowy (MSE) dla większych liczebności próbek (tabela uzupełniająca S1 , Materiały uzupełniające online). W praktyce NeEstimator dostarcza oszacowania z różnymi opcjami odcięcia i pozwala użytkownikowi zdecydować o najlepszym wyborze odcięcia.

Wykonanie estymacji N e na danych symulowanych. Użyliśmy fwdpy11 (Thornton 2014) do symulacji danych genotypowych dla danej wielkości próby i nmi = 100 (patrz rozdział Materiały i metody). Chociaż szacunki nmi za pomocą (A) σ D 2 miała nieco większe wariancje niż oszacowania z użyciem (b) równania (1) i (2) (obliczone za pomocą NeEstimator [Do et al. 2014]), oszacowania z σ D 2 były nieobciążone przy użyciu wszystkich danych i mniej obciążone przy filtrowaniu przez MAF, co skutkowało niższym MSE (tabela uzupełniająca S1 , Materiały uzupełniające online).

Wykonanie estymacji N e na danych symulowanych. Użyliśmy fwdpy11 (Thornton 2014) do symulacji danych genotypowych dla danej wielkości próby i nmi = 100 (patrz rozdział Materiały i metody). Chociaż szacunki nmi za pomocą (A) σ D 2 miała nieco większe wariancje niż oszacowania z użyciem (b) równania (1) i (2) (obliczone przy użyciu NeEstimator [Do et al. 2014]), szacunki z σ D 2 były nieobciążone przy użyciu wszystkich danych i mniej obciążone przy filtrowaniu przez MAF, co skutkowało niższym MSE (tabela uzupełniająca S1, Materiały uzupełniające online).

Zbadaliśmy również wpływ chowu wsobnego na oszacowanie σ D 2 i σ Dz = E [ Dz ] / E [ π 2 ] przy użyciu danych symulacyjnych. Nic dziwnego, że wyższe wskaźniki inbredu prowadzą do wyższych wartości σ D 2 pomiędzy niepowiązanymi loci, co skutkuje zaniżonymi szacunkami nmi ( rys. uzupełniający S5 A oraz b, Materiały uzupełniające online). σDz jest odporny na chów wsobny, z oczekiwaną wartością bliską zeru nawet dla dużych wskaźników samozapylenia (rysunek uzupełniający S5 C, Materiały uzupełniające online). Mimo że σDz nie można wykorzystać do oszacowania wartości nmi (ponieważ jego oczekiwanie wynosi zero), zamiast tego można by go użyć do rozróżnienia różnych naruszeń założeń modelu: jeśli mierzymy również σDz być znacznie podwyższony powyżej zera, może sugerować strukturę populacji lub niedawną migrację do populacji (Ragsdale i Gravel 2019).

Efektywna wielkość populacji lisów wyspowych

Lisy wyspowe (Urocyon littoralis), zamieszkujących Wyspy Normandzkie w Kalifornii, w ostatnim czasie doszło do poważnego spadku populacji z powodu drapieżników i chorób. Z tego powodu zostały dokładnie zbadane, aby informować o decyzjach dotyczących ochrony i zarządzania. Mówiąc bardziej ogólnie, stanowią przykładowy system do badania różnorodności genetycznej i historii ewolucyjnej zagrożonych populacji wysp ( Wayne i in. 1991 Coonan i in. 2010 Funk i in. 2016 Robinson i in. 2016, 2018). Niedawne badanie miało na celu rozwikłanie ról demografii (w tym gwałtowne zmniejszenie wielkości populacji, co skutkuje silnym dryfem genetycznym) i zróżnicowanej selekcji w kształtowaniu genetyki lisów wyspiarskich na sześciu Wyspach Normandzkich (Funk et al. 2016). Oprócz analiz genetycznych opartych na statystykach pojedynczych witryn, Funk et al. (2016) wykorzystali NeEstimator (Do et al. 2014), aby wywnioskować ostatnie N ^ e dla każdej z populacji lisów wyspowych (przedstawione w tabeli 1).

Wnioskowana efektywna wielkość populacji lisa wyspowego.

Ludność . . N^e (95% CI) Zgłoszone w Funk et al. (2016) . . N ^ e (95% CI) Używając σ D 2 .
San Miguel I. 13.7 ( 13.2 − 14.1 ) 15.3 ( 14.5 − 16.1 )
Santa Rosa I. 13.6 ( 13.5 − 13.7 ) 13.3 ( 13.0 − 13.6 )
Santa Cruz I. 25.1 ( 24.6 − 25.5 ) 22.8 ( 22.4 − 23.3 )
Santa Catalina I. 47.0 ( 46.7 − 47.4 ) 40.9 ( 40.4 − 41.6 )
San Clemente I. 89.7 ( 77.1 − 107.0 ) 59.1 ( 53.0 − 66.7 )
San Nicolas I. 2.1 ( 2.0 − 2.2 ) 13.8 ( 13.0 − 15.2 )
Ludność . . N^e (95% CI) Zgłoszone w Funk et al. (2016) . . N ^ e (95% CI) Używając σ D 2 .
San Miguel I. 13.7 ( 13.2 − 14.1 ) 15.3 ( 14.5 − 16.1 )
Santa Rosa I. 13.6 ( 13.5 − 13.7 ) 13.3 ( 13.0 − 13.6 )
Santa Cruz I. 25.1 ( 24.6 − 25.5 ) 22.8 ( 22.4 − 23.3 )
Santa Catalina I. 47.0 ( 46.7 − 47.4 ) 40.9 ( 40.4 − 41.6 )
San Clemente I. 89.7 ( 77.1 − 107.0 ) 59.1 ( 53.0 − 66.7 )
San Nicolas I. 2.1 ( 2.0 − 2.2 ) 13.8 ( 13.0 − 15.2 )

Uwaga .—LD pomiędzy niepołączonymi loci zapewnia oszacowanie efektywnej liczby osobników (hodowlanych) w poprzednich kilku pokoleniach. Funk i in. (2016) wykorzystali NeEstimator (Do et al. 2014) do oszacowania nmi dla sześciu populacji lisów wyspowych na Wyspach Normandzkich w Kalifornii (po lewej). Wykorzystaliśmy te same dane do obliczeń nmi używając zamiast tego naszego estymatora dla σ D 2 (po prawej), uzyskując wyniki w dużej mierze zgodne z Funk et al. (2016). Warto zauważyć, że Funk i in. wywnioskowali bardzo mały rozmiar na wyspie San Nicolas ( ⁠ N ^ e ≈ 2 ⁠ ), podczas gdy nasze szacunki są nieco większe i są tego samego rzędu wielkości N ^ e z innych wysp o małej efektywnej wielkości populacji. 90% przedziały ufności obliczono za pomocą 200 ponownie próbkowanych powtórzeń bootstrap (patrz Materiały i Metody).

Wnioskowana efektywna wielkość populacji lisa wyspowego.

Ludność . . N^e (95% CI) Zgłoszone w Funk et al. (2016) . . N ^ e (95% CI) Używając σ D 2 .
San Miguel I. 13.7 ( 13.2 − 14.1 ) 15.3 ( 14.5 − 16.1 )
Santa Rosa I. 13.6 ( 13.5 − 13.7 ) 13.3 ( 13.0 − 13.6 )
Santa Cruz I. 25.1 ( 24.6 − 25.5 ) 22.8 ( 22.4 − 23.3 )
Santa Catalina I. 47.0 ( 46.7 − 47.4 ) 40.9 ( 40.4 − 41.6 )
San Clemente I. 89.7 ( 77.1 − 107.0 ) 59.1 ( 53.0 − 66.7 )
San Nicolas I. 2.1 ( 2.0 − 2.2 ) 13.8 ( 13.0 − 15.2 )
Ludność . . N^e (95% CI) Zgłoszone w Funk et al. (2016) . . N ^ e (95% CI) Używając σ D 2 .
San Miguel I. 13.7 ( 13.2 − 14.1 ) 15.3 ( 14.5 − 16.1 )
Santa Rosa I. 13.6 ( 13.5 − 13.7 ) 13.3 ( 13.0 − 13.6 )
Santa Cruz I. 25.1 ( 24.6 − 25.5 ) 22.8 ( 22.4 − 23.3 )
Santa Catalina I. 47.0 ( 46.7 − 47.4 ) 40.9 ( 40.4 − 41.6 )
San Clemente I. 89.7 ( 77.1 − 107.0 ) 59.1 ( 53.0 − 66.7 )
San Nicolas I. 2.1 ( 2.0 − 2.2 ) 13.8 ( 13.0 − 15.2 )

Uwaga .—LD pomiędzy niepołączonymi loci zapewnia oszacowanie efektywnej liczby osobników (hodowlanych) w poprzednich kilku pokoleniach. Funk i in. (2016) wykorzystali NeEstimator (Do et al. 2014) do oszacowania nmi dla sześciu populacji lisów wyspowych na Wyspach Normandzkich w Kalifornii (po lewej). Wykorzystaliśmy te same dane do obliczeń nmi używając zamiast tego naszego estymatora dla σ D 2 (po prawej), uzyskując wyniki w dużej mierze zgodne z Funk et al. (2016). Warto zauważyć, że Funk i in. wywnioskowali bardzo mały rozmiar na wyspie San Nicolas ( ⁠ N ^ e ≈ 2 ⁠ ), podczas gdy nasze szacunki są nieco większe i są tego samego rzędu wielkości N ^ e z innych wysp o małej efektywnej wielkości populacji. 90% przedziały ufności obliczono za pomocą 200 ponownie próbkowanych powtórzeń bootstrap (patrz Materiały i Metody).

Wykorzystując te same 5293 zmienne miejsca opisane i przeanalizowane w Funk et al. (2016), obliczyliśmy σ D 2 dla każdej z sześciu populacji lisów wyspowych do oszacowania nmi. Wyniki przy użyciu σ D 2 były generalnie zgodne z wynikami obliczonymi w Funk et al. (2016) za pomocą r ^ W 2 ( tabela 1 i tabela uzupełniająca S2 , Materiały uzupełniające online). Być może najbardziej godne uwagi jest to, że populacja wyspy San Nicolas, o której wcześniej wnioskowano, że ma wyjątkowo mały efektywny rozmiar N ^ e ≈ 2 ⁠ , została wywnioskowana jako N ^ e ≈ 14 ⁠ . Chociaż wielkość ta jest nadal dość mała w przeciwieństwie do populacji kontynentalnych, jest bardziej zachęcająca z punktu widzenia ochrony i podobna do rzeczywistych rozmiarów sugerowanych w innych populacjach lisów wyspowych.

Oszacowaliśmy również σDz dla każdej populacji i stwierdzono, że był znacznie podwyższony powyżej zera w każdej populacji (tabela uzupełniająca S4, Materiały uzupełniające online). Sugeruje to, że niektóre założenia modelu nie są spełnione. Na podstawie symulowanych danych ani chów wsobny, ani filtrowanie przez MAF nie powinny skutkować podwyższonym poziomem obserwowanym σDz (rysunki uzupełniające S5 i S6, Materiały uzupełniające online). Rozbieżność może być spowodowana substrukturą populacji lub niedawną migracją między populacjami. Może to być również spowodowane artefaktami technicznymi: przeanalizowaliśmy dane przy założeniu, że oddzielne kontigi RAD zostały skutecznie oddzielone (odczyty nie zostały zmapowane do genomu referencyjnego). Jeśli niektóre kontigi byłyby w rzeczywistości blisko fizycznie połączone na chromosomach, mogłoby to prowadzić do większych statystyk LD niż oczekiwano dla niepołączonych loci.


Wstęp

Na całym świecie kukurydza jest jedną z najważniejszych roślin spożywczych, paszowych i przemysłowych. Ciągłe doskonalenie i uwalnianie odmian z nowymi cechami docelowymi będzie wymagało jak najdokładniejszej manipulacji z szacowanych 59 000 genów w genomie kukurydzy [1]. Ukierunkowana hodowla roślin musi znaleźć odpowiednią kombinację alleli w tych genach przy użyciu nowej technologii i bardziej tradycyjnej „sztuki” hodowcy roślin, procesu ułatwianego w przypadku kukurydzy przez szeroki zakres różnorodności genetycznej dostępnej w gatunku [2]. W bankach genów na całym świecie istnieje ponad 47 000 pozycji kukurydzy, z czego około 27 000 jest przechowywanych w Międzynarodowym Centrum Doskonalenia Kukurydzy i Pszenicy (CIMMYT) [3]. Obejmuje to linie wsobne, ulepszone populacje, tradycyjne populacje rolników (rasy lądowe) i dzikich krewnych. Większość akcesji to rasy lądowe i do tej pory znaczna część tej plazmy zarodkowej nie została dokładnie scharakteryzowana, a większość ras lokalnych nie została jeszcze wykorzystana w nowoczesnej hodowli roślin. Szacuje się, że mniej niż 5% plazmy zarodkowej dostępnej w tym gatunku jest wykorzystywane w komercyjnych programach hodowlanych na świecie, a w USA mniej niż 1% [2]. Brak danych charakteryzujących plazmę zarodkową zmagazynowaną w bankach genów wydaje się być jedną z przeszkód w zwiększonym wykorzystaniu.

Linie wsobne wyselekcjonowane z mieszańców, populacji lub ras lokalnych są podstawowymi zasobami dla hodowli kukurydzy i badań genetycznych. Do oceny zależności między różnymi liniami szeroko stosowano markery molekularne, takie jak polimorfizmy długości fragmentów restrykcyjnych i proste powtórzenia sekwencji (SSR) lub mikrosatelity. Relacje oparte na markerach zostały wykorzystane w programach hodowlanych do oszacowania współczynnika rodowodu i ustalenia grup heterotycznych i wzorców hodowli mieszańców [4]–[6] identyfikacji złożonej struktury populacji i względnego pokrewieństwa (informacje niezbędne do badań mapowania asocjacji) [7] ] oraz zidentyfikowanie podstawowych podzbiorów linii o maksymalnym zróżnicowaniu z większego zbioru analizowanych linii, aby zmniejszyć liczbę linii do badania lub wykorzystania. Na przykład, Generation Challenge Program ustanowił podstawowe zestawy referencyjne dla 12 gatunków roślin uprawnych przy użyciu markerów molekularnych [http://www.generationcp.org/subprogramme1.php].

Przedstawiono szereg badań dotyczących badania różnorodności opartej na markerach, koncentrując się na specyficznej plazmie zarodkowej z ograniczoną wielkością próbki (na ogół mniej niż 300 linii wsobnych), w tym linie amerykańskiego pasa kukurydzy [8]–[9], europejskie linie umiarkowane [10], chińskie linie umiarkowane [11] oraz tropikalne [4], [5] i subtropikalne [6], [12]. Istnieje również kilka badań skoncentrowanych na bardziej zróżnicowanych mieszankach plazmy zarodkowej [13]–[15]. Typowe badanie zostało przedstawione przez Liu i wsp., [15], którzy zbadali dobrze reprezentowany zbiór 260 linii, w tym 4 główne znane podgrupy (sztywna, niesztywna, tropikalna i subtropikalna oraz „mieszana”). Linie te tworzą panel mapowania asocjacji różnorodności stosowany w wielu badaniach [7], [16]–[17]. Plazma zarodkowa kukurydzy w naturalny sposób tworzy dwie główne grupy, umiarkowaną i tropikalną (w tym podzwrotnikową), w oparciu o charakterystykę środowiskową i długość dnia obszarów uprawnych na świecie. Te dwie grupy uformowały się przez tysiące lat po tym, jak kukurydza wyemigrowała z tropikalnego centrum pochodzenia w Meksyku. Sugeruje to, że istnieje znacznie większa różnorodność w liniach tropikalnych, co jest sugestią dobrze popartą wcześniejszymi badaniami markerów [13]–[16]. Wiele użytecznych alleli do ulepszania kukurydzy umiarkowanej może być ukrytych w tropikalnej plazmie zarodkowej i należy je odkryć w celu dalszej poprawy w przyszłości. Na przykład w niedawnym badaniu zidentyfikowano gen, cyklaza epsilon likopenu, związane z zawartością prowitaminy A w jądrze kukurydzy. Zróżnicowanie alleli tego genu zostało zbadane przy użyciu strategii eksploracji alleli i wykazało, że allele korzystne dla zdrowia ludzkiego mają znacznie wyższą częstotliwość w liniach tropikalnych niż w liniach umiarkowanych [17].

Mapowanie asocjacyjne przy użyciu różnych genotypów w roślinach jest nowym i potężnym narzędziem, które zaczęło dawać obiecujące wyniki w identyfikacji zmienności funkcjonalnej zarówno znanych, jak i nieznanych genów związanych z ważnymi cechami agronomicznymi i ekonomicznymi [podsumowanie, patrz przegląd 18]. Załamanie nierównowagi sprzężeń (LD) w genomie organizmu jest kluczowym czynnikiem wpływającym na precyzję i dokładność zapewnianą przez mapowanie asocjacji, na który z kolei wpływa wiele czynników genetycznych i niegenetycznych, w tym rekombinacja, dryf, selekcja, kojarzenie wzór i domieszka [19]–[21]. Istnieje kilka parametrów statystycznych pozwalających na oszacowanie rozległości LD [22] oraz r 2 , najczęściej stosowana jest kwadratowa wartość współczynnika korelacji stanów allelicznych dwóch danych loci polimorficznych. W wielu badaniach odnotowano poziomy LD w kukurydzy. Tenaillon i wsp. [23] zsekwencjonowali 21 loci zlokalizowanych na chromosomie 1 u 25 osobników, w tym 16 egzotycznych ras lądowych i 9 wsobnych. Oszacowali, że odległość rozpadu LD była mniejsza niż 1000 pb u ras lądowych. Na podstawie wyników sekwencjonowania 6 genów w 102 różnych liniach wsobnych, Remington i wsp. [24] stwierdzili, że tempo rozpadu LD było wysoce zmienne, ze średnią poniżej 2000 pz. Jednak w komercyjnych liniach wsobnych zanik LD może być wolniejszy, a bloki sprzężenia mogą rozciągać się na ponad 100 kb, na podstawie badania 18 genów kukurydzy w 36 inbredach kukurydzy [25]. W przypadku regionów, które doświadczyły silnych przemiatań selektywnych, LD może rozciągać się na ponad 500 kb lub więcej [26]–[28]. Jednak wszystkie dotychczasowe badania LD opierały się na ograniczonej liczbie loci i genotypów. Cenne byłoby oszacowanie zaniku LD kukurydzy na poziomie całego genomu i na większej, reprezentatywnej na całym świecie próbie genotypów kukurydzy.

Inna klasa markerów, polimorfizmy pojedynczego nukleotydu (SNP) jest obecna w ogromnych ilościach we wszystkich genomach roślin i zwierząt. Prawie milion SNP kukurydzy jest obecnie dostępnych w publicznych bazach danych [www.panzea.org]. Opracowano kilka wysokoprzepustowych platform genotypowania do użytku komercyjnego [29], które zapewniają społeczności kukurydzy możliwość przyspieszenia postępów badawczych w zakresie analizy różnorodności na dużą skalę, budowy mapy połączeń o wysokiej gęstości, mapowania locus cech ilościowych o wysokiej rozdzielczości (QTL), LD analiza i badania asocjacyjne całego genomu. Opracowano test GoldenGate jęczmienia zawierający 1524 SNP, który wykorzystano do oceny zróżnicowania, LD, struktury populacji i powiązań cech SNP w zbiorze różnych odmian jęczmienia [30]. Ostatnio Hamblin i wsp. [31] porównali analizy oparte na 89 SSR z analizami opartymi na 847 SNP w tej samej kolekcji kukurydzy 259 linii wsobnych. Rozdzielczość pomiaru odległości genetycznej przy użyciu SNP opartych na współdzieleniu alleli była niższa niż bardziej polimorficznych SSR. Yu i wsp. [32] oszacowali, że moc 1000 SNP jest podobna do 100 SSR w szacowaniu struktury populacji i względnego pokrewieństwa. Możliwości automatyzacji SNP pozwolą na tanie wykorzystanie znacznie większej ich liczby w badaniach charakteryzacyjnych, przezwyciężając słabszą informację genetyczną przekazywaną przez każdy SNP. Możliwość szybkiego oszacowania struktury genetycznej w populacjach i struktury LD w genomach znacznie przyspieszy identyfikację i wykorzystanie nowych i użytecznych alleli do ulepszania roślin.

Dzięki ciągłym wysiłkom trwającym ponad 40 lat, CIMMYT wyselekcjonował i wypuścił ponad 500 linii wsobnych kukurydzy (z których większość jest tropikalna i subtropikalna). Zostały one wybrane z puli i populacji wysoce zmiennej plazmy zarodkowej, w tym ras lądowych z całej Ameryki Łacińskiej, a także zmieszano niektóre plazmy zarodkowe z populacji umiarkowanych. Przeprowadzono już badania mające na celu zbadanie różnorodności niektórych wybranych linii wsobnych [4]–[6], [13] przy użyciu markerów SSR, ale większe badanie linii wsobnych kukurydzy CIMMYT w porównaniu z liniami z innych programów hodowlanych pozwoliłoby lepsze oszacowanie, w jaki sposób publiczne linie hodowlane kukurydzy są powiązane i uzupełniają się nawzajem. W tym badaniu zastosowaliśmy niestandardowy test 1536 SNP GoldenGate, aby genotypować kolekcję linii wybranych do reprezentowania globalnej różnorodności kukurydzy dostępnej w publicznych programach hodowli kukurydzy. Kolekcja obejmuje 351 linii wybranych z panelu mapowania skojarzeń tropikalnych (zawierającego CIMMYT i inne linie hodowlane programu publicznego) oraz 281 linii z panelu mapowania skojarzeń, w większości o umiarkowanym klimacie (dobrze scharakteryzowane we wcześniejszych badaniach [15]–[17]). W obu panelach znajduje się dwadzieścia jeden wierszy CML o tej samej nazwie. CML zostały opracowane w CIMMYT, więc oryginalne genotypy trafiły do ​​pierwszego panelu wymienionego powyżej, a te linie zostały przywiezione przez prof. To było źródło CML w drugim panelu wymienionym powyżej.Celem tego badania było: 1) oszacowanie zróżnicowania w ramach globalnej kolekcji kukurydzy 2) porównanie zróżnicowania pomiędzy umiarkowanymi i tropikalnymi plazmami zarodka 3) analiza struktury populacji i względnego pokrewieństwa 4) zbadanie nierównowagi sprzężeń i tego, jak podział odnosi się do chromosomów, niewielkie częstość alleli (MAF), wielkość próbki i podgrupa o różnym pochodzeniu geograficznym 5) określić, ile linii musi znaleźć się w zestawie podstawowym, aby uchwycić co najmniej 90% różnorodności alleli obecnej w całej kolekcji oraz 6) weryfikację tożsamości genetycznej różne źródła nasion o tej samej nazwie przy użyciu markerów SNP.


Wyniki

Analizy wstępne

Wstępne analizy wykazały, że po pierwsze, średnie szacunki LD dla całego genomu były wyższe dla regionów genowych niż międzygenowych dla obu skorygowanych o odległość r 2 (sparowany T-test: T1,51 = 38.45, P < 0,001) oraz korelacja zygotyczności–Δ (T1,105 = 8.17, P <0,001). Po drugie, analiza HMM nie zidentyfikowała żadnego rozszerzonego obszaru zwiększonej LD w żadnej populacji. Chociaż nasze badane regiony były rozsiane po całym genomie (rys. S2), niektóre potencjalne wyspy o niskiej rekombinacji mogły nie zostać uwzględnione, ponieważ skupiliśmy się na regionach z minimalną liczbą miejsc polimorficznych. Wattersona θ wśród 9 285 genów uwzględnionych w naszym badaniu była rzeczywiście średnio wyższa niż wśród wszystkich innych genów (sparowane T-test: T1,51 = 25.62, P < 0,001, średnia różnica θ: 0,002). Po trzecie, LD oszacowane przez średnią r 2 z danych puli-seq i LD oszacowane przez średnią Δ były istotnie skorelowane (regiony genowe: ρ = 0.716, T1,51 = 7.25, P <0,001 regiony międzygenowe: ρ = 0.719, T1,51 = 7.32, P <0,001, S4 rys.).

Szybkości rekombinacji oszacowane na podstawie danych z sekwencji puli przez ReLERNN różniły się w obrębie genomu A. lirata, ale zmniejszył się w większości przypadków w kierunku centromerów (ryc. S5A). Korelacja między LD skorygowaną o odległość a rekombinacją w obrębie każdej populacji nie była jednak silna (geniczna: zakres ρ 0,017–0,076 międzygenowy: zakres ρ 0,017–0,033 S5B rys.).

Czynniki wpływające na nierównowagę sprzężeń w całym genomie: Pool-seq

LD z korekcją odległości dla całego genomu (r 2) oszacowane na podstawie danych z puli-seq były silnie związane z odległością rozszerzenia zakresu i przesunięciem w systemie kojarzenia z krzyżowania na samozapylenie zarówno dla części genowej, jak i międzygenowej genomu (tabela 1, ryc. 1 i s6, ryc.). Przewidywany przez model względny wzrost LD pomiędzy najkrótszą i najdłuższą odległością ekspansji wyniósł 509% dla regionów genowych i 78% dla regionów międzygenowych. Przewidywany przez model względny wzrost LD między populacją najbardziej niewsobną a najbardziej wsobną wyniósł 637% dla regionów genowych i 130% dla regionów międzygenowych. Co więcej, LD zmniejszyło się wraz z niższą gęstością genów o 141% dla regionów genowych, dla których gęstość genów została oszacowana jako średnia odległość między sąsiednimi genami. Zgodnie z tym, LD zmniejszyła się wraz z niższą gęstością genów o 395% dla regionów międzygenowych, dla których gęstość genów odzwierciedlała wielkość odpowiedniego regionu. Wreszcie klaster genetyczny miał istotny wpływ tylko na regiony międzygenowe (tabela 1).

Dla skorygowanej odległości r Jak oszacowano między SNP z adnotacjami, LD ponownie znacząco wzrosła wraz z odległością ekspansji i systemem kojarzenia, podczas gdy zmniejszała się wraz ze zmniejszaniem się gęstości genów (Tabela 2). Co ważne, zarówno rodzaj par SNP, jak i interakcja między typami par SNP z odległością ekspansji i systemem kojarzenia były istotne (tab. 2). Model wskazał, że LD wzrosła dla wszystkich trzech typów par SNP w kierunku marginesów zakresu (Ryc. 2A) i wraz ze wzrostem chowu wsobnego (Ryc. 2B), ale efekt był mniej silny w przypadku oszacowań LD obejmujących dwa szkodliwe SNP. W przeciwieństwie do tego, LD między parami tolerowanych SNP wzrosła w podobnym stopniu wraz z odległością ekspansji, jak między szkodliwym i tolerowanym SNP, ale w mniejszym stopniu z systemem kojarzenia. Ponadto analizy na poziomie populacji potwierdziły związek między LD, dryfem i obciążeniem. Średnia LD dla całego genomu (r 2) zarówno dla regionów genowych, jak i międzygenowych wzrosła wraz ze spadkiem współczynnika Wattersona θ o porównywalne wielkości (geniczne: ρ = 0.727, T1,51 = 7.49, P < 0,001 międzygenowy: ρ = 0.744, T1,51 = 7.86, P <0,001 Rys. 3A). Co więcej, LD zarówno dla regionów genowych, jak i międzygenowych wzrastało wraz ze wzrostem obciążenia mutacyjnego (PnFn/PsFs) (geniczny: ρ = 0.636, T1,51 = 5.83, P < 0,001 międzygenowy: ρ = 0.637, T1,51 = 5.84, P <0,001, rys. 3B).

Efekty krańcowe dla interakcji LD (r 2) oszacowano na podstawie sekwencji puli pomiędzy wariantami, które zostały zidentyfikowane przez SIFT jako zarówno szkodliwe, szkodliwe i tolerowane, lub oba tolerowane, a odległość ekspansji (km, skala logarytmiczna) (A) i system kojarzeń (FJEST) (B). Linie regresji i ich 95% przedziały ufności oszacowano na podstawie liniowego modelu efektów mieszanych (patrz Tabela 2).

Związek między theta Wattersona (θ) (A), ładunek mutacyjny (B) i średnia nierównowaga sprzężeń w całym genomie (LD, skorygowana o odległość r 2 między parami SNP). Ładunek mutacyjny oszacowano jako iloczyn niesynonimicznych miejsc polimorficznych (Pn) i ich średnia pochodna częstość alleli (Fn) podzielone przez analogiczny iloczyn, ale dla synonimicznych miejsc polimorficznych (PsFs). Każdy symbol reprezentuje średnie oszacowanie populacji. Symbole otwarte i wypełnione to szacunki genomowe odpowiednio dla regionów międzygenowych i genowych. Koła reprezentują populacje z zachodu, trójkąty ze wschodu. Kolor symbolu wskazuje system kojarzeń: krzyżowanie (czarny), kojarzenie mieszane (różowy) i samozapylenie (czerwony). Przewidywane przez model linie regresji są pokazane dla regionów międzygenowych (linia przerywana) i genowych (linia ciągła).

Dla każdego efektu stałego oszacowanie modelu (β), a także statystyki chi-kwadrat (χ 2 ) z powiązanymi P wartość z typu III Wald χ 2 testy. Wyświetlane są tylko wyniki dla efektów stałych.

Czynniki napędzające nierównowagę sprzężeń w całym genomie: Indywidualne genomy

Stopień, w jakim rozwija się LD oszacowany przez skalowaną korelację zygotyczności (Δ) różnił się w poszczególnych populacjach (ryc. 1C i 1D): logarytm10-transformated Δ osiągnęło wartość 0,1 przy średnio 4637 pz (zakres: 1168–16601 pz) dla regionów genowych i średnio 1,129 pz (zakres: 259–3191) dla regiony międzygenowe. Zgodnie z tym zakres, w którym Δ osiągnęło 0,1, różnił się średnio o 3,509 pz między regionami genowymi i międzygenowymi (sparowane T-test: T1,105 = 12,85 95%CI: 2’967–4’050) i wzrastała wraz z odległością poszerzenia zasięgu i przestawieniem systemu kojarzeń na samozapylenie (tab. 1). Klaster genetyczny był istotny tylko dla regionu międzygenowego (tabela 1), gdzie LD rozciągał się na dłuższe zakresy w klastrze zachodnim.

Modele statystyczne prowadzone oddzielnie dla każdego odstępu odległości pz między wariantami regionów genowych wskazywały, że rozszerzenie zasięgu wpłynęło Δ konsekwentnie w ciągu pierwszych 16,0 kb z tylko czterema wyjątkami (Panel B na ryc. S7) pierwsze 23,3 kb (Panel C na rys. S7). W przypadku regionów międzygenowych rozszerzenie zasięgu wpłynęło konsekwentnie na Δ przez pierwsze 2,3 kb (panel E na ryc. S7) i system kojarzeń przez pierwsze 4,4 kb (panel F na ryc. S7). Chociaż klaster genetyczny nie wpłynął znacząco na Δ dla regionów genowych, to zrobił to dla regionów międzygenowych, jednak nie konsekwentnie na długich odcinkach (Panele A i D na ryc. S7). Na przykład w odległości 1000 bps tylko ekspansja zasięgu i system kojarzenia wykazały znaczący wpływ na Δ zarówno dla regionów genowych, jak i międzygenowych (Tabela 1).

Geny, na które prawdopodobnie wpłynie rozszerzenie zasięgu i zmiana systemu kojarzeń

Analizy specyficzne dla genów LD skorygowanej o odległość ujawniły 271 i 23 geny (2,9% i 0,2% wszystkich badanych genów) istotnie związane, odpowiednio, z odległością ekspansji i systemem kojarzenia, po korekcie współczynnika fałszywego wykrywania (FDR). Tylko gen bez adnotacji AL1G48560 nakładały się między dwoma zestawami genów (tabele S2 i S3) i tylko dla AL2G23990 stwierdzono istotną interakcję między dwoma predyktorami. Łącznie 190 i 11 genów z adnotacjami było powiązanych z 396 i 42 unikalnymi terminami GO z odpowiednio rozszerzeniem zakresu i systemem kojarzenia, gdzie 26 terminów GO nakładało się między dwoma zestawami danych (tabele S2 i S3). Osiem genów i 12 terminów GO określających odległość ekspansji zostało powiązanych z rozkwit lub fotoperiod, w tym gen AL4G42150, homolog FPA w A. thaliana w którym reguluje czas kwitnienia [76]. Niektóre inne geny rozszerzające zasięg były związane z stres abiotyczny (6 genów, 8 GO), wzrost lub dojrzewanie (5 genów, 12 GO), korzenie (4 geny, 10 GO) i trichomy (3 geny, 2 GO). W przypadku systemu kojarzenia jeden termin GO był powiązany z rozpoznawanie pyłków, związany z genem AL7G32710, który jest homologiem do ARK3 który flankuje region locus samoniezgodności w A. lirata [77]. Podczas zmiany w LD na AL7G32710 był silnie związany ze zmianą systemu kojarzeń (χ 2 = 15,12, P < 0,001 Rys 4), rozszerzenie zakresu nie miało na niego wpływu (χ 2 = 0,26, P = 0,611). Dalsze analizy wykazały, że gen, który flankuje locus samoniezgodności po drugiej stronie (AL7G32750 lub Ubox) był nieco związany z systemem kojarzeń (ryc. 4 χ 2 = 5,72, P = 0,017, nieistotne po FDR), ale nie z rozszerzeniem zakresu (χ 2 = 0,38, P = 0.535).

Związek między średnią nierównowagą sprzężenia (LD, skorygowana o odległość r 2 między parami SNP) w dwóch genach flankujących locus samoniezgodności i system kojarzenia, wyrażony przez współczynnik inbredu populacji (FJEST): AL7G32710-ARK3 (A) i AL7G32750-Ubox (B). Każdy symbol reprezentuje średnie oszacowanie populacji. Typ symbolu odzwierciedla klastry genetyczne (kółko dla zachodu, trójkąt dla wschodu) oraz kolor symbolu systemu kojarzeń: krzyżowanie (czarny), kojarzenie mieszane (różowy) i samozapylenie (czerwony). Odnotowano istotność wpływu odległości ekspansji i systemu kojarzenia, z oddzielnych modeli liniowych na dane dla każdego genu. Dla genu AL7G32750-Ubox w B, związek z systemem kojarzeń nie był znaczący po korekcie fałszywego odkrycia.

Geny odstające dla odległości ekspansji miały niewielką, ale znacznie mniejszą różnorodność genetyczną w porównaniu z genami nieodbiegającymi (Δθ = 0,0002 sparowany T-test: T1,51 = 14.10, P < 0,001 Fig 5), zgodnie z potencjalną ogólną sygnaturą wyboru kierunkowego. W przeciwieństwie do tego, geny odstające dla systemu kojarzenia uległy znacznemu zwiększeniu θ w porównaniu z genami nieodbiegającymi (Δθ = 0,0038 sparowany T-test: T1,51 = 29.30, P < 0,001 Fig 5), zgodny z potencjalnym sygnałem ogólnym wyboru równoważenia.

Każdy symbol reprezentuje średnie oszacowanie populacji. Typ symbolu odzwierciedla klaster genetyczny (kółko dla zachodu, trójkąt dla wschodu) i kolor symbolu systemu kojarzeń: krzyżowanie (czarny), kojarzenie mieszane (różowy) i samozapylenie (czerwony). Słupki przedstawiają różnicę w średniej różnorodności genetycznej między genami nieodbiegającymi a genami odstającymi związanymi z odległością ekspansji (zielony) lub systemem kojarzenia (niebieski).


5. Dyskusja

Wartości r 2 i r 1r 2 z symulacji komputerowych dość dobrze zgadzały się z oczekiwaniami, gdy populacje zostały założone z allelami o centralnych częstotliwościach w obu loci. Zgoda była gorsza w przypadku populacji założonych z jednym lub obydwoma loci mającymi jeden allel o niskiej częstotliwości. Symulacja z mieszaniną częstości generowanych przez model mutacji ograniczonych do wysokiej wartości MAF przed separacją, MAF=0,3, wykazała poziomy zgodności niewiele różniące się od centralnej symulacji częstotliwości.

W obecnej metodzie LIBD nie można uwzględnić fiksacji jednego lub więcej alleli. Prawdopodobieństwo LIBD nie uwzględnia częstości alleli i obejmuje populacje stałe i nieustalone. Natomiast oszacowania LD przy użyciu r lub r 2 nie może uwzględniać populacji, w których wystąpiła fiksacja. Ponadto w procesie utrwalania występują oczywiste błędy. Ponieważ LD powstaje w wyniku fluktuacji częstości alleli, populacje, w których takie fluktuacje są bardziej ekstremalne, a zatem gdzie fiksacja może występować wcześniej, są również populacjami, w których spodziewany jest wysoki poziom LD. Sved . omówił również inny rodzaj „błędu fiksacji”. i in. (Odniesienie Sved, McRae i Visscher 2008). Efekty te mogą być odpowiedzialne za rozbieżność w narastaniu LD od r 2 = 0 widoczne dla symulacji z niskim MAF na Rys. 2. Jak wspomniano wcześniej, fiksacja nie może wyjaśnić wszystkich rozbieżności.

Oczekuje się, że wybór konkretnych kombinacji genów będzie miał duży wpływ na szacunki migracji. Jakakolwiek siła selekcyjna faworyzująca poszczególne kombinacje alleli będzie miała tendencję do wpływania na wartości r na różnych wyspach w ten sam sposób. Wartości rirJ będzie zatem zawyżone, a podobnie szacunki m jeśli ten efekt nie zostanie rozpoznany.

Kolejnym czynnikiem, który należy wziąć pod uwagę, jest możliwość heterogenicznych próbek. W obliczeniach niniejszej pracy przyjęto prostą strukturę wysp, w obrębie których kojarzenie odbywa się losowo. Jeśli struktura podzielonej populacji jest mniej dobrze zdefiniowana, może nie być możliwe rozpoznanie wkładu wewnątrz wysp i między wyspami. Nei & Li (odniesienie Nei i Li 1973) oraz Feldman & Christiansen (odniesienie Feldman i Christiansen 1974) zwrócili uwagę, że jeśli próbka zawiera wkłady ze źródeł heterogenicznych, to niektóre LD zostaną znalezione, niezależnie od tego, czy istnieją w losowych regionach kojarzenia . Taka LD nie przetrwa przez pokolenia, chyba że dokładnie te same regiony zostaną połączone w kolejnych próbach. Taka heterogeniczność próbki powinna być również wykrywalna na poziomie poszczególnych locus poprzez odejście od oczekiwań Hardy'ego-Weinberga.

Należy również podkreślić różnice w wartościach pomiędzy różnymi próbkami. Obserwowane wartości na rys. 2 i 3 oparte są na średnich z wielu tysięcy powtórzonych symulacji. Wszelkie szacunkowe wartości parametrów migracji i efektywnej wielkości populacji z pojedynczego zbioru populacji mogą zatem mieć wyjątkowo wysokie błędy standardowe.

(i) Porównanie z poprzednimi badaniami

Trzy wcześniejsze badania dotyczyły LD w podzielonych populacjach (Ohta, Reference Ohta 1982a, Referencje Ohta b Tachida & Cockerham, Referencyjny Tachida i Cockerham 1986 Vitalis & Couvet, Referencyjny Vitalis and Couvet 2001a, Referencyjny Vitalis i Couvet b). Ohta wprowadziła zakres parametrów LD wewnątrz i pomiędzy populacjami przez analogię do notacji IS, IT, ST wprowadzonej przez Wrighta (Referencja Wright 1931) w celu pomiaru inbredu w sposób hierarchiczny. Wprowadzono pięć parametrów, w tym D JEST 2 pomiar LD w populacjach i D TO 2 , D NS 2 , D NS ′2 i D NS ′2, mierząc różne poziomy odejścia haplotypów i częstości genów w obrębie populacji w porównaniu z ogólnymi częstościami haplotypów i genów.

Tachida i Cockerham (Referencja Tachida i Cockerham 1986) wprowadzili bardziej systematyczny zestaw parametrów. Rozważyli geny na tej samej gamecie, geny na różnych gametach w obrębie osobnika, geny na różnych osobnikach w obrębie demu oraz geny na różnych demach w tej samej populacji. Pochodne zakładały model Wrighta-Fishera, w którym nie ma rozróżnienia między genami u tej samej osoby i genami u różnych osób w ramach tego samego demu. Jak w Ohta (odniesienie Ohta 1982a, Referencje Ohta b), wyprowadzono oczekiwania dla przypadku równowagi w modelu obejmującym mutację, migrację i rekombinację.

Sformułowanie niniejszej pracy różni się od sformułowania Ohta (odniesienie Ohta 1982).a, Referencje Ohta b) oraz Tachida & Cockerham (Referencja Tachida i Cockerham 1986) w typach populacji i modelach mutacji. Te ostatnie badania odnoszą się do długoterminowych opisów populacji. Ohta rozważał model dla przeszłej ewolucji człowieka, zakładając strukturę populacji 200 subpopulacji o wielkości 100, ze znacznym poziomem migracji i zastępowaniem subpopulacji po wyginięciu. Model zakładał wysoki wskaźnik mutacji do nowych alleli. Z kolei niniejsze badanie jest zorientowane na migrację pomiędzy obecnymi populacjami ludzkimi. Uwzględnia poziom LD w obrębie populacji i pomiędzy populacjami, począwszy od podziału na arbitralnych poziomach LD, w odstępach czasu wystarczająco ograniczonych, aby mutacja nie odgrywała żadnej roli. Chociaż równania mają proste rozwiązania w stanie ustalonym, ich zastosowanie jest ograniczone w przypadku, gdy okresy czasu są wystarczająco długie, aby mutacja miała znaczenie.

Miara międzypopulacyjna w niniejszym badaniu, rirJ, różni się również od miar międzypopulacyjnych z poprzednich badań. Chociaż używa korelacji r wartości zamiast D wartości tych badań, odpowiadające Di DJ statystyka nie pojawia się wyraźnie w ich miarach. Jednak w modelu z dużą liczbą populacji oczekiwanie Di DJ jest w przybliżeniu równa demicznej miary LD Tachida i Cockerham (odniesienie Tachida i Cockerham 1986).

Model wprowadzony przez Vitalis & Couvet ( Referencje Vitalis i Couvet 2001)a, Referencyjny Vitalis i Couvet b) jest podobny do modelu Tachidy i Cockerhama (Referencja Tachida i Cockerham 1986), z tym wyjątkiem, że wprowadza się rozróżnienie między genami u tej samej osoby i genami u różnych osób, co pozwala na uwzględnienie różnych stopni samozapłodnienia. Wyraźne miary LD między populacjami nie są podane w tym sformułowaniu, ponieważ ich oczekiwanie wymagałoby 28 parametrów (Vitalis & Couvet, Reference Vitalis i Couvet 2001a). Autorzy ci rozważają zamiast tego optymalne procedury szacowania n mi oraz m, zakładając model z nieskończenie dużą liczbą subpopulacji. Dodatkowe informacje dostępne z kombinacji parametrów pojedynczego miejsca i dwóch miejsc pozwalają na dokładniejsze oszacowanie n mim w porównaniu z wynikami wynikającymi z zastosowania równań (14) i (15), które uwzględniają tylko dwumiejscowe miary rozwoju lokalnego.

(ii) Zastosowanie do populacji ludzkich

Równania rekurencyjności zastosowano do oszacowania czasu dywergencji populacji ludzkich (ryc. 4), wykorzystując dane z afrykańskich (YRI) i nieafrykańskich (CEU) populacji Hapmap. Podstawowym wnioskiem z tej analizy jest to, że rozbieżność między populacjami jest trudna do wyjaśnienia bez wywołania pewnej wymiany genów między populacjami. Wyniki najlepiej zgadzają się z modelem, w którym ta wymiana genów miała miejsce w przeszłości, a nie niedawno.

Należy zauważyć, że taka wymiana genów nie musi być bardzo duża, zanim przekroczy czas separacji jako czynnik determinujący rozbieżność populacji w wartościach LD. Wniosek dotyczący wymiany genów z niniejszej pracy jest podobny do propozycji wielokrotnych migracji i migracji wstecznych sugerowanej przez Templetona (Reference Templeton 2002) z analiz pojedynczego locus. Ramy czasowe rozważane w niniejszym opracowaniu są jednak znacznie krótsze. Obliczenia z rys. 4 oparte są na założeniu, że rzeczywisty czas oddzielenia wynosi około 0,06 miliona lat, w przeciwieństwie do czasów separacji sugerowanych przez Templetona sięgających i powyżej 1 miliona. Przy uzgadnianiu tych szacunków należy zatem pamiętać, że analiza rozwoju lokalnego w obecnym artykule jest bardzo wrażliwa na niski poziom migracji. Skoro migracja została przywołana jako czynnik ograniczający rozbieżność wartości LD, nie można wykluczyć, że czasy separacji będą znacznie dłuższe niż 0,06 Myr.

Jestem wdzięczny za rady i zachęty Billa Hilla przez wiele lat w dyskusjach na temat teorii LD, szczególnie w pisaniu niniejszego artykułu. Jestem również wdzięczny Eugeniuszowi Senecie za jego sugestie dotyczące możliwych alternatywnych podejść. Hidenori Tachida, Peter Visscher, Maria Luisa Castro i anonimowy recenzent przedstawili cenne sugestie dotyczące ulepszeń w artykule.