Informacja

SNP w ludzkim genomie

SNP w ludzkim genomie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Czytałem w Internecie, że znaleźli około 10 milionów polimorfizmów pojedynczego nukleotydu (SNP) u osobników w ludzkim genomie [1]. Jednak liczba ta obejmuje wszystkie SNP znalezione u wszystkich osób, z których pobrano próbki i nie mówi nam wiele o SNP u żadnej osoby.

Zamiast tego zastanawiałem się, ile SNP ma średnio u jednej osoby. Miałem problem ze znalezieniem wiarygodnych dowodów na to pytanie.


Zastanawiałam się, ile SNP ma średnio u jednej osoby

SNP to polimorfizm w populacji, nie jest to rzecz, którą może przenosić haplotyp. Każdy osobnik ma dany wariant dla dowolnego danego SNP (z wyjątkiem przypadków delecji sekwencji).

Można jednak powiedzieć, ile SNP ma osobnik diploidalny pomiędzy dwoma haplotypami, ale wątpię, aby to było w tym miejscu. Wzór Samplingu Ewensa daje oczekiwanie i dystrybucję w modelu nieskończonych alleli, populacji panmiktycznej i braku selekcji.

Inne statystyki, które mają sens, obejmują średnią liczbę szkodliwych mutacji przed osobnikiem lub kilka innych rzeczy lub liczbę nowych mutacji, które para przekazuje swojemu potomstwu… Ale pytanie, ile SNPs nosi przeciętnie osoba, nie ma sensu.

Zauważ, jak powiedział @Chris, stwierdzając 10 000 SNP w ludzkim genomie, wydaje się, że nie doceniasz liczby SNP.

EDYTOWAĆ

W komentarzach dalej

Czy bardziej sensowne byłoby rozważenie przybliżonego minimum i maksimum?

Odpowiedź brzmi nie, nie miałoby to większego sensu. Rozważ definicję SNP według wikipedii

Polimorfizm pojedynczego nukleotydu, często skracany do SNP (wymawiane snip; plural snips), to odmiana pojedynczego nukleotydu, która występuje w określonej pozycji w genomie, gdzie każda odmiana jest obecna w pewnym stopniu w populacja [Mój nacisk]

Termin populacja jest tutaj kluczowy. Pojęcie SNP (lub bardziej ogólnie polimorfizmu) ma sens tylko wtedy, gdy można dokonać porównań. Pojedynczy osobnik nie ma żadnego polimorfizmu (z wyjątkiem jednego pomiędzy jego dwoma zestawami chromosomów).

Jeśli cofniemy się i pomyślimy o różnych gatunkach, może to stać się bardziej intuicyjne. Pomyśl o liczbie różnic w parach między dwoma gatunkami. Nie ma sensu pytać "ile par różnic jest między płetwalem błękitnym?" Musisz powiedzieć „ile par różnic jest między płetwalem błękitnym a wilkiem”. Podobnie, nie można powiedzieć „Ile SNP jest 'pomiędzy pojedynczym osobnikiem'” (z wyjątkiem ponownego rozważenia różnic między dwoma zestawami chromosomów), musisz wziąć pod uwagę grupę osób.


Udało mi się znaleźć tylko jedno źródło, które stwierdziło, że każdy genom zawiera 1 SNP co 1000 pz. (Spójrz tutaj). Jednak nie mam pojęcia, czy to źródło jest wiarygodne


Twoja liczba jest zbyt niska, projekt 1000 genomów wymienia około 15 milionów SNP (patrz odnośnik 1). Aby dowiedzieć się, ile SNPs mają przeciętnie ludzie (to oczywiście zależy od populacji, gdzie może się to różnić), często okazuje się, że średnio 1 na 1000 nukleotydów jest zmieniony, jeśli porównasz dwa ludzkie genomy (lub odwrotnie: są w 99,9% identyczne).

Problem z tą liczbą polega na tym, że jest ona dość stara i można ją prześledzić wstecz do publikacji z 1991 r. (patrz odnośnik 2), w której porównano 75 000 sekwencji nukleotydów z 49 loci. Ponieważ było to przed poznaniem pełnej sekwencji ludzkiego genomu, traktowałbym tę liczbę z pewną ostrożnością.

Najnowszy numer, jaki znalazłem na ten temat, pochodzi z publikacji ludzkiego genomu. Szacują, że liczba jest nieco niższa, około 1 na 1300 zasad (patrz odnośnik 3).

To, co można zrobić z danymi z projektu 1000 Genomów, to pobrać dane z poszczególnych próbek, zmapować je z genomem referencyjnym i zobaczyć, ile SNP występuje na osobę. Nie jestem pewien, czy nikt tego nie zrobił, czy po prostu to przeoczyłem.

W oparciu o te dane, w każdym ludzkim genomie znajduje się od 2,3 do 3 milionów SNP (odpowiednio 1:1000 lub 1:1300). Według projektu 1000 Genomów (odnośnik 1), wskaźnik nowo pojawiających się SNP wynosi $1 imes 10^{-8}$, co oznacza, że ​​na pokolenie pojawia się od 20 do 30 nowych SNP.

Bibliografia:

  1. Mapa zmienności ludzkiego genomu na podstawie sekwencjonowania w skali populacji
  2. Niska różnorodność nukleotydów u człowieka.
  3. Wstępne sekwencjonowanie i analiza ludzkiego genomu.

Wykrywanie niedawnej selekcji pozytywnej w ludzkim genomie na podstawie struktury haplotypu

Zdolność do wykrywania niedawnej selekcji naturalnej w populacji ludzkiej miałaby głębokie implikacje dla badania historii ludzkości i medycyny. Tutaj przedstawiamy strukturę do wykrywania genetycznego śladu niedawnej pozytywnej selekcji poprzez analizę haplotypów dalekiego zasięgu w populacjach ludzkich. Najpierw identyfikujemy haplotypy w interesującym miejscu (haplotypy rdzeniowe). Następnie oceniamy wiek każdego haplotypu rdzeniowego przez zanik jego asocjacji z allelami w różnych odległościach od locus, mierzony przez homozygotyczność rozszerzonego haplotypu (EHH). Haplotypy rdzeniowe, które mają niezwykle wysoki EHH i wysoką częstość populacji, wskazują na obecność mutacji, która wzrosła w puli genów człowieka szybciej niż oczekiwano w ewolucji neutralnej. Zastosowaliśmy to podejście do zbadania selekcji w dwóch genach niosących wspólne warianty związane z odpornością na malarię: G6PD 1 i ligand CD402. W obu loci, haplotypy rdzeniowe niosące proponowaną mutację ochronną wyróżniają się i wykazują istotne dowody selekcji. Ogólnie rzecz biorąc, metoda ta może być wykorzystana do skanowania całego genomu w poszukiwaniu dowodów niedawnej selekcji pozytywnej.


SNP w genomie człowieka - Biologia

SNP: WARIANTY NA TEMAT

Czy nie byłoby wspaniale, gdybyś dokładnie wiedział, jakie środki możesz podjąć, aby powstrzymać, a nawet zapobiec wystąpieniu choroby? Czy nie byłoby ulgą wiedzieć, że nie jesteś uczulony na leki przepisane przez lekarza? Czy nie byłoby pocieszające wiedzieć, że schemat leczenia, który przechodzisz, ma duże szanse powodzenia, ponieważ został zaprojektowany specjalnie dla Ciebie? Dzięki niedawnym zbiorom ponad 1 miliona SNP badacze biomedyczni uważają, że tak ekscytujące postępy w medycynie nie są tak odległe.

Czym są SNP i jak je znaleźć?

A Polimorfizm pojedynczego nukleotydulub SNP (wymawiane „snip”) to niewielka zmiana genetyczna lub odmiana, która może wystąpić w sekwencji DNA osoby. Kod genetyczny jest określony przez cztery nukleotyd „litery” A (adenina), C (cytozyna), T (tymina) i G (guanina). Zmienność SNP występuje, gdy pojedynczy nukleotyd, taki jak A, zastępuje jedną z pozostałych trzech liter nukleotydowych – C, G lub T.

Przykładem SNP jest zmiana segmentu DNA AAGGTTA na ATGGTTA, gdzie drugie „A” w pierwszym fragmencie jest zastąpione przez „T”. Średnio SNPs występują w populacji ludzkiej przez ponad 1 procent czasu. Ponieważ tylko około 3 do 5 procent sekwencji DNA danej osoby koduje produkcję białek, większość SNP znajduje się poza „sekwencjami kodującymi”. SNP znalezione w sekwencji kodującej są szczególnie interesujące dla badaczy, ponieważ jest bardziej prawdopodobne, że zmieniają biologiczną funkcję białka. Ze względu na ostatnie postępy w technologii, w połączeniu z wyjątkową zdolnością tych odmian genetycznych do ułatwiania identyfikacji genów, nastąpiła niedawna lawina odkryć i wykrywania SNP.

Znalezienie zmian pojedynczych nukleotydów w ludzkim genomie wydaje się zniechęcającą perspektywą, ale w ciągu ostatnich 20 lat naukowcy biomedyczni opracowali szereg technik, które właśnie to umożliwiają. Każda technika wykorzystuje inną metodę do porównywania wybranych regionów sekwencji DNA uzyskanych od wielu osób, które mają wspólną cechę. W każdym teście wynik pokazuje fizyczną różnicę w próbkach DNA tylko wtedy, gdy SNP zostanie wykryty u jednej osoby, a nie u drugiej.

Wiele powszechnych chorób u ludzi nie jest spowodowanych zmiennością genetyczną w obrębie jednego genu, ale mają na nie wpływ złożone interakcje między wieloma genami, a także czynniki środowiskowe i styl życia. Chociaż zarówno czynniki środowiskowe, jak i związane ze stylem życia znacznie zwiększają niepewność rozwoju choroby, obecnie trudno jest zmierzyć i ocenić ich ogólny wpływ na proces chorobowy. Dlatego odnosimy się tutaj głównie do osób genetyczne predyspozycjelub potencjał jednostki do rozwoju choroby w oparciu o geny i czynniki dziedziczne.

Czynniki genetyczne mogą również decydować o podatności lub odporności na chorobę oraz determinować ciężkość lub progresję choroby. Ponieważ nie znamy jeszcze wszystkich czynników związanych z tymi skomplikowanymi ścieżkami, naukowcom trudno było opracować testy przesiewowe dla większości chorób i zaburzeń. Badając odcinki DNA, w których stwierdzono obecność SNP związanego z cechą choroby, naukowcy mogą zacząć odkrywać odpowiednie geny związane z chorobą. Zdefiniowanie i zrozumienie roli czynników genetycznych w chorobie pozwoli również naukowcom na lepszą ocenę roli czynniki niegenetyczne-takich jak zachowanie, dieta, styl życia i aktywność fizyczna - mają chorobę.

Ponieważ czynniki genetyczne wpływają również na odpowiedź osoby na terapię lekową, Polimorfizmy DNA takie jak SNP będą przydatne w pomaganiu naukowcom w ustaleniu i zrozumieniu, dlaczego poszczególne osoby różnią się pod względem zdolności do wchłaniania lub usuwania niektórych leków, a także w ustaleniu, dlaczego dana osoba może odczuwać niepożądane skutki uboczne danego leku. Dlatego niedawne odkrycie SNP może zrewolucjonizować nie tylko proces wykrywania chorób, ale także praktykę medycyny prewencyjnej i leczniczej.

SNP i diagnostyka chorób

Materiał genetyczny każdej osoby zawiera unikalny wzór SNP, który składa się z wielu różnych odmian genetycznych. Naukowcy odkryli, że większość SNP nie jest odpowiedzialna za stan chorobowy. Zamiast tego służą jako markery biologiczne do wskazywania choroby na mapie ludzkiego genomu, ponieważ zwykle znajdują się w pobliżu genu, który jest powiązany z określoną chorobą. Czasami SNP może faktycznie wywołać chorobę i dlatego może być używany do wyszukiwania i izolowania genu wywołującego chorobę.

Aby stworzyć test genetyczny, który będzie badał chorobę, w której gen wywołujący chorobę został już zidentyfikowany, naukowcy pobierają próbki krwi od grupy osób dotkniętych chorobą i analizują ich DNA pod kątem wzorców SNP. Następnie naukowcy porównują te wzorce z wzorcami uzyskanymi poprzez analizę DNA grupy osób nie dotkniętych chorobą. Ten rodzaj porównania, zwany „badanie stowarzyszenia” może wykryć różnice między wzorcami SNP obu grup, wskazując tym samym, który wzorzec jest najprawdopodobniej związany z genem wywołującym chorobę. Ostatecznie zostaną ustalone profile SNP, które są charakterystyczne dla różnych chorób. będzie kwestią czasu, zanim lekarze będą mogli przebadać osoby pod kątem podatności na chorobę, po prostu analizując ich próbki DNA pod kątem określonych wzorców SNP.

SNP i rozwój leków

Jak wspomniano wcześniej, SNP mogą być również związane z absorbancją i klirensem środków terapeutycznych. Obecnie nie ma prostego sposobu na określenie, jak pacjent zareaguje na dany lek. Leczenie, które okazało się skuteczne u jednego pacjenta, może być nieskuteczne u innych. Co gorsza, u niektórych pacjentów może wystąpić niepożądana reakcja immunologiczna na dany lek. Dziś firmy farmaceutyczne ograniczają się do opracowywania środków, na które zareaguje „przeciętny” pacjent. W rezultacie wiele leków, które mogą przynieść korzyści niewielkiej liczbie pacjentów, nigdy nie trafia na rynek.

W przyszłości najodpowiedniejszy lek dla danej osoby będzie można określić przed rozpoczęciem leczenia, analizując profil SNP pacjenta. Możliwość kierowania leku do osób, które mogą odnieść największe korzyści, określana jako „medycyna spersonalizowana”, umożliwiłoby firmom farmaceutycznym wprowadzenie na rynek znacznie większej liczby leków i umożliwiłoby lekarzom przepisywanie zindywidualizowanych terapii dostosowanych do potrzeb pacjenta.

Ponieważ SNP występują często w całym genomie i wydają się być względnie stabilne genetycznie, służą jako doskonałe markery biologiczne. Markery biologiczne to segmenty DNA z identyfikowalną fizyczną lokalizacją, które można łatwo śledzić i wykorzystywać do konstruowania mapy chromosomów, która pokazuje położenie znanych genów lub innych markerów względem siebie. Mapy te umożliwiają naukowcom badanie i wskazywanie cech wynikających z interakcji więcej niż jednego genu. NCBI odgrywa ważną rolę w ułatwianiu identyfikacji i katalogowania SNP poprzez jego tworzenie i utrzymywanie publiczna baza danych SNP (dbSNP). To potężne narzędzie genetyczne może być dostępne dla społeczności biomedycznej na całym świecie i ma stymulować wiele obszarów badań biologicznych, w tym identyfikację genetycznych komponentów choroby.

„Przestrzeń odkrywców” NCBI ułatwiająca badania nad SNP

Aby ułatwić wysiłki badawcze, dbSNP NCBI łączy się bezpośrednio z szeregiem narzędzi programowych zaprojektowanych do pomocy w analizie SNP. Na przykład, każdy rekord SNP w bazie danych łączy się z dodatkowymi zasobami w "Przestrzeni Odkryć" NCBI. Zasoby obejmują GenBank — baza danych sekwencji NIH LocusLink — centralny punkt dla genów i powiązanych informacji dbSTS — zasoby NCBI zawierające sekwencje i dane mapowania na krótkich punktach orientacyjnych genomu dane sekwencjonowania ludzkiego genomu oraz PubMed — system wyszukiwania i wyszukiwania literatury NCBI. Rekordy SNP również łączą się z różnymi zewnętrznymi zasobami sojuszniczymi.

Zapewnienie publicznego dostępu do witryny umożliwiającej zakupy w jednym miejscu ułatwia prowadzenie badań naukowych w różnych dziedzinach, od genetyki populacyjnej i biologii ewolucyjnej po badania chorób na dużą skalę i stowarzyszenia leków. Długoterminowa inwestycja w takie nowatorskie i ekscytujące badania obiecuje nie tylko postęp w biologii człowieka, ale także zrewolucjonizuje praktykę współczesnej medycyny.


Metody

Źródło danych

Dane HapMap

Dane HapMap SNPs [18] są pobierane ze strony internetowej HapMap. Zgodnie z mapą LD chromosomu 22, patrz [26], 200 SNP z chromosomu 22 z 4 populacji: mieszkańcy Utah o pochodzeniu z północnej i zachodniej Europy (CEU), Chińczycy Han w Pekinie, Chiny, (CHB), Japończycy w Tokio , Japonia (JPT) i Joruba w Ibadanie w Nigerii (YRI) są wybierane losowo z regionu od 3.44e7𢄣.5e7 kb [27], co pokazuje dużą różnicę pozycji SNP na mapie LD w 4 populacjach. Tutaj mapa LD pokazuje intensywność nierównowagi sprzężeń SNP. Na mapie krzywa “płaska” oznacza, że ​​SNPs są w silnej nierównowadze sprzężeń, tj. rekombinacja między nimi rzadko zachodzi, natomiast krzywa “stroma” oznacza, że ​​rekombinacja występuje często w tej części chromosomu. Próbki są pobierane z CEU (30 trio), CHB (45 niespokrewnionych osób), JPT (45 niespokrewnionych osób), YRI (30 trio rodziców i dorosłych dzieci). Istnieje 90 próbek odpowiednio dla populacji CEU i YRI oraz 45 próbek dla każdej z populacji CHB i JPT. Brakujące dane są traktowane jako kategoria w obliczeniach.

Dane dotyczące choroby Parkinsona

Dane dotyczące SNP choroby Parkinsona opierają się na genotypowaniu całego genomu 270 osób z idiopatycznym przypadkiem choroby Parkinsona (przypadek) i 271 neurologicznie prawidłowymi kontrolami (kontrola) pobranych z Instytutu Badań Medycznych Coriell (http://www.ncbi.nlm .nih.gov/sites/entrez?Db=gap). Genotypowanie przeprowadzono za pomocą testów Illumina Infinium I i Infinium II. Test Illumina Infinium I ocenia 109 365 unikalnych SNP zorientowanych na geny, podczas gdy test Infinium II ocenia 317 511 SNP znaczników haplotypów w oparciu o fazę I międzynarodowego projektu HapMap. Testy Illumina Infinium I i II mają wspólne 18 073 SNP. Zatem kombinacja tych dwóch testów reprezentuje 408 803 unikalnych SNP. W poniższym eksperymencie SNP z brakiem procentowym > 1% we wszystkich próbkach nie są brane pod uwagę. Po odfiltrowaniu brakujących wartości liczba SNP została zmniejszona do 367440.

Skurczona metodologia

Najbliższa centroida skurczu została opracowana do obsługi zestawów danych z mikromacierzy numerycznych. Główna różnica między ekspresją genów a danymi SNP polega na tym, że wartości ekspresji są ciągłe, a SNP kategoryczne [28].

W tym artykule wykorzystujemy ideę skurczu i stosujemy algorytm dla danych kategorycznych SNP, wykorzystując rozkład genotypu mierzący dla obiektów kategorycznych i modów zamiast średnich dla grup. Rozszerzenia te usuną ograniczenia liczbowe dotyczące najbliższej metody skurczenia i umożliwią wykorzystanie procesu klasyfikacji do skutecznego radzenia sobie z zestawami danych kategorycznych SNP obejmujących cały genom.

Pozwolić xij być wartością kategoryczną dla SNP i = 1, 2, …, P i próbki J = 1, 2, …, n. Są K zajęcia i niech Ck być wskaźnikami nk próbki w klasie k. Środek ciężkości i SNP w klasie k definiuje się jako:


Podziękowanie

Jesteśmy wdzięczni pracownikom Whitehead Institute/MIT Center for Genome Research Sequencing Center za wysokoprzepustowe sekwencjonowanie oraz N. Stange-Thomann za wkład w budowę biblioteki. Chcielibyśmy podziękować B. Blumenstiel i R. Lane za budowę biblioteki i walidację SNP oraz M. Molla, L. Friedland, J. Ireland i B. Gilman za pomoc informatyczną. Doceniamy pomocne dyskusje z członkami konsorcjum The SNP Consortium, a także z kolegami z Whitehead/MIT Genome Center. D.A. jest odbiorcą stypendium podoktorskiego Howard Hughes Medical Institute dla lekarzy. C.R.C. jest wspierany przez Fundusz Badań nad Rakiem Fundacji Damona Runyona / Waltera Winchella. Praca ta została przeprowadzona w ramach grantów Wellcome Trust i The SNP Consortium dla E.S.L.


Nowoczesne powiązania kulturowe

Podczas gdy projekty genomu dostarczyły naukowcom spisu genów i informacji o niektórych podstawowych celach, którym służą, niewiele wiadomo na temat tego, w jaki sposób komórki wykorzystują informacje genetyczne, aby funkcjonować jako żywe organizmy. Naukowcy wciąż nie wiedzą, jak funkcjonuje większość genów ani jak geny i kodowane przez nie białka działają razem i ze światem zewnętrznym.

Sekwencje genów i technologia wykorzystywana do ich produkcji przynajmniej zrewolucjonizowały sposób prowadzenia badań z zakresu biologii molekularnej. Przed opracowaniem tych technik naukowcy mogli jednocześnie badać tylko kilka genów lub białek, uzyskując sztuczne i nierealistyczne zrozumienie sposobu funkcjonowania organizmów. Teraz naukowcy mogą zastosować znacznie wspanialsze podejście, badając wszystkie geny istotne dla konkretnego procesu, tkanki, narządu lub guza. Nowa dziedzina znana jako biologia systemów modeluje interakcje tysięcy genów, białek i substancji biochemicznych w celu wytworzenia zjawisk, które zachodzą, aby ożywić organizmy.

Nadrzędnym celem nauki o genomie jest wykreślenie wariacji w sekwencjach DNA, które mogą zwiększać lub zmniejszać ryzyko choroby, oraz określać, jak ludzie reagują na infekcje, toksyny i leki. Jednym z bardziej powszechnych typów zmienności sekwencji jest polimorfizm pojedynczego nukleotydu (SNP), w którym osobniki różnią się sekwencjami DNA pojedynczą zasadą (np. posiadanie adeniny w określonym miejscu zamiast cytozyny). Naukowcy szacują, że ludzki genom zawiera co najmniej 10 milionów SNP, i tworzone są mapy tych miejsc. Ostatecznie ta zmienność będzie skorelowana z ryzykiem choroby i reakcją na środowisko. Naukowcy mają nadzieję, że zbudowanie inwentarza poszczególnych SNP będzie skrótem do identyfikacji regionów DNA powiązanych z chorobami takimi jak rak, choroby serca, cukrzyca, a nawet niektóre rodzaje chorób psychicznych. Nowa mapa SNP może również pomóc w ustaleniu, w jaki sposób zmienność genetyczna wytwarza indywidualne cechy i reakcje na środowisko.


SNP w genomie człowieka - Biologia

1 Department of Physics & Astronomy, Howard University, Washington, USA 2 National Human Genome Center, Howard University, Washington, USA 3 Department of Microbiology, Howard University, Washington, USA

Prawa autorskie i kopia 2018 autorów i Scientific Research Publishing Inc.

Ta praca jest objęta licencją Creative Commons Attribution International License (CC BY 4.0).

Otrzymano: 3 września 2018 r. Przyjęto do druku: 19 października 2018 r. Opublikowano: 22 października 2018 r.

Jako żywy system informacyjno-komunikacyjny, genom koduje wzorce w polimorfizmach pojedynczego nukleotydu (SNP), odzwierciedlając ludzką adaptację, która optymalizuje przeżycie populacji w różnych środowiskach. Artykuł ten matematycznie modeluje wywołane przez środowisko siły adaptacyjne, które określają ilościowo zmiany w rozkładzie częstotliwości SNP między populacjami. Bezpośrednio łączymy metody biofizyczne (np. minimalizowanie wolnej energii genomowej) z koncepcjami genetyki populacyjnej. Nasz bezstronny program komputerowy przeskanował duży zestaw SNP w głównym regionie kompleksu zgodności tkankowej i oznaczył zależność wysokości od SNP związaną z reakcją na brak tlenu. Siła statystyczna naszego podejścia z podwójnie ślepą próbą jest wykazana w oznaczaniu matematycznych korelacji funkcjonalnych potencjałów opartych na informacjach SNP w wielu populacjach o określonych parametrach środowiskowych. Ponadto nasze podejście zapewnia wgląd w nowe odkrycia dotyczące biologii powszechnych wariantów. Artykuł ten pokazuje moc biofizycznego modelowania różnorodności populacji dla lepszego zrozumienia interakcji genomu ze środowiskiem w zjawiskach biologicznych.

Interakcje genom-środowisko, adaptacja genomowa, korelacje funkcjonalne SNP

Jako złożony, dynamiczny system informacyjny, ludzki genom koduje i utrwala zasady życia. Informacje są zawarte w przeważnie ustalonej matrycy, a także w strukturze zmienności sekwencji ludzkiego genomu. Spośród około 3 miliardów nukleotydów ludzkiego genomu tylko około 0,1% składa się z bi-allelicznych polimorfizmów pojedynczego nukleotydu (SNP) rozmieszczonych w całym genomie [1] . Gdy rozkład statystyczny zmienności osiągnie homeostazę w danym środowisku, populację ludzką można opisać w kategoriach zachowanego porządku i wzorców polimorfizmów w całym genomie. Środowisko definiujemy nie tylko w kategoriach parametrów geofizycznych, ale raczej jako kompletny interfejs populacji do wpływów biologicznych i ewolucyjnych. Twierdzimy, że stabilność adaptacji całego genomu znajduje odzwierciedlenie w częstotliwościach utrzymywanej różnorodności tych powszechnych wariantów (SNP) dla populacji w jej środowisku. Jako dynamiczne miejsca w ludzkim genomie, SNP są często silnie skorelowane w kombinacje zwane haploblokami, których haplotypy są utrzymywane przez pokolenia ze stałą częstotliwością w danej populacji. Mówi się, że takie kombinacje SNP są w stanie nierównowagi sprzężeń (LD). Odzwierciedla to, że pewne kombinacje alleli SNP nigdy nie pojawiają się w populacji, co oznacza, że ​​tylko niektóre haplotypy są biologicznie żywotne i utrzymywane z pokolenia na pokolenie. W dynamice populacji żywotność przejawia się jako utrzymana przeżywalność i funkcjonalność. Tworzenie haplobloków jest wyłaniającą się właściwością informacji genomowej, której nie można scharakteryzować przy braku wpływów środowiskowych, które wymuszają takie przejścia fazowe między populacjami. Dlatego też dynamicznie niezależne statystyczne jednostki genomowe, których używamy, to haplotypy SNP wraz z allelami w obrębie miejsc SNP, które nie są w przylegającej LD z żadnymi innymi SNP. W szczególności zmiany w rozkładzie reakcji allelicznych i haplotypowych na środowisko bezpośrednio odzwierciedlają siły adaptacyjne w populacji. Odporność żyjących ludzi jako ucieleśnień genomu pozwala na adaptację grup do nowych lub zmieniających się środowisk. Różne populacje ludzkie pojawiły się w wyniku pozostawania różnych grup migrujących w przeszłości w określonych środowiskach i rozwijania zbiorowych mechanizmów radzenia sobie, które umożliwiły grupom efektywne funkcjonowanie w swoim otoczeniu. Uważamy adaptację za dynamiczny proces modyfikacji ekspresji genomu w kierunku optymalizacji przeżywalności grupy, która pozostaje w określonym środowisku. Stosowanie miar informacji genomowej, które odzwierciedlają wzajemne oddziaływanie statystycznych zmienności spowodowanych kąpielami środowiskowymi, w których istnieją stabilne populacje, motywuje rozwój „genodynamiki” jako analogu do makrofizycznej „termodynamiki” [2]. Podejście to oferuje nowy sposób myślenia o różnorodności populacji poprzez odkrycie związków między środowiskiem a zmiennością genomu leżącą u podstaw biologii. W tym artykule matematycznie modelujemy interakcje genom-środowisko i pokazujemy bezpośredni wpływ środowiska na powszechne warianty genomowe.

2.1. Zróżnicowanie populacji i informacje

Rozpoczniemy od opracowania wyrażeń, które wiążą miary informacji genomowej grup ludzkich, których profil różnorodności jest stabilny przez pokolenia, z addytywnymi dynamicznymi zmiennymi stanu, które zależą od środowiska zajmowanego przez tę grupę. Najpowszechniejsze miary informatyczne w naukach fizycznych i komunikacyjnych są związane z entropią opisywanego systemu statystycznego. Aby opracować miary entropii dla populacji genomowej, należy najpierw ustalić dynamiczne jednostki istotności. W danym środowisku rozkłady statystyczne pewnych zestawów SNP stają się silnie skorelowane jako jednostki emergentne. Oznacza to, że dynamika informacji genomowej w określonym środowisku jest wyłaniającą się fazą ekspresji ludzkiego genomu. Specyficzna entropia (S) (lub entropia per capita) pojedynczej lokalizacji SNP (S), która nie znajduje się w (ciągłej) nierównowadze sprzężeń, przyjmie postać kanonicznej zmiennej stanu zespołu w kąpieli środowiskowej określonej przez

s ( S ) ≡ − ∑ a = 1 2 pa ( S ) log 2 pa ( S ) , (1)

gdzie p a ( S ) reprezentuje prawdopodobieństwo (częstość), że allel a występuje w populacji. Należy zauważyć, że tak zdefiniowana entropia jest bezwymiarową miarą nieporządku bez jednostek biofizycznych. Podobnie przyjmuje się, że specyficzna entropia haplobloku SNP (H) składającego się z zestawu silnie skorelowanych bi-allelicznych SNP jest

s ( H ) ≡ − ∑ h = 1 2 n ( H ) p h ( H ) log 2 p h ( H ) , (2)

gdzie n (H) to liczba lokalizacji SNP w haplobloku (H), a ph ( H ) reprezentuje prawdopodobieństwo (częstotliwość), że haplotyp h występuje w populacji. Górna granica w tej sumie reprezentuje liczbę matematycznie możliwych dwuallelicznych kombinacji alleli w obrębie haplobloku. Do budowy struktur haploblokowych wykorzystano powszechnie dostępne narzędzia [3] .

Ponieważ entropia jest miarą nieporządku rozkładu, układ z maksymalnym nieporządkiem (równy rozkład statystyczny wszystkich matematycznie możliwych kombinacji) jest układem o maksymalnej entropii Smaks. Zawartość informacyjna (IC) utrzymywanego rozkładu statystycznego mierzona jest stopniem uporządkowania tego rozkładu względem całkowicie nieuporządkowanego, tj. różnicy między entropią całkowicie nieuporządkowanego rozkładu a entropią danego rozkładu IC = S max − S [4] . Taka miara informacji jest podobnie addytywna ze względu na addytywną naturę entropii [5] . Zatem zarówno entropia, jak i zawartość informacji są rozległymi zmiennymi stanu, których wartości rosną proporcjonalnie do wielkości populacji. Znormalizowana zawartość informacji (NIC) dla danego haplobloku (H) SNP jest (nieaddytywną) wewnętrzną miarą zdefiniowaną przez

NIC ( H ) ≡ S max ( H ) - S ( H ) S max ( H ) = s max ( H ) - s ( H ) s max ( H ) = n ( H ) - s ( H ) n ( H ) , (3)

gdzie, jak wcześniej stwierdzono, specyficzna entropia haplobloku s (H) jest po prostu entropią na członka populacji S (H) = N populacji s (H). Ta znormalizowana miara informacji mieści się w zakresie od 0 do 1. Taka bezwymiarowa miara pozwala badać widma informatyczne regionów genomów osobników oraz populacji [4] .

Aby jak najlepiej sparametryzować wpływy środowiskowe, wykorzystano tylko dane z fazy 3 HapMap [6] . Dane te obejmują populacje o pochodzeniu afrykańskim w południowo-zachodniej części USA (ASW), mieszkańców Utah o pochodzeniu z Europy Północnej i Zachodniej (CEU), Chińczyków Han w Pekinie w Chinach (CHB), Chińczyków w Metropolitan Denver w stanie Kolorado USA (CHD), Indian Gujarati w Houston Texas USA (GIH), Japanese in Tokyo Japan (JPT), Luhya in Webuye Kenya (LWK), Mexican Ancestry in Los Angeles California USA (MLL), Massai in Kinyawa Kenya (MKK), Toscani in Italia (TSI) oraz Joruba w Ibadanie w Nigerii (YRI). Spośród populacji fazy 3 NIC ASW wynosi 0,52, CEU 0,76, CHB 0,76, GIH 0,73, JPT 0,77, LWK 0,59, MXL 0,71, MKK 0,63, TSI 0,74 i YRI 0,63. Należy zauważyć, że w przypadku tzw. 0,77 dla YRI.

2.2. Dynamika informacyjna ludzkiego genomu

Następnie opracowujemy skale wymiarowe i jednostki, które mogą określić ilościowo względną giętkość i elastyczność dynamiki informacji między różnymi populacjami i regionami genomu tej samej populacji, analogicznie do addytywnych jednostek energii w naukach fizycznych. W przeciwieństwie do podstawowych cząstek mikrofizyki, podstawowe jednostki życia nie mogą utrzymać się przy braku środowisk, które je wspierają. Dlatego najmniej skomplikowany opis dynamiki genomu powinien opracować genomowe zmienne energii swobodnej FGenom jako bardziej fundamentalne niż niezależne od środowiska środki energetyczne.

Genomowa energia swobodna Fgenom został opracowany jako zmienna stanu, która równoważy zachowanie i zmienność SNP i haplotypów w danej kąpieli środowiskowej. Minimalizacja wolnej energii genomowej optymalizuje przeżywalność populacji pod wpływem pełnego zestawu bodźców środowiskowych i stresorów, ustanawiając równowagę między zachowaniem a zmiennością alleli i cech w dynamice dystrybucji populacji. Wymiarowy potencjał środowiskowy Tmi (która jest zmienną stanu intensywnego, niezależną od wielkości populacji) będzie sparametryzować wewnętrzne, wszechobecne pobudzenie populacji spowodowane stochastycznymi bodźcami środowiskowymi (analogicznie do tego, jak temperatura parametryzuje pobudzenie podstawowych jednostek fizycznych w łaźni termalnej). Podobnie, wymiarowe potencjały alleliczne i haplotypowe, μ a ( S ) i μ h ( H ), sparametryzują genomową zmianę energii swobodnej w populacji od dodania jednego osobnika allelu a lub haplotypu h . Dla danego haplobloku (H) różnicująca energia swobodna genomu przyjmuje postać

d F ( H ) = − S ( H ) d T E + ∑ h μ h ( H ) d N h ( H ) , (4)

gdzie N h ( H ) reprezentuje liczbę osobników w populacji z haplotypem h. Ta forma pomija jakikolwiek wpływ populacji na środowisko. Całkowita swobodna energia genomowa jest sumą wszystkich haplobloków SNP i niepołączonych SNP podanych przez

F genome = ∑ H F ( H ) + ∑ S F ( S ) . (5)

As is the case in thermodynamics, the additive allelic potentials μ h ( H ) are expected to scale relative to the environmental potential Tmi, and allelic or haplotypic potential differences should directly reflect in the ratio of the frequencies of occurrence of those dynamic units within the population. We assert that such properties are encompassed in the functional form

μ h 2 ( H ) − μ h 1 ( H ) T E = − log 2 p h 2 ( H ) p h 1 ( H ) (6)

Defining a single human Genomic Energy Unit ( μ ˜ ≡ 1 G E U ) to be the allelic energy necessary to induce maximal variation within a single non-linked

bi-allelic SNP location ( p a 1 = 1 2 = p a 2 ), the potential of the haplotype h or allele

a in an environmental bath characterized by the environmental potential Tmi that bathes the whole genome can be expressed as

μ h ( H ) = ( μ ˜ − T E ) n ( H ) − T E log 2 p h ( H ) μ a ( S ) = ( μ ˜ − T E ) − T E log 2 p a ( S ) . (7)

If only one allele is present at a SNP location for a given population, the allelic potential of that allele is defined to be at the fixing potential μnaprawiony for that environment μ a 1 ( S ) = μ f i x i n g ≡ ( μ ˜ − T E ) .

We will assume that the population is homeostatic (or at least quasi-homeostatic, which means that any changes occurring in the population distribution requires many generations to become significant). Population homeostasis is equivalent to the Hardy-Weinberg condition used in population biology that the statistical distribution is independent of any sub-divisions of the population data, including those associated with differing generations or ages. Our population stability condition will require that the genomic free energy be a (stable) minimum under changes in the population within the local environment when the population is in homeostasis with its environment, i.e.,

( ∂ F Genome ∂ N Population ) = 0 . By substituting the forms of the allelic potentials μ h ( H ) and

μ a ( S ) expressed in terms of the probabilities in Equation (7) into the population stability condition and summing over all haploblocks and SNPs, an explicit expression of the environmental potential can be obtained:

T E = μ ˜ n S N P s n S N P s − s Genome = μ ˜ N I C Genome . (8)

This inversely relates the environmental potential to the intrinsic normalized information content characterizing the variation of the whole genome of the population, demonstrating that the whole genome is uniformly bathed in this particular environmental parameter. The population stability condition can be expressed in terms of the population averaged haplotype and allelic potentials. We refer to the average haplotype potential within a SNP haploblock ∑ h μ h ( H ) p h ( H ) = 〈 μ ( H ) 〉 as the block potential for haploblock (H), and the average allelic potential at a non-linked SNP location ∑ a μ a ( S ) p a ( S ) = 〈 μ ( S ) 〉 as the SNP potential for location (S). The population stability condition then requires that the sum of all block and SNP potentials for a given population vanishes:

( ∂ F Genome ∂ N Population ) = 0 ⇒ ∑ H 〈 μ ( H ) 〉 + ∑ S 〈 μ ( S ) 〉 = 0 . (9)

This condition demonstrates that balance is established between diversity and conservation in a population to optimize its survivability within the given environment. One should note that the environmental potential Tmi, the block potentials 〈 μ ( H ) 〉 and the SNP potentials 〈 μ ( S ) 〉 can only be constructed for a population. In addition, the individual allelic potentials μ h ( H ) and μ a ( S ) characterize an overall allelic potential for each individual in the population,

μ individual = ∑ H μ h ( H ) + ∑ S μ a ( S ) , (10)

where the set of SNP haplotypes h and alleles a are unique to the individual. An individual’s overall allelic potential is not a universal parameter, but rather depends strongly upon the environment.

To illustrate population dependent spectra of genomic block potentials, the genomic free energies of blocks in the major histocompatibility complex (MHC) region on chromosome 6 are displayed for a few founder populations using phase I, II, and III data from HapMap in Figure 1.

The MHC region encodes genes for the human immune response. This region of the genome is particularly relevant in host response to environmental stressors and is known to display straightforward biological correlations with environmental parameters. The emergent differences in the haploblock structure of the populations are immediately apparent. The block binding potential (which parameterizes the stability of an emergent haploblock) will be defined as the difference in the block potential from the sum of the individual SNP potentials that make up that block if they were not in linkage disequilibrium (LD). The corresponding spectra of binding potentials (per SNP) are demonstrated in Figure 2.

Those SNPs in haploblocks with more negative binding potential per SNP have enhanced biologic favorability for maintaining their correlated statistics throughout generations of the populations in the given environments. SNPs in haploblocks with nearly zero binding potential per SNP are nearly independent, indicative of the environmental transition point of the emergent genomic phase. Stated precisely, an emergent genomic phase indicated by the formation of a haploblock of statistically correlated SNPs on the genome of a population in homeostasis with a particular environment results in a non-vanishing binding potential for the SNPs in that haploblock. The strength of the binding block

Rysunek 1 . Block potentials for MHC region on Chromosome 6 as a function of location: (a) represents the block potentials for the Han Chinese in Beijing China (b) represents the MHC region block potentials for the Japanese in Tokyo Japan (c) represents the MHC region block potentials for the Yoruba in Ibadan Nigeria. Average values are demonstrated as the horizontal dashed lines. Regions of lower potential are indicative of a greater degree of conservation, and stronger binding of the correlated SNPs.

Rysunek 2 . Binding block potential per SNP for the MHC region on Chromosome 6: (a) represents the binding block potentials for the MHC region for the Han Chinese in Beijing China (b) represents the binding block potentials for the MHC region for the Japanese in Tokyo Japan (c) represents the binding block potentials for the MHC region for the Yoruba in Ibadan Nigeria.

potential per SNP indicates the degree to which the SNP variation must be correlated in order to maintain a biologically viable population.

2.3. Distributive Genodynamics

The formulation of the information dynamics of the human genome in terms of genomic free energies directly results in well-defined forms for the SNP potentials for SNPs that are not in LD and for block potentials for correlated SNPs that are in LD. Since the SNP haploblock structure has an emergent form that differs between populations, meaningfully defined distributed potentials will reflect the biology underlying the participation of individual SNPs in the informatics architecture of its correlation with other SNPs in the haploblock. We will next develop distributed SNP potentials μ S ( H ) within a haploblock (H) such that they satisfy the following conditions:

If the SNP is occupied by an allele that is fixed in the given population, then its distributed SNP potential is the fixing potential μnaprawiony

The sum of the distributed SNP potentials should be the same as the block potential μ ( H ) , i.e. 〈 μ ( H ) 〉 = ∑ S = 1 n ( H ) μ S ( H )

The block potential should be linearly distributed amongst the constituent SNPs in accordance with occurrences of the SNP alleles.

The first bullet insures that if the SNP is not variant within the population, its genomic energy is not modified from that of a SNP that is not in LD, and the second bullet requires that the distributed potentials should reconstruct the block potential in an additive way. The third bullet represents a simple mechanism for relating the distributed potentials to the degree of variation in the SNP. The mathematical form that satisfies these conditions is given by

μ S ( H ) ≡ μ fixed + [ 〈 μ ( H ) 〉 − n ( H ) μ fixed ] ( p ¯ S ∑ S ′ p ¯ S ′ ) , (11)

where p ¯ S = 1 − p S is the minor allele frequency of the SNP labeled (S). Using this form, the distribution of the haploblock potential to any constituent SNP is proportionate to the occurrence of the minor allele in the population in a manner that increases the SNP’s genomic free energy as the SNP has higher variation (i.e., becomes less conserved).

The degree of stability of the participation of the SNP in the biology of the emergent haploblock can be quantified in terms of its binding potential defined by

ε binding ( S ) ≡ μ S ( H ) − 〈 μ ( S ) 〉 , (12)

where 〈 μ ( S ) 〉 would be the SNP potential of the genomic variant were it not in LD. As defined, this metric of SNP binding within the haploblock is always negative, reflecting the increased genomic conservation inherent in LD.

We can furthermore assign allelic measures from the distributed SNP potentials in a manner that constructs the SNP potentials as population averages of derived distributed allelic potentials μ a S ( H ) , i.e., μ S ( H ) = ∑ a S p a S ( H ) μ a S ( H ) . The most straightforward form that uniformly assigns the distributed SNP potential within a haploblock, and maintains the expected correlation that increased genomic potential reflects increased variation, results by simply adjusting the non-linked allelic potentials using the SNP binding potential, i.e.,

μ a S ( H ) ≡ μ a S ( S ) + ε binding ( S ) . (13)

It should be noted that all distributed potentials are only defined at the population level and cannot be ascribed to individuals. Only the emergent haplotype potentials μ h ( H ) can be ascribed to individuals within the population. However, since distributed potentials are defined for the population as a whole, they can bequite useful for parameterizing the environmental influences upon that population. Distributed potentials are particularly useful for describing the adaptation of the population to stimuli and stressors with known biological correspondence to particular alleles or SNPs. The description of genomic variants using distributed potentials inherently includes any presently unknown whole genome response to specific stressors.

Once genomic free energy measures have been developed for individual alleles and genomic regions, environmentally induced adaptive forces can be characterized using gradients of those additive measures down the slope of environmental parameters. For a given allele a on the genome that is biologically connected to a definable environmental parameter λ (such as UV light, lactose in diet, prevalence of malarial plasmodia, etc.), we define the environmentally induced adaptive force on that allele by

with analogously defined adaptive forces on potentials characterizing SNPs, haploblocks, haplotypes, genes, and even perhaps whole chromosomes. Such an expression is only meaningful if there is a functional relationship between the biology of the genomic unit and the particular environmental parameter λ. In such cases, positive adaptive forces drive the conservation of the given genomic unit down the slope of the genomic potential. Increased survivability might drive the genomic unit towards more diversity, or more conservation, depending on the nature of the environmental influence upon the homeostatic population. Quantifying such forces inherently involves comparisons between differing environments.

To explore environmental impacts on adaptation, we will confine our investigation to phase III data of HapMap, since this represents the broadest set of populations with somewhat uniform genotyping. We have chosen to exclude ASW, CEU, CHD, GIH and MXL from our parameterization of adaptive forces, since these populations do not reside in their geographical origin. In this paper, the genomic potentials of the set of SNPs in the MHC region on chromosome 6 were chosen to conduct a double-blind exploration for possible correlations with three particularly straightforward environmental parameters: annual exposure to UV-B radiation, altitude above sea level, and exposure to malarial vectors. In order to simplify the analysis of any results, the set of all SNPs in this region that are not in LD for most of the populations were pre-selected out for the computational search. The algorithm examines whether the genomic potentials for the SNPs and alleles can be fitted to simple functional forms (curves) singly dependent on a given environmental parameter. If the root-mean-squared (RMS) deviation of the data points from the curves, as compared to the maximum variation of the data, falls within 10%, the SNP is flagged by the program, and adaptive forces are calculated for the curves.

The averaged ancestral annual UV-B radiation exposure used was expressed in units of Joules per square meter (UV radiance) as estimated from the following cited source [7] . In these units, estimates of annual UV radiance for the CHB population averaged 2180 (ranging from 1500 to 2600), for the JPT population averaged 2400 (ranging from 2300-2500), for the LWK population averaged 5764 (ranging from 5450 to 6500), for the MKK population averaged 5624 (ranging from 5000 to 6125), for the TSI population averaged 1507 (ranging from 950 to 2500), and for the YRI population averaged 5129 (ranging from 3500 to 6300). The altitude values used are averaged estimates of elevations of populated regions for ancestral homelands in units of meters using data from [8] . In units of meters, estimates of population elevation for the CHB population averaged 22 (ranging from 3 to 48), for the JPT population averaged 107 (ranging from 5 to 287), for the LWK population averaged 1711 (ranging from 1203 to 2486), for the MKK population averaged 1507 (ranging from 712 to 2383), for the TSI population averaged 74 (ranging from 1.3 to 143), and for the YRI population averaged 211 (ranging from 12 to 337). The parasite data were based upon the Plasmodium falciparum parasite rate (PfPR), used by the World Health Organization [9] . We expect that all of the examined populations had higher malarial exposure in ancestry than at present. In particular, the TSI population likely had significantly higher malarial exposure in ancestry than in present time, since relatively recent developments have significantly reduced the prevalence of the insects and treatment of the disease. In units of parasite reproductive rate, estimates of PfPR for the CHB population averaged 0.01 (ranging from 0 to 0.05), for the JPT populations averaged 0.0002 (ranging from 0 to 0.001), for the LWK population averaged 12 (ranging from 2 to 35), for the MKK population averaged 8 (ranging from 1 to 25), for the TSI population averaged 0.8 (ranging from 0 to 5), and for the YRI population averaged 70 (ranging from 20 to 95).

In the following plots, if there is a best fit curve plotted with the points, then the data was flagged by the computer program. Blue points represent populations with the flagged SNP not in linkage disequilibrium. The thickness of the curves in the plots represents the degree of correlation of the data with the fitting curve, with bolder curves indicating stronger correlations.

Our program flagged functional dependencies on altitude of phase III HapMap data for the SNP rs1109771 in the MHC region for the populations CHB, LWK, MKK, TSI and YRI. The curves are plotted in Figure 3.

The relative RMS deviation for the SNP potential was 0.03, for the G allelic potential was 0.008, and for the A allelic potential was 0.001. A significant adaptive force of about +1.5 GEUs/kilometer at lower altitudes on allele A towards increased conservation is apparent. At higher altitudes, significant variation is maintained, as indicated by the SNP potential remaining very near the maximum value of 1 GEU (maximal variation). This implies that the G allele continues a significant presence in the population in order to optimize its survivability in the higher altitudes available in the HapMap data.

Over the course of human history, adaptation to challenging environments has necessitated modulation of biological pathways at the genomic level to combat the toxic effects present in said environments. High altitude is an excellent example of how humans have adapted to an environmental stressor (e.g., low

Rysunek 3 . SNP rs1109771 in MHC region on Chromosome 6. The horizontal axis labeled by the environmental parameter λ is altitude in units of kilometers. The vertical axis gives the SNP (μ_rs1109771) and allelic (μ_G, μ_A) potentials in genomic energy units (GEUs): (a) illustrates the functional correlation of SNP rs1109771 with altitude in the Chinese, Kenyan, Tuscan and Yoruban populations (b) and (c) illustrate the allelic correlations (G and A respectively) with altitude in the aforementioned populations.

oxygen content). The body’s response to chronic exposure to alveolar hypoxia is to hyperventilate, thereby increasing resting heart rate and stimulating the production of red blood cells to maintain the oxygen content of arterial blood at or above sea level values [10] . Moreover, an insufficient supply of oxygen prompts the formation of new vessels from the walls of existing ones, i.e. angiogenic sprouting [11] . Growth factors and chemokines are secreted from hypoxic tissues, stimulating endothelial cells to break away from vessel walls. These angiogenic factors then coordinate sprouting, branching, and new lumenized network formation until the oxygen content rises and normoxia can be re-established [12] . The Notch signaling pathway plays a key role in shaping the formation and remodeling of the vascular network under hypoxic conditions [11] . This pathway is an evolutionarily conserved intracellular signaling pathway that was originally identified in Drosophila. Notch has four transmembrane receptors, with Notch 1 and Notch 4 being expressed by endothelial cells [13] [14] [15] . It has been shown that targeted deletion of Notch 4 in mice results in the deregulation of arterial and venous specification of endothelial cells as well as the deformation of arteries and veins [16] [17] . In addition, overexpression of the intracellular domain of Notch 4 in endothelial cells results in a β1 integrin-mediated increase in adhesion to collagen resulting in cells that show a reduced sprouting response to vascular endothelial growth factor both in vitro and in vivo [18] . Thus, it appears that Notch signaling promotes cellular responses in endothelial cells that help to alleviate the harmful effects of hypoxia in the human body. Consequently, population differences in allelic frequencies in this pathway could effectively provide an adaptive advantage for survival in response to this environmental stressor.

As a demonstration of the potential guidance offered by this formulation towards future discovery in the biology of whole genome adaptation, our program flagged functional dependencies on plasmodium parasite load from HapMap data for rs430620 in the MHC region for the populations CHB, LWK, MKK, TSI and YRI. The curves plotted in Figure 4 represent a strong flag for parasite dependency of a SNP in the intervening sequence of the genome with no known association to any gene. The relative RMS deviation for the SNP potential was 0.007, for the G allelic potential was 0.02, and for the A allelic potential was 0.008. A significant adaptive force of about +3 GEUs/unit PfPR for initial parasite loads on allele A towards increased conservation is apparent. The A allele has very low occurrence within populations with no parasite load, and the SNP approaches fixation towards allele G. Once again, for higher parasite loads, significant variation is maintained, as indicated by the SNP potential approaching the maximum of 1 GEU, indicative of the importance of maintaining a significant occurrence of the G allele in the population. The possibility of an association of the A allele with increased survivability under an environmental stressor that parallels this parasite load is intriguing. Furthermore, this correlation exemplifies how genodynamics can be utilized in the discovery of genomic variants with previously unknown clear functional dependencies on simple environmental factors, thereby motivating other researchers to contextualize these functional dependencies relative to their own laboratory/clinical findings.

We have demonstrated the utility of associating genomic free energy measures with environmental influences on whole genome adaptation. Double-blind smooth mathematical functions flagged relationships between altitude and the allelic energies of a SNP associated with oxygen deprivation. From these functional relationships, genomic energy gradients quantify adaptive forces in a manner analogous to corresponding concepts in the physical sciences. Our formulation of genomic information dynamics optimizes the survivability of a population in a given environment. Specifically, whole genome SNP distributions represent an environmentally influenced balance between genome sequence variation and conservation. Furthermore, double-blind smooth mathematical

Figure 4 . rs430620 in MHC region on Chromosome 6. The horizontal axis labeled by the environmental parameter λ is plasmodium parasite load in units of Plasmodium falciparum parasite rate. The vertical axis gives the SNP (μ_rs430620) and allelic (μ_G, μ_A) potentials in genomic energy units (GEUs): (a) illustrates the functional correlation of SNP rs430620 with PfPR in the Chinese, Kenyan, Tuscan and Yoruban populations (b) and (c) illustrate the allelic correlations (G and A respectively) with PfPR in the aforementioned populations.

functions flagged relationships between parasite load and the allelic energies of a SNP with no known association to a gene. This provides an intriguing opportunity and direction for future discovery of the biology associated with this SNP.

Moreover, population diversity in genome-wide common variants, such as SNPs that are non-randomly embedded in the human genome, represent a “quintessential experiment of nature” in whole genome adaptation to environmental stimuli and stressors associated with population diversity in health outcomes. SNPs associated with common diseases not only reveal mechanisms underlying the complex biology of common diseases, but also the “genomic cost” to populations in whole genome adaptation to environmental stimuli and stressors. By parameterizing the information dynamics of SNPs in HapMap populations, we developed a mathematical model of environmentally induced adaptive forces as drivers of population health and diversity in health outcomes. Our model provides new lenses through which SNP data can be explored to solve problems in population-based patterns of genome variation in common complex diseases which we submit is significant in clinical translation.

The authors would like to acknowledge the continuing support of the National Human Genome Center, and the Computational Physics Laboratory, at Howard University. This research was supported in part by NIH Grant NCRR 2 G12 RR003048 from the RCMI Program, Division of Research Infrastructure. The authors hereby certify that they have no affiliations with or involvement in any organization or entity with any financial interest or non-financial interest in the subject matter or materials discussed in this manuscript.

The authors declare no conflicts of interest regarding the publication of this paper.


SNPs in the Human Genome - Biology

The HEK293 (Human Embryonic Kidney 293) cell line is one of the most frequently used cell lines in cell biology, second only to HeLa cells. Moreover, they are used for biopharmaceutical production and are very popular hosts for small-scale protein production and for viral vector propagation.

Decades of 293 and 293-derivative cell cultivation have led to progressively different genome structure and sequence alterations. Knowledge of the genome sequence of 293 cells and of the SNPs and CNVs amongst the different lines is not only important to understand basic 293 biology and the genomic changes associated with cell culture and clone selection, but is also especially relevant in the light of mammalian cell genetic engineering.

This web tool provides for easy browsing through the sequence- and average copy-number level variations of six different HEK293 cell lines, and have included links that invoke the Integrative Genome Browser (Broad Institute) for inspection of the underlying data.


Informacje o autorze

Afiliacje

Colon Cancer Genetics Group, Division of Oncology, University of Edinburgh, Western General Hospital, Crewe Road, Edinburgh, EH4 2XU, UK

James GD Prendergast & Malcolm G Dunlop

MRC Human Genetics Unit, Western General Hospital, Crewe Road, Edinburgh, EH4 2XU, UK

Nick Gilbert, Wendy A Bickmore & Colin AM Semple

Public Health Sciences, Department of Community Health Sciences, University of Edinburgh, Edinburgh, UK

Możesz również wyszukać tego autora w PubMed Google Scholar

Możesz również wyszukać tego autora w PubMed Google Scholar

Możesz również wyszukać tego autora w PubMed Google Scholar

Możesz również wyszukać tego autora w PubMed Google Scholar

Możesz również wyszukać tego autora w PubMed Google Scholar

Możesz również wyszukać tego autora w PubMed Google Scholar

Autor do korespondencji


Discussion

In recent years, SNPs in miRNA target sites have been widely studied to be associated with diseases from hereditary diseases to different cancers (review in [Sethupathy and Collins, 2008 ]). And SNPs in miRNA genes were reported to involve in the alteration of miRNA processing [Duan et al., 2007 Harnprasopwat et al., 2010 ], thyroid cancer [Jazdzewski et al., 2009 ], gastric cancer risk [Peng et al., 2009 ], ulcerative colitis [Okubo et al., 2011 ], squamous cell carcinoma [Liu et al., 2010 ], and nonsyndromic progressive hearing loss [Mencia et al., 2009 ]. Thus, identifying functional miRNA-related SNPs are of interest for diseases and complex trait studies. However, the effects on miRNA biogenesis and target selection of SNPs in miRNA genes have not been studied extensively. In the first step of this study, we identified the miRNA-related SNPs and summarized their features. Then, we focused on the prediction of potential effects on miRNA biogenesis and target binding by SNPs in miRNA genes through both prediction and experimental validation. Finally, we compiled all the data into the miRNASNP, a free online database. Considering the wide regulation of miRNA and widely existed SNP, our identified functional miRNA-related SNPs will be a useful resource to mine SNP-associated disease or phenotype in population.

Promising SNPs in Human miRNA Precursors

Since miRNA functions as a top regulator involved in a wide range of regulation, SNPs in miRNA genes may affect miRNA function by influencing the miRNA biogenesis process or target interactions, thus cause serious consequences. In this study, we identified 757 SNPs in human miRNA genes, and further examined the HapMap data for these SNPs. Although lots of SNPs lack frequency information in HapMap, we still found that 69 of them were sampled in HapMap and 40 of them with relatively high MAF (Q ≥ 0.1) in at least one population. In the Result section, we inferred the effects on maturation of the SNPs in pre-miRNAs by summarizing published examples. According to our speculated rules, eight of the 40 SNPs (rs11614913, rs13299349, rs13447640, rs6971711, rs11844707, rs72246410, rs4822739, and rs17797090) locate in stem regions with ΔΔG > 2 kcal/mol, which may decrease the MIR production. Another seven SNPs (rs2910164, rs2292832, rs10505168, rs5997893, rs12780876, rs10934682, and rs2043556) locate in stem regions with ΔΔG <–2 kcal/mol, which may increase the MIR production. Theoretically, these SNPs would greatly change the production of the mature miRNAs, thus may contribute to genetic difference among different population. However, an SNP in the pre-miRNA with relatively low MAF may also cause serious consequences in individuals once it occurs. For example, two SNPs (+13 G > A) and (+14 C > A) in miR-96 seed region were observed in a Spanish family with autosomal dominant progressive high-frequency hearing loss due to impaired maturation and disturbed target sites [Mencia et al., 2009 ].

Since the seed region of an miRNA is the most important feature for its target binding [Bartel, 2009 ], SNPs in miRNA seed region will influence the miRNA target binding and selection directly. Here, we identified 50 SNPs in the seed regions of 41 human miRNA genes and predicted their target gain and loss effects for these SNPs (Fig. 2 and miRNASNP website). Our predicted results indicate that SNPs in miRNA seed regions would cause nearly half targets loss and gain on average. In our dataset, five miRNAs with SNP in seed region (miR-124, miR-125-5, miR-1302, miR-379, and miR-499-3p) are conserved in mammalias (chimpanzee, mouse, rat, and dog). We extracted their conserved targets and performed KEGG pathway and Gene Ontology enrichment analyses. Results show that miRNA-mediated function will be changed greatly after SNP variants. For example, the conserved targets of wild miR-124 show significant enrichment in terms “regulation of apoptosis,” “intracellular membrane-bounded organelle,” and “regulation of cellular biosynthetic process,” but no enrichment for the conserved targets of its variant (Benjamini corrected P wartość <0,05). Of them, miR-124 and miR-125a-5p have experimentally validated targets in TarBase [Sethupathy et al., 2006 ] and miR2Disease [Jiang et al., 2009 ], we found 135 validated targets would loss for miR-124 and one validated target would loss for miR-125a-5p once the SNP allele changes.

Notable, the SNP rs12220909 in miR-4293, which is the only one SNP located in seed region and sampled in HapMap with Q > 0.1. We further analyzed the MAF of rs12220909 in HapMap populations and found the frequencies of the allele C are 0 in both Utah residents with Northern and Western European ancestry from the CEPH collection (CEU) and Yoruba populations, 0.034 in Japanese, and 0.211 in Han Chinese. Chinese has a significant higher C genotype (χ 2 test, P < 0.01). The ΔΔG affected by rs12220909 is −0.5 kcal/mol, which means the SNP type is slightly more stable than wild type and it may increase the mature miRNA expression. Since it locates in the seed region, our target gene gain and loss prediction indicated that miR-4293 would loss 1,735 target genes and only gain 199 target genes after G→C substitution. Gene Ontology and KEGG analyses show that lost target genes significantly enrich in the term of “ion binding,” “plasma membrane part,” and “small GTPase regulator activity” (Benjamini corrected P < 0.05), while the gained target genes by SNP variant do not show significant enrichment in any categories. Although, no studies reported the function of this miRNA currently, it is interesting to study its function and associated phenotype.

Besides seed region, other residues in mature miRNA sequence were suggested to play a modest role in target recognition [Bartel, 2009 Grimson et al., 2007 ]. After computational prediction for miRNA target gain and loss, we further performed experiments to validate the effects on target binding by SNPs in seed region and mature region. We selected 11 miRNA target pairs for three target genes, which are ATP6V0E1, BCL2, oraz SEMA3F (Table 3). Among these miRNA-target pairs, two (miR-34a/BCL2 and miR-124/ATP6V0E1) have been validated by others [Wang et al., 2009 Wang and Wang, 2006 ] and we also confirmed both of them. In our experimental results, five of the eight SNPs in seed regions were proved to dysregulate their targets. Three SNPs in mature sequences other than seed regions all have slight influences on their target binding, even an indel SNP. These results support the conclusion that residues in seed region play key roles and other residues in mature sequence have modest effects on miRNA target binding [Bartel, 2009 ].

It is worthy of note that in this study, we proved the target gain by SNP rs2620381 in miR-627 seed region by experiments. In wild type of miR-627, it can not bind the 3′UTR of ATP6V0E1, while the SNP-type miR-627 gained the ability to target the ATP6V0E1 3′UTR and repressed its expression dramatically in our luciferase experiments. To our best knowledge, this is the first experimentally validated example for target gain affected by a SNP in an miRNA. It provides a new mechanism for miRNA dysregulation in different individuals. Our results show that SNPs in an miRNA gene, especially in the seed region, will alter the target profile of the miRNA by losing original targets and gaining new targets. These SNPs in miRNA seed regions and their target gain and loss information will be a potential useful clue to study the miRNA function and find the SNP-associated disease or phenotype.

Promising SNPs in 3′UTRs of Human Protein Coding Genes

In contrast to the SNPs in miRNA genes, there are more reports that studied the effect of SNPs in 3′UTRs. Loss of a potential miRNA target site may increase the protein expression, while gain of a functional miRNA target site will repress the protein expression, thus affect physiological function and clinical phenotype. Here, using our pipeline, we identified tens of thousands of SNPs locating in potential miRNA target sites and some of them show high MAF, high MAF difference between populations, or positive selection pressure during evolution. Those SNPs will be important candidates for causal variants of human disease. Currently, genome-wide association studies have uncovered many SNPs associated with traits and diseases. The NHGRI GWAS catalogue (http://www.genome.gov/gwastudies, accessed by 2010-12-16) described 1,227 unique SNPs associated with one or more traits (P < 5 × 10 −8 ) [Hindorff et al., 2009 ]. Among these SNPs, six are in our 3′UTR dataset and three are present in our target loss and gain dataset. They are rs1036819 associated with longevity, rs28927680 associated with triglycerides, and rs1042725 associated with height. The original papers also mentioned that these SNPs in 3′UTR may be involved in the traits by miRNA-mediated regulation but without detail miRNA information. Utilizing our database miRNASNP, users can find the detail information about miRNA and its target gain and loss. For example, when users search rs28927680 in miRNASNP, it will show the SNP locates in the potential target sites of six miRNAs (hsa-miR-1323, hsa-miR-548a-3p, hsa-miR-548e, hsa-miR-548f, hsa-miR-548o, and hsa-miR-548t) in 3′UTR of gene BUD13. SNP rs28927680 is reported to be associated with blood low-density lipoprotein cholesterol, high-density lipoprotein cholesterol, or triglycerides in human [Kathiresan et al., 2008 ], hence the SNP-associated miRNA and target site information may shed light on further experiments.

There are more than 1,000 experimentally validated miRNA-target pairs in miR2Disease and Tarbase databases. Based on these data and miRNA-related SNPs in our miRNASNP database, we identified 31 SNPs in 3′UTRs with the abilities to disturb experimental validated miRNA-target pairs. Three of them (rs5186, rs12720208, and rs56109847) have been experimental confirmed to make dysregulate their corresponding targets and associated with diseases. Sethupathy et al. demonstrated that the SNP (rs5186) in the AGTR1 3′UTR mediates allele-specific targeting of miR-155 to AGTR1, thereby modulating AGTR1 protein levels [Sethupathy et al., 2007 ]. SNP rs12720208 was proved to mediate allele-specific in vitro targeting of miR-433 to the FGF20 3′UTR and confers risk for Parkinson disease [Wang et al., 2008 ]. Kapeller et al. identified rs62625044 (now merged into rs56109847) in the 3′UTR of HTR3E, which could mediate allele-specific miR-510 targeting. This was associated with diarrhea-predominant irritable bowel syndrome (IBS-D) in females from the United Kingdom and was also confirmed in a German cohort by replication study [Kapeller et al., 2008 ]. Besides the three validated SNPs, the rest will be attractive SNPs in human miRNA target sites for future studies.


Obejrzyj wideo: Genome visualization using the online CGView tool (Październik 2022).