База данных вариаций тандемных повторов в контрольных геномах для использования в поисках новых расширений патогенных повторов в геномах болезней.
До недавнего времени повторяющиеся участки генома считались мусорной ДНК.
Однако в настоящее время широко признано, что не кодирующие тандемные повторы (TR) содержат очень ценную информацию, которая важна для регуляции экспрессии генов. На сегодняшний день TR причастны к возникновению более 30 редких заболеваний.
Поскольку большие новые TR было очень трудно идентифицировать у пациентов, мы и другие предполагаем, что может быть гораздо больше редких заболеваний, вызванных повторными расширениями.
В этой статье мы описываем вариации повторяющейся ДНК у 3619 контрольных лиц.
Мы предлагаем использовать это в качестве сравнительного набора данных для выявления новых патогенных повторов в геномах болезней. Это будет моей миссией на оставшуюся часть моей докторской степени.
Я пришел в лабораторию доктора Стефана Цухнера два года назад. Он описал мой проект как «высокий риск и высокую награду», который вызвал смешанные чувства возбуждения и нервозности. Два года спустя, после долгих часов разработки моего конвейера обнаружения повторных расширений с использованием описанного здесь набора данных, я уверен, что найду эту иголку в стоге сена.
В научном сообществе широко распространен интерес к расшифровке повторяющейся ДНК.
Однако здесь возникает множество проблем. Прежде всего, это препятствие для выравнивания богатой повторами ДНК, полученной с помощью технологии короткого считывания, с эталонным геномом и оценки истинного количества повторов в образце генома. К счастью, Мэтт Данци из моей команды подружился с Егором Долженко из Illumina, который разработал для этого инструмент под названием ExpansionHunter Denovo (EHDn).
Егор великодушно разрешил нам использовать его до того, как он стал общедоступным. Мы использовали EHDn для обнаружения TR в масштабе всего генома, уделяя особое внимание TR размером более ~ 175 пн. Мы выбрали этот подход, потому что мы отметили пробел в доступности информации для длинных повторов в контрольных геномах, в то время как почти все болезни увеличения некодирующих повторов вызываются TR размером не менее 175 п.н.
Когда мы получили в наши руки данные длительного считывания PacBio для 5 наших образцов, у нас наконец появилась возможность по-настоящему проверить, насколько точен EHDn при идентификации расширений.
Мы были рады увидеть, что уровень обнаружения ложных срабатываний составил менее 4%. Это дает нам уверенность в том, что наши данные чрезвычайно надежны.
Мы рады поделиться этим набором данных с более широким научным сообществом, чтобы мы могли стимулировать коллективные усилия по выявлению новых патогенных повторных расширений и начать устранять пробел в недостающей наследуемости.
когда уже до этого дойдут
это было бы конечно открытием
судя по исследованию инфа надежная