WWW.ДЕНЬСИЛЫ.РФ

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Медицина

 

Pages:   || 2 | 3 |

Разработка методов картирования генов на основеродословных сложной структуры

-- [ Страница 1 ] --

На правах рукописи

БЕЛОНОГОВА Надежда Михайловна

РАЗРАБОТКА МЕТОДОВ КАРТИРОВАНИЯ ГЕНОВ НА ОСНОВЕ
РОДОСЛОВНЫХ СЛОЖНОЙ СТРУКТУРЫ

03.02.07 – Генетика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата биологических наук

Новосибирск 2010

Работа выполнена в лаборатории рекомбинационного и сегрегационного анализа Учреждения Российской академии наук Институт цитологии и генетики Сибирского отделения РАН, г. Новосибирск и на кафедре цитологии и генетики Новосибирского государственного университета

Научный руководитель: д.б.н., профессор

Аксенович Татьяна Иосифовна

Институт цитологии и генетики

СО РАН, г. Новосибирск

Официальные оппоненты: д.б.н., профессор

Маркель Аркадий Львович

Институт цитологии и генетики

СО РАН, г. Новосибирск

д.б.н. Бажан Сергей Иванович

ГНЦ ВБ «Вектор», Кольцово

Ведущее учреждение: НИИ медицинской генетики

ТНЦ СО РАМН, г. Томск

Защита диссертации состоится 7 апреля 2010 г. на утреннем заседании диссертационного совета Д 003.011.01 в Институте цитологии и генетики СО РАН в конференц-зале Института по адресу: 630090, г. Новосибирск, пр. Лаврентьева, д.10, тел/факс: (383)3331278, e-mail: dissov@bionet.nsc.ru

С диссертацией можно ознакомиться в библиотеке Института цитологии и генетики СО РАН.

Автореферат разослан 2 марта 2010 г.

Ученый секретарь

диссертационного совета,

доктор биологических наук Хлебодарова Т.М.

I. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы

Картирование генетических локусов, контролирующих различные признаки человека и животных, является важной и актуальной проблемой современной генетики. За последние годы были успешно секвенированы геномы многих видов, и все же функции большинства генов и фенотипическое проявление их аллельных вариантов во многом остаются неизвестными. Успешное картирование генов позволяет глубже понять механизмы развития многих распространенных заболеваний, разработать эффективные профилактические и терапевтические меры и методы ранней диагностики.

За последние десятилетия генетика значительно продвинулась в этом направлении. С помощью рекомбинационного анализа были картированы многие локусы, в том числе участвующие в контроле таких широко распространенных заболеваний как диабет, болезнь Альцгеймера, некоторые формы рака (Risch, 2000; Gulcher et al., 2001; Botstein and Risch, 2003). Главным образом были картированы гены большого эффекта, оказывающие сильное влияние на фенотип, поскольку такие гены проще всего обнаружить. Однако, основная часть наследуемых признаков формируется при совместном участии большого числа генов, каждый из которых в отдельности оказывает незначительный эффект (Lohmueller et al., 2003; Hirschhorn and Daly, 2005; Collins, 2007). Поиск аллелей малого эффекта – важная задача генетической эпидемиологии, поскольку предполагается, что такие аллели играют существенную роль в развитии многих распространенных болезней, в том числе, гипертонии, сахарного диабета, ишемической болезни сердца, нейродегенеративных заболеваний и многих форм рака (Hirschhorn and Daly, 2005; Mayeux, 2005).

Между тем, картирование генов со слабо выраженным эффектом сопряжено с рядом трудностей. Чтобы достичь необходимой мощности статистических тестов, нужны большие выборки, включающие десятки и сотни тысяч людей. В результате формируются большие массивы данных, обработка которых создает вычислительные проблемы. Многие существующие пакеты программ не в состоянии работать с выборками такого размера. В настоящее время не существует статистических методов, достаточно полно учитывающих специфику комплексных болезней и обладающих достаточно высокой мощностью для того, чтобы надежно картировать генетические локусы сложных признаков.

В качестве объекта для исследований такого рода особый интерес представляют изолированные популяции человека. Известно, что в таких популяциях редкие аллельные варианты встречаются с относительно высокой частотой, что увеличивает шансы успешно картировать их позицию в геноме (Terwilliger et al., 1998; Peltonen, 2000; Peltonen et al., 2000; Chapman and Thompson, 2001; Rannala, 2001). В последние годы в нескольких странах Европы были собраны большие родословные и сформированы большие массивы данных по изолированным популяциям человека (см., например, Aulchenko et al., 2004). Однако анализировать данные такого объема практически невозможно с применением существующих методов. Исследователи вынуждены дробить родословные на фрагменты и анализировать их по отдельности, теряя при этом генетическую информацию. Прогресс в данной области существенно зависит от разработки новых эффективных аналитических методов, которые позволили бы извлечь максимум полезной информации из доступного материала.

Цели и задачи исследования

Целью исследования является разработка новых, эффективных методов статистического анализа, позволяющих картировать гены комплексных признаков человека.

Для достижения цели были поставлены следующие задачи:

  1. Разработать новые методы и алгоритмы анализа, повышающие эффективность картирования локусов комплексных признаков на материале больших родословных, включающие:
    1. алгоритм оптимизации подсчета функции правдоподобия на материале большой родословной;
    2. метод полногеномного анализа ассоциаций, учитывающий эффект родительского (материнского/отцовского) происхождения аллелей, на больших родословных.
  2. С помощью существующих и новых методов картирования провести анализ некоторых комплексных признаков человека: роста и индекса массы тела.

Научная новизна



Разработан ряд новых методов и алгоритмов, позволяющих оптимизировать процесс поиска генов комплексных признаков на родословных сложной структуры:

  • разработан и реализован в виде компьютерной программы алгоритм оптимизации подсчета функции правдоподобия большой родословной; на ряде примеров показано, что он ускоряет вычислительные процедуры в 1.8–3.2 раза;
  • описана модель генетического контроля количественного признака, включающая эффект родительского (материнского/отцовского) происхождения аллелей, и на ее базе создан метод картирования генов, позволяющий быстро производить полногеномный анализ с использованием большого числа генетических маркеров; показано, что разработанный метод обладает большей мощностью, чем существующие аналоги.

С использованием существующих и новых методов картирования проведен анализ комплексных признаков человека: роста и индекса массы тела. Обнаружены новые районы локализации генов, контролирующих эти признаки. Впервые показана ассоциация анализируемых признаков с рядом локусов, обладающих эффектом родительского происхождения аллелей.

Теоретическая и практическая ценность

В рамках подхода генетического картирования предложены новые алгоритмы и модели, их свойства проверены в модельном эксперименте и на реальных данных.

Впервые полногеномный анализ ассоциаций произведен с учетом эффекта родительского происхождения аллелей. В результате анализа комплексных признаков человека найдены новые генетические варианты, в том числе показана ассоциация индекса массы тела с генами молекул клеточной адгезии LOC338667/CDON, NLGN1, CNTNAP5 и CNTN3, влияющими на развитие и функционирование нервной системы. Результаты анализа подтверждают существующие представления о механизмах генетического контроля роста и индекса массы тела человека и роли регуляторных генов в определении разнообразия по данным признакам. В перспективе, полученные результаты будут способствовать прогрессу в области диагностики генетической предрасположенности к ожирению, диабету, раку, когнитивным расстройствам и другим распространенным заболеваниям.

Личный вклад автора

Разработка алгоритмов и методов генетического анализа, реализация их в виде компьютерных программ, а также весь статистический анализ выполнены автором самостоятельно. Материал (родословная, значения признаков и генотипов большого числа маркеров) был собран и любезно предоставлен сотрудниками Медицинского центра Эразмус (Роттердам) в рамках совместного исследования РФФИ-NWO.

Апробация работы

Результаты работы докладывались на Европейской Конференции по Генетике Человека (Ницца, 2007) и на Съезде Вавиловского Общества Генетики и Селекции (Москва, 2009).

Структура и объем работы

Работа состоит из 5 глав, введения, заключения и выводов, содержит 9 рисунков, 14 таблиц и приложение. Объем работы – 122 страницы.

Публикации

По теме диссертации опубликовано 9 работ, в том числе статьи в журналах “Computational Biology and Chemistry”, “Human Genetics”, “European Journal of Human Genetics”, “Annals of Human Genetics”.

II. ОСНОВНОЕ СОДЕРЖАНИЕ ИССЛЕДОВАНИЯ

Оптимизация подсчета функции правдоподобия больших родословных

Большая часть методов генетического картирования основана на оценке максимального правдоподобия. Функция правдоподобия для произвольной родословной в общей форме может быть записана следующим образом:

где – матрица наблюдаемых фенотипов для всех членов родословной, – матрица их ненаблюдаемых генотипов (Elston and Stewart, 1971), а суммирование выполняется по всем возможным генотипическим конфигурациям. Сложность расчета этой формулы определяется числом возможных генотипических комбинаций и может быть записана как

где N – число особей в родословной, а |gi| - число возможных генотипов для i-го члена родословной. Если родословная большая, или число возможных генотипов велико, значение функции правдоподобия невозможно вычислить за реальное время.

Проблему можно решить с использованием так называемой свертки по методу Эльстона—Стюарта (Elston and Stewart, 1971). В основе идеи свертки лежит тот факт, что некоторые части функции правдоподобия условно независимы, и правдоподобие этих частей можно оценивать последовательно. Объем вычислительных ресурсов, который требуется для подсчета значения функции правдоподобия этим путем, в большой степени зависит от выбора условно независимых частей функции и от порядка их свертки. Было предложено несколько алгоритмов выбора оптимальной последовательности свертки (Thomas, 1986; Harbron, 1995; Fernandez and Fernando, 2002), но все они были разработаны для родословных, содержащих петли. До сих пор считалось, что только при анализе родословных с петлями последовательность свертки имеет решающее значение. Для родословных без петель единицей свертки является ядерная родословная (ЯР), и сложность расчета функции правдоподобия пропорционально числу ЯР. Считалось, что порядок свертки для таких родословных может быть любым. Но даже для родословной без петель порядок свертки может играть существенную роль. Использование оптимальной последовательности свертки позволяет значительно сократить время вычисления функции правдоподобия. Для этой цели мы разработали новый алгоритм, позволяющий определить оптимальную последовательность свертки родословной без петель.

Процедура свертки

Любая родословная может быть представлена набором ЯР, где одна ЯР связана с другой через одну единственную особь, входящую в состав обеих ЯР (рис. 1A,B). Таких особей называют коннекторами. ЯР с единственным коннектором называется конечной ЯР. В родословной без петель каждая операция свертки переносит информацию о конечной ядерной ЯР на генотипы соответствующего коннектора. В результате число ЯР в родословной сокращается на единицу. Если при этом число коннекторов у следующей ЯР сокращается до одного, то эта ЯР становится конечной. Чтобы вычислить значение функции правдоподобия всей родословной, нужно последовательно свернуть все ЯР. Если родословная не содержит петель, то все ЯР можно свернуть, используя всего два типа свертки: свертка на родителя и свертка на потомка. При этом свертка на родителя всегда предпочтительнее, поскольку осуществляется с минимальным объемом вычислений. Тип свертки, используемый для конкретной ЯР, может зависеть от последовательности предыдущих сверток. Таким образом, общий порядок свертки может сильно влиять на длительность расчета значения функции правдоподобия.

В двух случаях свертка ЯР всегда может быть осуществлена оптимальным способом: 1) конечная ЯР всегда может быть свернута на родителя, если ее коннектор – один из родителей; 2) последняя ЯР может быть свернута на родителя при любой последовательности свертки всей родословной. Функция правдоподобия для всей родословной может быть посчитана без использования свертки на потомка, если в родословной нет ни одной ЯР, такой что оба ее родителя имеют своих предков в родословной. Если в родословной есть хотя бы одна такая ЯР, родословную не удастся свернуть, используя только свертку на родителя. В этом случае время вычисления функции правдоподобия будет зависеть от того, какие именно ЯР будут свернуты на потомка.

Алгоритм оптимального порядка свертки

Представим родословную в виде ориентированного графа H, где ЯР являются вершинами, а направленным ребрам присвоены веса (рис. 1C). Например, соседние ядерные родословные ЯР1 и ЯР2, имеющие общего коннектора К1-2, будут представлены вершинами V1 и V2, соединенными двумя противоположно направленными ребрами, C1-2 и С2-1. Веса ребер C1-2 и С2-1 определяются временем вычисления свертки ЯР1 или ЯР2 на коннектора К1-2.

Выберем одну из вершин графа, VR, и создадим простой взвешенный граф Т, где ЯР – вершины, и две соседние ЯР соединены ребром тогда и только тогда, если между ними есть ребро в графе H. Вес ребра между Vi и Vj в графе Т равен весу того из

A B
C D






Pages:   || 2 | 3 |
 


Похожие работы:







 
2013 www.деньсилы.рф - «МЕДИЦИНА-ЛЕЧЕНИЕ-ОЗДОРОВЛЕНИЕ»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.