WWW.ДЕНЬСИЛЫ.РФ

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Медицина

 

Pages:   || 2 | 3 |

Компьютерный анализ сплайсинга

-- [ Страница 1 ] --

На правах рукописи

Неверов Алексей Дмитриевич

КОМПЬЮТЕРНЫЙ АНАЛИЗ СПЛАЙСИНГА

03.00.03 - Молекулярная биология

АВТОРЕФЕРАТ

Диссертации на соискание ученой степени

кандидата биологических наук

- Москва 2007 –

Работа выполнена в лаборатории биоинформатики Государственного научно-исследовательского института генетики и селекции промышленных микроорганизмов ФГУП “ГосНИИ генетика”.

Научный руководитель:

доктор биологических наук, кандидат физико-математических наук

Миронов Андрей Александрович

Официальные оппоненты:

Доктор биологических наук Корягина А.С.

Кандидат биологических наук Боринская С.А

Ведущая организация: Институт Математических Проблем Биологии РАН (ИМПБ РАН)

Защита диссертации состоится «06» марта 2007 г. в 14-00 на заседании Диссертационного совета Д 217.013.01 при Государственном научно-исследовательском институте генетики и селекции промышленных микроорганизмов по адресу: 117545, г. Москва, 1-й Дорожный проезд д., 1

С диссертацией можно ознакомиться в библиотеке “ГосНИИ генетика”.

Автореферат разослан “6” февраля 2007 г.

Ученый секретарь

Диссертационного совета,

Кандидат биологических наук Заиграева Г.Г.

Общая характеристика работы

Актуальность темы

Интенсивность секвенирования полных геномов в настоящее время достигла индустриальных темпов. В 2001 году был секвенирован геном человека и в последующие годы геномы некоторых других млекопитающих: мыши, крысы, собаки, шимпанзе и оппосума. Огромный интерес существует к последовательностям геномов различных микроорганизмов как про- так и эукариот. Очевидно, что темпы секвенирования значительно опережают темпы экспериментального анализа геномов. Для анализа огромных баз данных биологических последовательностей ДНК, различных РНК и белков требуются значительные человеческие и вычислительные ресурсы. В связи с тем, что геномы эукариот имеют более сложную организацию, чем геномы прокариот, наши знания о функциях тех или иных локусов геномов эукариот являются менее полными. Процесс аннотации эукариотического генома всегда начинается с определения экзон-интронной структуры и функций кодирующих генов, что является ключом к последующему детальному исследованию структуры и функции белков. На следующем этапе аннотации выявляются альтернативные изоформы кодируемых мРНК и белков, регуляторные сигналы, положения однонуклеотидных полиморфизмов (SNP). На любом этапе процесс аннотации практически невозможен без применения специальных вычислительных средств. Для предсказания кодирующей части генов существует множество программ, которые могут быть разделены на два основных класса – это статистические программы, в основе которых лежат свойства самой геномной последовательности, и программы, использующие сходство с последовательностями известных белков, мРНК или ДНК, кодирующей гомологичные гены. Программы, распознающие гены по сходству, не могут обнаружить гены специфичные для нового генома, поэтому существует необходимость дополнительно использовать статистические программы. Существенным недостатком статистических программ является ненадежное предсказание границ генов, кроме того, они могут предсказывать только единственную изоформу. Одной из актуальных задач биоинформатики, связанных с аннотацией новых геномов является дальнейшее совершенствование программ предсказания генов.

Альтернативный сплайсинг является фундаментальным механизмом эволюции генов и лежит в основе разнообразия протеома – совокупности белков, кодируемых в геноме. По современным оценкам 50-70% генов млекопитающих являются альтернативно сплайсируемыми. Изучение альтернативного сплайсинга имеет большое практическое и клиническое значение, так как экспрессия различных изоформ белка зависит от ткани и стадии развития клетки. Мутации в районе сайтов сплайсинга и регуляторных сайтах могут вызывать наследственные или онкологические заболевания. Аннотация альтернативного сплайсинга является сложной задачей, для решения которой идет интенсивный поиск методов.

Цель и задачи исследования

Диссертация состоит из трех глав, в каждой из которых решаются различные, но связанные между собой задачи:

Целью исследования, представленного в первой главе, является разработка статистической программы предсказания кодирующих генов в геномах низших эукариот. При этом решались следующие задачи:

  • Программа должна учитывать особенности сплайсинга, свойственного исследуемому организму.
  • Математическая модель, лежащая в основе программы, должна позволять использовать широкий набор статистик, подбираемых исходя из специфики задачи, для кодирующих, некодирующих областей и сайтов сплайсинга.
  • Программа должна быть интегрирована в комплекс с программами, использующими сходство с последовательностями известных белков, для эффективного решения задачи первичной аннотации генома.

Целью исследования, представленного во второй главе, является изучение альтернативно сплайсируемых областей генов человека. При этом решались следующие задачи:

  • Выявление и классификация областей альтернативного сплайсинга на основании данных, полученных с помощью сплайсированного выравнивания маркеров экспрессии (случайных фрагментов мРНК) с геномом.
  • Проверка гипотезы о независимости сплайсинга интронов в пре-мРНК.

Целью исследования, представленного в третьей главе, является изучение связи альтернативного сплайсинга и функции кодируемых белков. Для этого решались следующие задачи:



  • Задача сборки EST – построение набора альтернативных изоформ мРНК, с высокой вероятностью, способных кодировать функциональные белки, на основании множества маркеров экспрессии.
  • Изучение связи альтернативного сплайсинга и функций кодируемых белков.
  • Выявление случаев альтернативного сплайсинга, являющихся результатом ошибок сплайсосомы.

Научная новизна и практическое значение

В работе впервые были получены следующие результаты:

  • Была разработана статистическая программа распознавания генов в геномах низших эукариот GipsyGene, в основе которой лежит скрытая марковская модель. Программа легко обучается для анализа новых геномов и интегрируется в пакет программ автоматической аннотации.
  • С помощью оригинальной модели сайта ветвления в программе GipsyGene было улучшено распознавание коротких интронов в геномах грибов: Aspergillus spp. и Neurospora crassa.
  • Был разработан алгоритм анализа базы данных альтернативного сплайсинга, содержащей информацию о сплайсированных выравниваниях последовательностей EST, мРНК и белков с геномом человека. Алгоритм позволяет выявить альтернативно сплайсируемые участки пре-мРНК (альтернативы) и классифицировать их по типам, используемым в литературе.
  • Алгоритм выявления альтернатив был применен для анализа альтернативного сплайсинга человека. В результате для каждого типа альтернатив были оценены характерные статистические свойства – распространенность и распределения частот вариантов сплайсинга внутри альтернативы.
  • Была оценена доля генов, содержащих соседние альтернативы, в которых сплайсинг в 3’-альтернативе зависит от варианта сплайсинга в 5’-альтернативе.
  • Была разработана программа IsoformCounter, позволяющая оценивать число функциональных изоформ мРНК, кодируемых альтернативно сплайсируемыми генами. Для каждого гена программа генерирует множество наиболее вероятных кодирующих изоформ.
  • С помощью IsoformCounter, было показано, что альтернативно сплайсируемые гены из категорий “рибосома” и “передача сигналов посредством малых ГТФаз” имеют меньше изоформ, а гены из категории “репликация ДНК и хромосомный цикл” больше изоформ, чем в среднем по всем генам. Было показано, что среди генов, кодирующих белки, участвующие в образовании взаимодействий с другими белками, больше альтернативно сплайсируемых генов, чем в белках, не участвующих в таких взаимодействиях.
  • Была оценена вероятность ошибки при сплайсинге одного интрона. Было проведено сравнение вероятности ошибки сплайсинга с вероятностями ошибок других биологических процессов – синтеза РНК и трансляции белка.

Практическое значение работы состоит в разработке методов аннотации геномов низших эукариот, что может найти применение в биотехнологии, и в разработке методов изучения альтернативного сплайсинга в геноме человека, что может найти медицинские приложения, в частности в онкогеномике.

Апробация работы

Результаты работы представлены на международных конференциях: “Third International conference on bioinformatics of genome regulation and structure (BGRS’2002, Новосибирск, 2002);

“Moscow Conference on Computational Molecular Biology” (MCCMB’03, Москва, 2003); “Moscow Conference on Computational Molecular Biology” (MCCMB’05, Москва, 2005); “5th Int. Conf. Bioinformatics of Genome Regulation and Structure” (BGRS’2006, Новосибирск, 2006).

По материалам диссертации опубликовано 10 печатных работ.

Объем и структура диссертации

Диссертация изложена на 138 страницах и состоит из 6 глав. В главах 2 – 4 представлены оригинальные результаты. Список литературы, приведенный в конце диссертации, содержит 106 наименований. Работа содержит 19 рисунков и 7 таблиц.

Глава 1 содержит введение и обзор литературы.

Глава 2 посвящена разработке статистической программы распознавания генов в геномах низших эукариот. Была предложена статистическая модель сайта ветвления значительно улучшающая качество предсказания коротких интронов в геномах низших грибов Aspergillus spp. и Neurospora crassa.

Глава 3 посвящена разработке методов анализа альтернативного сплайсинга, показанного выравниванием EST с геномной последовательностью. В этой главе был предложен алгоритм выявления и определения типов областей альтернативного сплайсинга пре-мРНК. Было показано, что пре-мРНК некоторых генов содержат несколько областей альтернативного сплайсинга. При этом сплайсинг в альтернативной 3’ области, синтезируемой позже, зависит от варианта сплайсинга ранее синтезированной части пре-мРНК.

Глава 4 содержит описание разработанного алгоритма сборки EST в полноразмерные кодирующие транскрипты. Алгоритм был применен для анализа генов, кодирующих белки с различными функциями. С помощью предложенного алгоритма была оценена вероятность ошибки сплайсинга при вырезании одного интрона.





Глава 5 описывает материалы и методы.

Глава 6 содержит сводку основных результаты и выводы.

Содержание работы

Глава 2. Предсказание генов в геномах низших эукариот

Низшие эукариоты имеют большое значение для науки, как модельные микроорганизмы, для медицины и сельского хозяйства, как важные патогены человека, животных и растений, а также как биотихнологические продуценты антибиотиков и биологически-активных веществ. К настоящему времени были секвенированы геномы некоторых низших грибов, в частности, Aspergillus nidulans, Neurospora crassa, Magnaporte grizea, всего около 20 наименований [Fungal Genetics Stock Center]. В будущем интерес к секвенированию геномов грибов вряд ли ослабеет. Анализ нового генома всегда начинается с автоматической аннотации, целью которой служит предсказание генов для последующего детального анализа. Программы обнаруживающие гены на основе информации о сходстве геномной последовательности и последовательностей белков, мРНК, EST позволяют идентифицировать 50-70% генов. Статистические программы предсказания генов, в основе которых лежит скрытая марковская модель (HMM), как правило, нуждаются в новом обучении для каждого нового генома. Применение таких программ является обязательным этапом аннотации, так как позволяет идентифицировать гены, специфичные для организма. Обучающее множество, необходимое для оценивания параметров HMM, может быть построено на основании генов, предсказанных по сходству с белками. К моменту начала работы над проектом существовала потребность в программе предсказания генов, которая могла бы использовать широкий набор статистических моделей, подбираемых под каждый аннотируемый геном, и могла бы легко переобучаться для аннотации новых геномов.

GipsyGene статистическая программа распознавания генов

Программа GipsyGene может использовать модель как эукариотического, так и прокариотического генома. Модель генома прокариот может рассматриваться как ограничение эукариотической модели. Для решения задачи распознавания генов строится граф, вершинами которого являются кандидаты в сайты сплайсинга, СТАРТ и СТОП кодоны. Ребра этого графа соединяют вершины, так чтобы на любом пути в экзонах в составе одного гена сохранялась открытая рамка считывания. Алгоритм находит оптимальный путь на графе, соответствующий наиболее вероятной экзон-интронной структуре.

В модель заложены следующие кодирующие и некодирующие состояния: одноэкзонный ген; начальный, внутренний и терминальный экзоны; интрон; межгенный участок (спейсер). В GipsyGene реализованы наиболее широко используемые модели донорного и акцепторного сайтов. Статистическая модель выбирается в зависимости от того, имеет ли сайт значимые корреляции между позициями. Если анализ сайтов в обучающей выборке не обнаруживает корреляций между позициями, или эти корреляции статистически не значимы, например, из-за небольшого объема обучающего множества, то вероятность вычисляется по профилю сайта. Другие две модели учитывают корреляции между позициями сайта. (1) WAM модель - неоднородная Марковская модель первого порядка, учитывающая корреляции между соседними нуклеотидами. (2) MDD модель - применяется для сайтов, которые имеет значимые корреляции, как с соседними, так и с удаленными позициями. Вероятность вычисляется по профилю в зависимости от оснований, стоящих в позициях, которые наиболее сильно взаимодействуют с другими позициями сайта.

Так как для геномов грибов многих видов сложно сформировать обучающую выборку достаточного объема, для вычисления вероятности кодирующей (некодирующей) части мы реализовали несколько различных моделей. Кодирующая ДНК может быть смоделирована с помощью: 1) статистики кодонов; 2) марковской цепи первого порядка для аминокислот и статистики синонимичных кодонов, соответствующих аминокислотам; 3) трех-периодичных марковских цепей третьего и пятого порядков. Модели для некодирующей ДНК - марковские цепи первого, третьего и пятого порядков.

Модель сайта ветвления

Для улучшения предсказаний 3’-концов интронов была разработана модель сайта ветвления. Потенциальный сайт ветвления оценивается по профилю, распределению расстояний до акцепторного сайта, распределению количества динуклеотидов AG между сайтом ветвления и акцептором. Профиль и распределения конструируются на множестве слов, наиболее похожих на сайт ветвления Saccharomyces.



Pages:   || 2 | 3 |
 


Похожие работы:







 
2013 www.деньсилы.рф - «МЕДИЦИНА-ЛЕЧЕНИЕ-ОЗДОРОВЛЕНИЕ»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.