WWW.ДЕНЬСИЛЫ.РФ

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Медицина

 


Pages:     | 1 | 2 ||

Компьютерный анализ сплайсинга

-- [ Страница 3 ] --

В основе программы IsoformCounter лежит граф сплайсинга. Граф содержит два типа вершин – ДНК-вершины и ORF-вершины. Два типа ребер ДНК-ребра и ORF-ребра соединяют вершины соответствующих типов. Множество путей на графе, проходящих по ORF-ребрам соответствует множеству открытых рамок считывания. Пути на графе, проходящие по ДНК-ребрам, соответствуют всем возможным полноразмерным транскриптам гена. IsoformCounter реализует последовательность фильтров, которые применяются к изоформам - путям на графе сплайсинга:

(1) Идентификация изоформ.

Изоформы начинаются в СТАРТ-вершинах и заканчиваются в СТОП-вершинах. Допускаются изоформы, начинающиеся в 5’-сайтах начальных экзонов, так как 5’-концы генов могут иметь недостаточное EST покрытие, а мРНК могут быть недосеквенированы влево. Для СТАРТ-кодона (ATG) создается соответствующая вершина только в том случае, если этот кодон не находится внутри какой-либо рамки считывания.

(2) Инициация трансляции.

В генах эукариот трансляция инициируется по механизму линейного сканирования. 40S субъединица рибосомы связывается с кэп-структурой на 5’-конце мРНК, затем начинает скольжение в 3’ направлении до ближайшего ATG кодона, где инициирует трансляцию, если этот кодон находится в подходящем контексте. Стабильные шпильки или ATG кодоны 5’ левее сайта инициации трансляции снижают эффективность линейного сканирования. Небольшая доля мРНК (2-8%) содержит внутренний сайт инициации трансляции. IsoformCounter допускает существование не более 2-х ATG кодонов 5’ левее ORF-СТАРТ-вершины. Данный фильтр не применяется, если СТАРТ-вершина соответствует началу выравнивания ДНК - белок.

(3) Короткие изоформы.

Алгоритм допускает изоформы, если длина ORF превышает 50% от средней длины белка в EDAS. Под средней длинной белка понимается средняя длина RefSeq изоформ данного гена. Если для гена не существует RefSeq изоформ, то его средняя длина равна средней длине всех известных белков данного гена. Изоформы длины которых меньше 33 аминокислот не рассматриваются.

(4) Согласованность с белками

Необходимо чтобы изоформа имела как минимум одну общую аминокислоту с известной последовательностью белка, кодируемой данным геном. Основное назначение данного фильтра – удалять длинные ORF в 3’ нетранслируемой мРНК.

(5) Терминация трансляции.

Транскрипты, содержащие преждевременный СТОП-кодон возникающие, например, в результате ошибочного сплайсинга, разрушаются с помощью механизма NMD. Так как не существует правила, по которому можно различать функциональные мРНК изоформы и ошибки сплайсинга, мы применили специальный фильтр, имитирующий механизм NMD. IsoformCounter допускает сплайсированные изоформы в которых СТОП-кодон находится на расстоянии не более 55 нуклеотидов от последней границы между экзонами. Фильтр не применяется к ORF-СТОП-вершинам, соответствующим 3’-концам выравниваний с последовательностями белков.

Процедура нормализации достоверности экзонов и интронов

Варианты альтернативного сплайсинга попадают в EST клонотеки с вероятностью, зависящей от уровня экспрессии гена. Для генов с низким уровнем экспрессии альтернативный сплайсинг либо не будет наблюдаться, либо наблюдаемые варианты будут иметь подтверждение небольшим числом EST клонотек. Для того чтобы сравнивать достоверность альтернативного сплайсинга различных генов необходимо произвести нормировку на общее число EST. IsoformCounter использует вероятностную модель, которая позволяет оценить минимальную достоверность экзонов и интронов, необходимую для исключения ошибочного сплайсинга на данном уровне экспрессии гена. Пусть для некоторого гена известен уровень экспрессии (среднее число транскриптов на ген). Мы предполагаем, что =f(N), где N – наблюдаемое число EST. Обозначим P(N) вероятность, что клетка содержит хотя бы одну неверно сплайсированную EST, P=1-(1-), где – вероятность ошибки при сплайсинге одного интрона. Вероятность, что ошибочный интервал будет иметь подтверждение k библиотеками клонов (клонотеками) равна Pk<, где – уровень значимости – вероятность, с которой мы допускаем ошибку сплайсинга. Решая неравенство относительно k, получаем выражение: k()ln()/ln(1-(1-)). Уровень экспрессии был оценен как =N/5. Оценка составила 0,01 (обоснование будет дано далее). В результате было использовано следующее выражения для определения порогового числа EST-клонотек для того чтобы принять или отклонить экзон или интрон: k(N)=[-1/ln(1-0,99N/5)].

Нормализация убирает зависимость числа предсказанных изоформ от степени покрытия генов EST. Однако значимого различия распределений числа изоформ на ген между нормализованными и ненормализованными данными не наблюдалось, что объясняется тем, что доля генов с большим EST покрытием (>400 EST) составляет около 4%.

Результаты анализа альтернативного сплайсинга

Программа IsoformCounter была применена для анализа альтернативного сплайсинга (АС) генов базы данных EDAS. Среди всех генов в EDAS, которые содержат интроны, 77% генов имеют более одной функциональной изоформы. Около 20% генов в геноме человека являются одноэкзонными, следовательно, оценка доли альтернативно сплайсируемых генов составляет примерно 60% (75% из 80%). Большинство генов (91%) имеют относительно небольшое число изоформ (от 1 до 15). Для каждого гена было подсчитано число альтернативных и константных сегментов в изоформе, кодирующей самый длинный белок. Было получено следующее распределение: 52-72% генов содержат единственный альтернативный сегмент, нижняя оценка получена на основании EST данных, верхняя – только белков, в промежутке (62%) находится оценка, полученная с использованием мРНК и белков вместе; 20-29% содержат два сегмента; 6-12% три; 1-6% более трех. Таким образом, около 25% генов содержат более одного альтернативного сегмента. Сплайсинг в альтернативных сегментах этих генов может быть координирован.





Были рассмотрены следующие функциональные категории онтологии генов GO [http://www.geneontology.org/GO.doc.html]: “передача сигналов посредством малых ГТФаз” (145 генов), “катаболизм” (512 генов), “репликация ДНК и хромосомный цикл” (99 генов), “рибосома” (123 гена). Число функциональных изоформ было оценено с применением нормализации на общее число EST. Было получено значимое отличие распределений числа изоформ генов из категорий “рибосома” и “передача сигналов посредством малых ГТФаз” от распределения по всем генам (p = 0,003 U-тест Манн-Уитни). В обеих категориях наблюдалось меньшее, чем в среднем, число изоформ. Категория “рибосома” содержит 46% константных генов, несмотря на очень большое EST покрытие, что является результатом нормализации. Гены, принадлежащие категории “репликация ДНК и хромосомный цикл”, имеют больше изоформ, чем в среднем (p = 0,07 U-тест Манн-Уитни), среди них более высокий процент генов являются альтернативно сплайсируемыми (имеют две и более изоформы). Для изучения связи между АС и белок-белковыми взаимодействиями из базы данных MPPI было выбрано 198 пар взаимодействующих белков, обе составляющих которых кодируются генами, представленными в EDAS (всего 262 гена). Доля альтернативного сплайсинга была выше среди генов, участвующих хотя бы в одном белок-белковом взаимодействии. Дефицит константных генов составил 17-30%, избыток альтернативно сплайсируемых - 10-25%. Несмотря на относительно небольшие различия наблюдаемых и ожидаемых значений, эти различия статистически значимы (p < 0,1-1%) на всех рассмотренных уровнях достоверности: только белки, белки и мРНК, EST с различным числом клонотек, нормализованные EST.

Частота ошибок сплайсинга

Программа IsoformCounter для каждого интрона позволяет определить существование хотя бы одной изоформы, не попадающей под действие механизма NMD и кодирующей достаточно длинную аминокислотную последовательность (фильтры (1)-(5)). Мы полагаем, что если для интрона не существует ни одной изоформы, то с высокой долей вероятности, она не может кодировать функциональный белок. Рассмотрим множество (error_introns), состоящее из интронов, подтвержденных только последовательностями EST через которые IsoformCounter не может провести ни одной изоформы. Кроме того, каждый из интронов, входящих в состав множества error_introns пересекается с каким-либо интроном, достоверным на уровне белка. Рассмотрим множество последовательностей EST (Good) из EDAS, которые сплайсированы только в тех интронах, которые имеют достоверность на уровне белка, обозначим Ngood - число таких EST. Обозначим Error множество EST, сплайсированных хотя бы в одном из ошибочных интронов из множества error_introns, при этом эти EST должны быть так же сплайсированы хотя бы в одном белковом интроне, пусть Nerror – число таких EST. EST из множества Error соответствуют транскриптам, в которых произошла ошибка при сплайсинге интронов в достоверно кодирующих изоформах. Обозначим – вероятность ошибки сплайсинга одного интрона. Пусть EST в среднем содержит <ni> интронов, тогда (1- )<ni> - вероятность, что EST не содержит ни одной ошибки сплайсинга. Вероятность ошибки сплайсосомы может быть получена, как решение уравнения: , результаты приведены в таблице 1. Первая оценка получена без ограничения на число клонотек, подтверждающих EST интроны, входящие в состав множества error_introns. Вторая оценка получена с ограничением одна EST-клонотека.

Таблица 1 Оценка вероятности ошибки сплайсинга одного интрона –.

  любое число клонотек 1 EST клонотека
Ngood (число EST) 1848958 1848958
Nerror (число EST) 38845 17926
  0,0069 0,0032

Для того, чтобы понять насколько приведенаая оценка близка к истине, будем рассуждать следующим образом. Рассмотрим ген содержащий ni интронов. Если - вероятность ошибки при сплайсинге одного интрона, то (1- )ni, где – доля нормальных мРНК необходимых для эффективной экспрессии гена. Несмотря на то, что среднее число интронов в генах человека относительно невелико (5,5), некоторые гены имеют очень большое число интронов. Экстремальный пример - ген титин содержит 363 экзона. Величина ошибки сплайсосомы должна находится в интервале 0,001 – 0,003, чтобы обеспечить достаточную эффективность экспрессии длинной изоформы титина (=0,5 – 0,8). В главах 3 и 4 использована верхняя оценка ошибки сплайсомы ~0,01, так как ошибка сплайсинга может зависеть от контекста сайтов базовой изоформы. Представляет интерес сравнение вероятности ошибки сплайсинга с ошибкой РНК-полимеразы и ошибкой трансляции. Частота ошибок РНК полимеразы, не имеющей корректирующей активности, составляет 1 на 104 нуклеотидов. Ошибки трансляции происходят с частотой 1 на 104 аминокислотных остатков. Длина кодирующей части мРНК среднего гена ~900 нуклеотидов, тогда вероятность того, что при транскрипции в ней содержится хотя бы одна ошибка ~ 0,09! Таким образом, около 10% мРНК содержат ошибки в кодирующей части гена, внесенные РНК полимеразой, примерно такой же уровень ошибок вносится при сплайсинге пре-мРНК генов с 10 (верхняя оценка ) – 100 (нижняя оценка) интронами

Основные результаты и выводы

  1. Была разработана статистическая программа предсказания генов в геномах низших эукариот, которая легко интегрируется в комплекс программ для первичной аннотации геномов.
  2. Разработана оригинальная статистическая модель сайта ветвления, значительно улучшающая распознавание коротких интронов грибов.
  3. Разработан автоматический способ выявления и классификации альтернативных областей генов на основании данных о выравнивании EST с геномом. Были исследованы статистические свойства основных типов альтернатив: донорного и акцепторного сайтов, кассетного экзона, удержанного интрона. Наиболее распространенным типом является кассетный экзон, при этом примерно в половине случаев наблюдается пропуск экзона.
  4. С помощью разработанного метода выявления альтернатив было показано, что для ряда генов выбор варианта сплайсинга 3’-альтернативы зависит от способа сплайсинга 5’-альтернативы. Была дана оценка доли таких генов – не более 25%..
  5. Разработан метод сборки EST в полноразмерные транскрипты. Было показано, что альтернативный сплайсинг в разной степени представлен среди групп генов, кодирующих белки с различными функциями.
  6. Дана оценка вероятности ошибки сплайсинга – 10-2 –10-3 случаев ошибочного сплайсинга на интрон.

Список работ опубликованных по теме диссертации

  1. A. D. Neverov, M. S. Gelfand, A. A. Mironov 2003. GipsyGene: A Statistics-Based Gene Recognizer for Fungal Genomes. Biophysics (Moscow), Vol. 48, Suppl. 1, 2003, pp. S71–S75.
  2. A. Neverov, I. Artamonova, R. Nurtdinov, D. Frishman, M. Gelfand, A. Mironov. 2005. Alternative splicing and protein function. BMC Bioinformatics 2005, Vol. 6, p. 266.
  3. J. Fededa, E. Petrillo, M. Gelfand, A. Neverov, S. Kadener, G. Nogues, F. Pelisch, F. Baralle, A. Muro, A. Kornblihtt. 2005. A polar mechanism coordinates different regions of alternative splicing within a single gene. Mol Cell. 2005, Vol. 19, N. 3, pp.393-404.
  4. Р.Н. Нуртдинов, А.Д. Неверов, Д.Б. Малько, И.А. Космодемьянский, Е.О. Ермакова, В.Е. Раменский, А.А. Миронов и М.С. Гельфанд. 2006. EDAS, база данных альтернативно сплайсируемых генов человека. Биофизика, 2006, т. 51, номер 4, стр. 589-592.
  5. A. Neverov, A. Mironov, M. Gelfand. 2006. Splice alignment and similarity-based gene recognition. Handbook of computational molecular biology, ed. S. Aluru, Chapman & Hall 2006, part. I, pp. 2-1 2-18.
  6. A.D. Neverov, M.S. Gelfand, A.A. Mironov. 2002. Gene prediction in genomics DNA of Aspergillus. Proceedings of the Third International Conference on Bioinformatics of Genome Regulation and Structure. (BGRS’2002), Novosibirsk, Russia. Vol. 1, p. 116.
  7. A.D. Neverov. 2003. GipsyGene: A HMM-based gene recognitional tool for lower fungi.. Proceedings of the First International Moscow Conference on Computational Molecular Biology (MCCMB'03), Moscow, Russia, p. 161.
  8. A.D. Neverov, L. Milanesi. 2005. A pipeline for computational gene recognition in the Sacharopolyspora erythraea genome. Proceedings of the Second International Moscow Conference on Computational Molecular Biology (MCCMB’05), Moscow, Russia, p. 246.
  9. R.N. Nurtdinov, A.D. Neverov, D.B. Malko, I.A. Kosmodemyansky, A.A. Mironov, M.S. Gelfand. 2005. EDAS: EST-derived alternative splicing database, Proceedings of the Second International Moscow Conference on Computational Molecular Biology (MCCMB’05), Moscow, Russia, p. 259.
  10. V. Ramensky, R. Nurtdinov, A. Neverov, A. Mironov, M. Gelfand. 2006. Proceedings of the 5th International. Conf. Bioinformatics of Genome Regulation and Structure (BGRS'2006), Novosibirsk, Russia, p. 211.


Pages:     | 1 | 2 ||
 




Похожие работы:







 
2013 www.деньсилы.рф - «МЕДИЦИНА-ЛЕЧЕНИЕ-ОЗДОРОВЛЕНИЕ»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.