WWW.ДЕНЬСИЛЫ.РФ

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Медицина

 


Pages:     | 1 || 3 |

Компьютерный анализ сплайсинга

-- [ Страница 2 ] --

Для того чтобы построить профиль сайта ветвления, в окне [–l, –r] ([-2,-40] для Aspergillus spp. и Neurospora crassa) левее акцепторного сайта осуществлялся поиск наилучшего слова, удовлетворяющего консенсусу [CT]T[AG]a[CT], идеально - CTAaC. Для кандидатов допускались отклонения от идеального слова только в двух из трех вырожденных позиций. На множестве кандидатов строилось распределение расстояний до акцепторного сайта. Применение этой же процедуры к случайным последовательностям задает уровень шума - среднюю частоту встречаемости слова в случайной последовательности. Далее, окно поиска уточнялось так, чтобы частота в окне превышала уровень шума. На множестве кандидатов, найденных в уточненном окне поиска, строилась частотная матрица размером 7 позиций, распределение расстояний до акцептора и распределение динуклеотидов AG. К каждому элементу полученной частотной матрицы добавлялось число, пропорциональное квадратному корню из числа последовательностей – псевдоотсчеты. В состоянии HMM “5’ сайт экзона” генерируются нуклеотиды: собственно акцепторного сайта сплайсинга и соответствующего сайта ветвления. Сайт ветвления определяется как мотив с наибольшим весом в окне [-1.3l,-r] от каждого динуклеотида AG, где l и r – левая и правая координаты окна в котором сайт ветвления встречается чаще, чем в случайной последовательности. Вес мотива определяется как логарифм отношения правдоподобия модели сайта ветвления к интронной модели: . Были использованы следующие обозначения: x – мотив, P(x|BPS) и P(x|Intron) вероятности мотива по профилю сайта ветвления и модели внутренней части интрона соответственно, d и NAG – количество нуклеотидов и число динуклеотидов AG между сайтом ветвления и кандидатом в акцепторный сайт соответственно.

Результаты тестирования

Программа была обучена и протестирована на генах Aspergillus spp. и Neurospora crassa на одногенных и мультигенных фрагментах. Качество предсказания GipsyGene к кодирующим нуклеотидам в одногенных фрагментах составило 96% чувствительность и 95% специфичность для Aspergillus spp, 93% и 95% соответственно для Neurospora crassa. Качество предсказания экзонов в одногенных фрагментах Aspergillus spp. (и Neurospora crassa) составило: чувствительность - 80 (75)%, специфичность - 73 (69)%, потерянных экзонов - 4 (8)%, полностью ложных экзонов - 12 (12)%, что соответствует характеристикам аналогичных программ. Вклад модели сайта ветвления в качество предсказания незначителен для статистик кодирующих нуклеотидов (~1%), однако, увеличение чувствительности и специфичности распознавания экзонов может достигать 10%, что объясняется улучшением распознавания коротких интронов.

Как и у всех программ этого класса, применение GipsyGene на многогенных фрагментах приводит к потере в специфичности, в зависимости от длины межгенных спейсеров, что объясняется тем, что в настоящее время не существует надежных моделей, позволяющих предсказывать границы генов. При тестировании программы на искусственных многогенных фрагментах ДНК, со средней длиной межгенного интервала (2000 оснований), свойственного Aspergillus, снижение специфичности составило ~5%. Чувствительность программы не зависит от длины анализируемой последовательности и длинны спейсеров.

Комплекс программ автоматической аннотации геномов

Разработанная программа GipsyGene является частью комплекса программ распознавания генов. Процесс автоматической аннотации генома состоит из нескольких последовательных этапов:

  1. Первичная идентификация фрагментов генома, кодирующих аминокислотные последовательности похожие на ранее известные последовательности. Для этого используются программы семейства BLAST. Для определения экзон-интронной структуры генов эукариот необходим следующий этап, для прокариот можно сразу переходить к третьему этапу аннотации.
  2. Предсказание генов по сходству. На этом этапе применяются программы сплайсового выравнивания последовательностей белков и геномной ДНК, например, PROFRAME. Для эффективной работы программ этого класса используется предыдущий этап.
  3. Обучение GipsyGene. Параметры распознающих моделей оцениваются на основании обучающего множества, включающего в себя гены, предсказанные по сходству на предыдущих этапах.
  4. Применение обученной программы.
  5. Интегрирование результатов предсказания генов на разных этапах в заключительную аннотацию. Предсказания, сделанные различными программами, взвешиваются с помощью эвристической процедуры. Для каждого фрагмента ДНК алгоритм динамического программирования, выбирает последовательность предсказаний, максимального веса.

Процедура аннотации прокариотического генома была применена к фрагменту ДНК Saccharopolyspora erythraea (предварительная сборка, draft) длиной около 2106 пар оснований. Качество предсказания генов программным комплексом оценивалось по отношению к тестирующему множеству 43 аннотированных последовательностей в GenBank, для которого нуклеотидная чувствительность составила 97%, специфичность – 86%. Относительно низкая специфичность объясняется неполной аннотацией последовательностей, так как для всех предсказанных генов длинной более 300 нуклеотидов с помощью BlastX было обнаружено существенное сходство с каким-либо белком.

Глава 3. Элементарные альтернативы в генах эукариот

На этапе первичной аннотации генома игнорируется тот факт, что более 50% генов может быть подвержено альтернативному сплайсингу. В настоящее время, альтернативный сплайсинг рассматривается, как важнейший механизм эволюции генов. Изоформы мРНК одного гена могут кодировать белки с различающимися функциями, специфично экспрессироваться в различных тканях, или являться ошибками сплайсинга, которые уничтожаются с помощью NMD - специального механизма, сопряженного с трансляцией. Определение вариантов альтернативного сплайсинга осуществляется на основании сплайсированного выравнивания маркеров экспрессии – мРНК и EST с геномной последовательностью. Альтернативный сплайсинг гена естественным образом может быть представлен в виде ориентированного ациклического графа, множество путей на этом графе представляет множество потенциально возможных вариантов мРНК. Вершинами графа являются сайты сплайсинга, либо сайты начала или конца транскрипции. Направление на ребрах графа соответствует 5’3’ направлению цепи ДНК, содержащей ген. Два пути на графе, между вершинами u и v, являются взаимно исключающими, если они не имеют других общих вершин кроме u и v. Взаимно исключающие пути обладают следующим свойством – для них не существует общего ребра (экзона или интрона), следовательно, они соответствуют независимым событиям сплайсинга. Анализ графа сплайсинга позволяет выделять альтернативы – подграфы, в пределах которых существует путь между источником u и стоком v который является взаимно исключающим со всеми остальными путями. Менее формальное определение: альтернатива – это фрагмент пре-мРНК, внутри которого существует несколько вариантов сплайсинга. При этом среди всех вариантов сплайсинга, для которых границы этого фрагмента являются общими сайтами, существует такой, у которого внутри фрагмента нет сайтов, общих с другими





 Основные типы элементарных альтернатив. А – альтернативный-1

Рисунок 1. Основные типы элементарных альтернатив. А – альтернативный донорный сайт или альтернативная терминация транскрипции; Б – альтернативный акцепторный сайт или альтернативная инициация транскрипции; В – удержанный интрон; Г – кассетный экзон; Д – чередующиеся экзоны.

Традиционно в работах, исследующих альтернативнй сплайсинг, используется классификация элементарных альтернатив по основным типам (см. рис 1). Определение альтернатив в виде подграфов графа сплайсинга включает в себя все типы элементарных альтернатив. В настоящей работе предложен эффективный метод автоматической идентификации и классификации альтернатив. Данный метод был применен к анализу базы данных альтернативно сплайсируемых генов EDAS. Классификация альтернатив важна для исследования сплайсинга, так как различные типы элементарных альтернатив обладают разными свойствами.

Для фильтрации редких альтернатив, был применен биноминальный тест с параметром 0,01. Значение параметра теста подбиралось исходя из оценки частоты ошибок сплайсосомы (см. далее). Вариант сплайсинга, через который проходит наибольшее количество EST, называется базовым. Пусть через источник и сток альтернативы проходит N EST, а через минорный вариант сплайсинга K EST. Сумма соответствующих биномиальных частот:

является вероятностью того, что событие с количеством EST в минорном пути меньше наблюдаемого (K) встречаются с частотой 0,01. Если вероятность P>0,95 то отвергается нулевая гипотеза, мы считаем, что частота минорного варианта больше пороговой, иначе альтернатива считается редкой.

Свойства элементарных альтернатив

Наиболее распространенным типом элементарных альтернатив является кассетный экзон 57% - 64% (последнее значение получено без учета редких альтернатив). Около 51% кассетных экзонов являются пропусками экзона в базовой изоформе. Доля удержанных интронов составляет 8% (как с учетом, так и без учета редких делеций и вставок). В противоположность кассетным экзонам, 58% удержанных интронов являются вставками в базовую изоформу. Около 59% всех альтернатив, имеющих EST покрытие, приходится на редкие варианты сплайсинга. Несмотря на значительное число EST человека ~ 4-106 последовательностей, более половины элементарных альтернатив, по-видимому, являются ошибками сплайсинга в генах с высоким уровнем экспрессии, в то время как для большинства генов с низким и умеренным уровнем экспрессии альтернативный сплайсинг недостаточно полно представлен в EST.

Один из двух вариантов сплайсинга в элементарных альтернативах соответствует более длинной мРНК, чем другой вариант. Были построены распределения частоты включения в мРНК длинного варианта сплайсинга для каждого типа альтернатив. Диапазон частот включения от 0 до 0,4 соответствует вставкам нуклеотидов в базовую изоформу, диапазон от 0,4 до 0,6 соответствует равнозначным альтернативам и диапазон от 0,6 до 1 – делециям в базовой изоформе. Распределения частот включения для альтернативных сайтов (рис. 1 А и Б) и кассетных экзонов (рис. 1 Г) обладают большим сходством что определяется общим механизмом, лежащим в основе альтернативного сплайсинга, - конкуренцией сайтов базовой и альтернативной изоформ. В случае кассетного экзона, по-видимому, решающим является распознавание какого-нибудь одного из альтенативных сайтов.

Координированный альтернативный сплайсинг

Алгоритм выделения альтернатив позволяет обнаружить координированный альтернативный сплайсинг. Две альтернативы (не обязательно элементарные) называются соседними, если между стоком 5’- альтернативы и источником 3’-альтернативы на графе сплайсинга существует единственный путь. Для соседних альтернатив проверялась нулевая гипотеза H0 о независимости сплайсинга, в этом случае распределение наблюдаемых путей в 3’-альтернативе не зависит от пути следования через 5’- альтернативу. Для проверки гипотезы нужно рассмотреть совместное распределение числа EST на всех возможных парах путей в соседних альтернативах. Это распределение может быть представлено в виде матрицы смежности (рис. 2). Гипотеза о независимости проверяется с помощью точного теста Фишера.

Применение алгоритма идентификации соседних альтернатив позволило обнаружить гены, для которых сплайсинг в 3’- альтернативе зависит от варианта сплайсинга в 5’-альтернативе (координированный сплайсинг). Из 630 генов, содержащих соседние альтернативы с достаточным для анализа покрытием EST, только для 60 генов был показан координированный сплайсинг. Мы оценили, что около 25% генов человека содержат более одной альтернативно сплайсируемой области, следовательно, сплайсинг этих областей может быть координирован. Оценка была получена с помощью программы IsoformCounter (см. следующую главу). EST содержат в среднем четыре экзона, кроме того, 3’ и 5’ концы генов, кодирующих длинные транскрипты мРНК, обычно имеют значительно более высокое покрытие по сравнению с серединой. Мы идентифицировали лишь незначительную часть существующих соседних альтернатив, для которых EST покрытие было достаточно для анализа. Для пяти генов, содержащих области координированного альтернативного сплайсинга, совместное распределение вариантов в соседних альтернативах с высокой значимостью отличалось от ожидаемого исходя из модели H0 (pval<0,007). Было показано, что распределение наблюдаемых частот вариантов сплайсинга в этих генах не может быть объяснено деградацией изоформ, содержащих преждевременный СТОП-кодон (NMD). Действие тканевых факторов для четырех из пяти генов так же не может объяснить наблюдаемое распределение.

Наши коллеги на модели минигенов, содержащих два идентичных кассетных экзона EDI гена фибронектина (FN) человека, разделенные фрагментом, из трех последовательных константных экзонов и соответствующими интронами, показали, что наблюдаемый координированный сплайсинг в соседних альтернативах зависит от скорости транскрипции. Высокая скорость транскрипции уничтожает координационный эффект. Координация сплайсинга в соседних альтернативах зависит от промотора, под управлением которого инициируется транскрипция, т.е. координация исчезает под управлением промотора -глобинового гена и восстанавливается при ингибировании полимеразной активности pol-II. Альтернативный сплайсинг одного из пяти генов (PCBP2), для которых координированный сплайсинг был показан в EST с высоким уровнем значимости, был исследован экспериментально. Было показано, что существует высокая корреляция между распределением частот изоформ, оцененным по EST-данным и по результатам ОТ-ПЦР.

Рисунок 2. Координированный альтернативный сплайсинг гена PCBP2. В каждой альтернативе содержится по два пути a, b в 5’ и c, d в 3’. В таблицах показано число EST в EDAS, подтверждающее каждую пару путей в соседних альтернативах.

 Распределение вариантов сплайсинга гена PCBP2 приведено на рисунке 2. Если 5’-3

Распределение вариантов сплайсинга гена PCBP2 приведено на рисунке 2. Если 5’ кассетный экзон пропускается (вариант a) то, 3’ кассетный экзон (d) включается в состав 100% мРНК. Если 5’ кассетный экзон включается (вариант b), то доля экзона d в мРНК снижается до 52%. Таким образом, введение задержки транскрипции РНК должно приводить к увеличению доли включения 5’ экзона b и как следствие снижать долю мРНК, содержащих экзон d. Этот эффект был обнаружен после обработки трех клеточных линий ингибитором полимеразной активности DRB, что привело к снижению доли включения экзона d примерно на 50%.

Глава 4. Альтернативный сплайсинг и функция белков

Последовательности EST являются основным источником информации об альтернативном сплайсинге. Так как EST – это случайные фрагменты мРНК сравнительно небольшой длинны (300 - 500 нуклеотидов), то существует проблема восстановления по этим данным полноразмерных мРНК (сборка EST). Для решения задачи о сборке EST, была разработана программа IsoformCounter, с помощью которой, для каждого гена из базы данных EDAS определяется число кодирующих изоформ. IsoformCounter позволяет определить число и положение альтернативных областей относительно самой длинной белковой изоформы.

Для каждого гена альтернативный сплайсинг в EDAS представлен множеством сегментов - экзонов и интронов. Сегменты обладают уровнем достоверности (подтверждения), определяемым как число библиотек клонов, содержащих последовательности EST которые выравниваются или сплайсируются в этом сегменте. Если для некоторых сегментов существует подтверждающая последовательность мРНК, то их уровень достоверности всегда больше, чем максимальный уровень EST достоверности. Самую большую достоверность имеют экзоны и интроны, подтвержденные выравниванием с известным белком.

Программа IsoformCounter генерирует ограниченное множество кодирующих изоформ, такое, что для каждого экзона и интрона, самая длинная изоформа, проходящая через него, является элементом этого множества, причем достоверность этой изоформы равна достоверности сегмента. Достоверность изоформы определяется как минимальная достоверность ее сегментов.

Белковые изоформы альтернативно сплайсируемых генов



Pages:     | 1 || 3 |
 




Похожие работы:







 
2013 www.деньсилы.рф - «МЕДИЦИНА-ЛЕЧЕНИЕ-ОЗДОРОВЛЕНИЕ»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.