WWW.ДЕНЬСИЛЫ.РФ

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Медицина

 

Pages:   || 2 | 3 |

Компьютерный метод систематики микроорганизмов на основе алгоритмической теории информации и его приложение к таксономии и номенклатуре микроскопических грибов рода trichoderma

-- [ Страница 1 ] --

На правах рукописи

Тарасов Денис Станиславович

Компьютерный метод систематики микроорганизмов на основе алгоритмической теории информации и его приложение к таксономии и номенклатуре микроскопических грибов рода Trichoderma

03.00.07- 03 микробиология

Автореферат

диссертации на соискание ученой степени

кандидата биологических наук

Казань, 2007

Работа выполнена на кафедре генетики ГОУ ВПО “Казанский государственный университет им В.И. Ульянова-Ленина», г. Казань.

Научный руководитель: кандидат биологических наук

Акберова Наталья Иванована

Официальные оппоненты: доктор биологических наук

Наумова Римма Павловна

доктор ветеринарных наук

Алимов Азат Миргасимович

Ведущая организация: Казанский институт биохимии

и биофизики КазНЦ РАН,

г.Казань

Защита состоится 29 ноября 2007 г. в 13 ч 00 мин. на заседании диссертационного совета Д. 212.081.08 при Казанском государственном университете по адресу г. Казань Кремлевская 18

С диссертацией можно ознакомиться в Научной библиотеке им. Н.И. Лобачевского Казанского государственного университета

Автореферат разослан “29” октября 2007 года

Ученый секретарь

диссертационного совета,

доктор биологических наук Абрамова З.И.

Актуальность темы

Систематика организмов имеет две цели:

  1. теоретическую - установление взаимосвязей между признаками различных организмов
  2. практическую - идентификация организмов, предсказание свойств идентифицированных организмов на основании их принадлежности к группе

Систематика включает в себя три большие области:

  1. Номенклатура занимается вопросами выбора имен для систематических групп.
  2. Таксономия занимается таксонами и взаимосвязями между ними
  3. Идентификация - отнесение организма к конкретному таксону

Современная систематика микроорганизмов сталкивается со значительными проблемами.

В области номенклатуры. Современная номенклатура в систематике регулируется с помощью устоявшихся наборов правил, ведущих свое начало со времен Линнея. Существует Зоологический кодекс номенклатуры, Ботанический кодекс, Бактериологический кодекс и Вирусный кодекс. Эти кодексы номенклатуры вызывают много нареканий. Указывается, например, на то, что при работе в рамках задаваемых ими правил систематик микроорганизмов вынужден тратить значительное время (до 20% всего рабочего времени) на номенклатурные/историко-библиографические изыскания, вместо того, чтобы заниматься предметом своих исследований.

В области таксономии. Систематика микроорганизмов сталкивается с рядом проблем, обусловленных спецификой изучаемого объекта:

  • большое разнообразие микроорганизмов;
  • отсутствие полового процесса у многих микроорганизмов не позволяет использовать определение вида по признаку скрещиваемости;
  • горизонтальный перенос генов размывает границы видов и усложняет реконструкцию филогении;
  • высокая скорость мутационных изменений

В систематике микроорганизмов используются различные группы признаков, такие как морфологические, физиологические, биохимические, молекулярно-генетические. Широко признается тот факт, что данных одной группы признаков недостаточно для установления взаимосвязей между таксонами. Но в связи с тем, что на сегодняшний день отсутствуют действенные методы интеграции морфологических, физиологических, биохимических и молекулярно-генетических данных в рамках единого подхода, на практике часто 3данные одной группы признаков.

В отчете 2006 года Американской Академии Микробиологии сделан вывод о том, что используемые сегодня средства систематики не способны адекватно учитывать существующее разнообразие микроорганизмов, что является обоснованием необходимости разработки принципиально новых подходов к систематике микроорганизмов.

Одним из перспективных подходов к систематике является применение алгоритмической теории информации, которая использовалась ранее для создания метода построения филогенетических деревьев на основании сравнения целых геномов.

Предполагается, что использование алгоритмической теории информации можно распространить и на другие группы признаков, а также на другие вопросы систематики, такие как описание свойств микроорганизмов и вопросы номенклатуры.

Цель работы

Целью данной работы было создание компьютерного метода систематики микроорганизмов на основе алгоритмической теории информации

Для выполнения работы были поставлены следующие основные задачи:

  1. Разработка способа унифицированного описания морфологических, физиологических, биохимических и молекулярно-генетических признаков, пригодный для использования в компьютерных классификационных процедурах
  2. Разработка компьютерных классификационных процедур для построения таксономических деревьев, использующих унифицированные описания признаков и метрику расстояния, основанную на алгоритмической сложности
  3. Проверка разработанных процедур на практике

Научная новизна

Впервые создан метод, позволяющий использовать универсальную меру расстояния (нормализованное информационное расстояние) при анализе таксономии микроорганизмов с использованием морфологических, физиологических и биохимических признаков. Разработанный метод сочетает в себе преимущества нумерического и традиционного (интуитивного) подходов к систематике и обладает следующими преимуществами:



  • Исключаются проблемы связанные с произвольным выбором меры расстояния и сводится к минимуму эффект от выбора алгоритма кластеризации.
  • Метод позволяет включать знания и личный опыт систематика посредством выбора средств кодирования признака в программе-описании. В отличие от матрицы признаков, используемой в других нумерических методах, программа-описание способствует более обдуманному подходу к процессу выбора и кодирования признаков, сохраняет логику принятых в этом процессе решений для последующего анализа другими исследователями.
  • Разработанный метод не требует использования строго независимых признаков. В описания-программы могут включаться связанные признаки, одновременно с информацией о способах их взаимодействия и развития процесса во времени.

Практическая значимость работы

Разработанный метод может использоваться во всех задачах таксономии микроорганизмов, где обычно используется нумерическая систематика и кластерный анализ.

Разработанное программное обеспечение и язык ConceptSystem может быть применен в практической работе исследователя-микробиолога, а также в учебном процессе.

Предложенные улучшения к микробиологической номенклатуре, основанные на использовании пространств имен и псевдонимов, могут быть использованы в практической работе с систематикой микроорганизмов, поскольку являются совместимыми с существующими номенклатурными правилами, что одновременно упростит работу.

Методы исследования

Программы для синтаксического разбора формализованных описаний микроорганизмов, графический интерфейс пользователя для работы с описаниями, программа, вычисляющая приблизительное значение алгоритмической сложности и программа построения матрицы расстояний были написаны с помощью языка программирования F#. Для сжатия данных описаний использовался алгоритм gzip. Классификационные деревья строились с помощью алгоритмов UPGMA, Neighbor-Joining, и метода минимального эволюционного расстояния, реализованных в программном пакете PHYLIP, и визуализировались с помощью пакета PhyloDraw. При разработке языка ConceptSystem использовалась технология объектно-ориентированного программирования. Для построения объектно-ориентированных классификаций Trichoderma использовался графический язык UML (Unified Modeling Language), для создания UML диаграмм использовалась программа UMLet.

Апробация работы

Результаты работы докладывались на международных конференциях Bioinformatics of Genome Regulations and Structure’2002 и 2004, Moscow Conference on Computational Molecular Biology, 2003 и 2007. Кроме того, результаты работы докладывались на 6-ой (2002), 7-ой (2003), 8-ой (2004) и 9-ой (2005) Пущинских школах-конференциях молодых ученых «Биология - наука XXI века», секция «Математическая биология», и XII Международной конференция студентов, аспирантов и молодых ученых «Ломоносов 2005».

Публикации

По теме диссертации опубликовано 29 печатных работ, в том числе 19 тезисов конференций, 4 трудов международных конференций, 6 статей в научных журналах, в. т. ч. 4 - в изданиях, рекомендованных ВАК для публикации результатов кандидатских диссертаций, 1 зарегистрированная программа для ЭВМ.

Объем и структура диссертации

Диссертация состоит из введения, трех глав, заключения и списка литературы, изложена на 110 страницах. Работа включает 25 рисунков и 8 таблиц.


ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Введение

Во введении формулируется проблема, дается краткое описание состояния современной микробиологической систематики, ставится цель работы и задачи. Обосновывается формулировка цели и задач.

Первая глава. Обзор литературы

Современная биологическая систематика имеет длительную историю. Существовало и существует множество различных направлений, часто называемых по-разному в различных источниках. Первоначально целью биологической систематики было построение некоторой «естественной» системы живых организмов.

Систематика в это время опиралась на философскую доктрину, известную как «эссенциализм». Под эссенциализмом обычно понимается точка зрения, согласно которой для любого предмета или существа возможно перечислить набор характеристик, наличие которых необходимо и достаточно для определения его принадлежности к определенной группе. Эти характеристики выражают «сущность» этого предмета. Эссенциализм можно видеть в учении древнегреческого философа Платона об идеях.

Позднее Аристотель впервые вводит иерархический принцип в систематику, говоря о том, что каждая вещь характеризуется родом (то, что есть у нее общего с другими вещами) и видом – конкретной спецификой данной вещи.

В XVIII веке Карл Линней вводит во всеобщее употребление биномиальную номенклатуру. Кроме того, он вводит схему классификации по принадлежности организма к таксонам различных рангов (от конкретного к более общему), выделяя царство, класс, порядок, семейство, род и вид. Таким образом оформляются два из трех основных принципов номенклатуры современной систематики – иерархический принцип и биномиальные названия. Также оформляется и деление таксонов по рангам и названия самих рангов.





В 1867 году де Кандоль вводит третий основной принцип современной номенклатуры – принцип приоритета. Согласно ему за названием (родом и видом) организма закрепляется первое данное ему название, которое впоследствии не меняется. Необходимость этого принципа была обусловлена тем, что до этого общая практика состояла в том, что названия родов и видов постоянно пересматривались, в поисках «наиболее лучшего» названия, отражающего новые знания об этом виде, что естественно создавало массу проблем для общения систематиков. Чтобы решить эту проблему «наиболее лучшее» название было принесено в жертву стабильности в названиях.

В рассмотренное время номенклатура продолжает совершенствоваться, а способ построения классификаций остается по сути неизменным. Для построения классификации исследователь на основании своей интуиции и личного опыта выбирает «существенные» признаки, т.е. признаки, характеризующие сущность организма, таким же образом выбирает наиболее важные из этих признаков и уже на основании этих признаков (как правило, небольшого их числа) строит классификацию.

По мере того, как среди биологов распространяется убеждение о том, что виды не являются неизменными, цель систематики смещается от открытия «естественной системы», которой видимо, не существует, к удовлетворению практических потребностей. С другой стороны, с развитием эволюционных представлений был выдвинут тезис о том, что систематика должна отражать родство живых организмов. Соответственно в систематике оформляются различные направления

Методы фенетики

В противоположность идее о наличии «существенных» признаков нумерическая систематика основана на количественном учете всех признаков (точнее, большого числа различных признаков).

Возникновение идеи нумерической систематики связывают с именем французкого ботаника Адансона, жившего в XVIII веке. Он впервые предположил, что отдельные признаки не имеют устойчивого значения, и только совокупность всех признаков может являться целостной систематической характеристикой. Точный учет большого количества признаков, остается, однако, во времена Адансона непосильной задачей.

В 60-х годах ХХ века П. Снит и Р. Сокал, работая над проблемой систематики бактерий, разрабатывают принципы и методы количественной фенетики, опирающиеся на использование компьютеров для проведения вычислений.

В фенетическом анализе используется очень большое (200-300 или столько, сколько можно практически определить) число признаков. Первоначально предполагалось использование только невзвешенных и независимых признаков, однако последующие работы рассматривали также применение взвешенных признаков. По степени сходства организмов (т.е. по количеству совпадающих признаков) строится матрица, по которой затем производится кластерный анализ и строится фенограмма.

Сторонники фенетики считают этот метод объективным, поскольку он теоретически не зависит от субъективной оценки «важности» признаков или от выбора ограниченного набора признаков. Реально, однако, набор исследуемых признаков всегда ограничен, имеются сложности с выбором исключительно независимых признаков. Существует огромное количество разнообразных мер расстояний – формул, по которым вычисляется степень сходства организмов и, кроме того, существует большое число алгоритмов построения фенограмм, дающих разные результаты. Поэтому фенетика не смогла принести в систематику ту ясность и однозначность, на которую надеялись ее сторонники.

Методы кладистической (филогенетической) систематики

Кладистическое направление в систематики возникло благодаря работам В. Хеннига. Слово «кладистика» происходит от греческого слова, klados – ветвь (Хенниг для обозначения своего подхода употреблял термин «филогенетическая таксономия»). Сущность кладистического направления можно определить как классификацию организмов исключительно по их порядку ветвления на эволюционном дереве, а не в соответствии с морфологическим сходством.

Кладистика соответственно признает только монофилитические (происходящие от одного общего предка) систематические группы.

Монофилитические группы выделяются путем анализа признаков, которые присутствовали до появления последнего общего предка группы (плезиоморфные признаки) и признаки, появившиеся у последнего общего предка (синапоморфные признаки).

Разделение признаков на плезиоморфные и синапоморфные производится путем сравнения организмов некоторой группы с внешней группой (родственной группой, но не происходящей от последнего общего предка исследуемой группы).

Кладистический анализ можно производить по любым признакам, однако в последнее время часто используются данные о последовательности ДНК и РНК. Для построения кладограмм используются компьютерные алгоритмы, такие как метод максимальной парсимонии (MP) и максимального правдоподобия (ML). Эти методы часто требуют чрезмерно больших вычислительных ресурсов.

Современное состояние методов систематики



Pages:   || 2 | 3 |
 


Похожие работы:







 
2013 www.деньсилы.рф - «МЕДИЦИНА-ЛЕЧЕНИЕ-ОЗДОРОВЛЕНИЕ»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.