Классификация последовательностей с помощью байесовского подхода

Как было отмечено выше, секвенирование сегодня является одним из самых необходимых методов исследования, благодаря которому можно узнать огромное количество информации об исследуемом объекте [3].

Имея на руках секвенированную нуклеотидную последовательность, исследователь хочет получить из нее максимальную информацию. Например, он хочет иметь структурно- функциональную разметку последовательности. Таким образом, мы приходим к задаче классификации сайтов и областей на последовательности. Сравнивая выборки фрагментов последовательностей, причем каждый набор отвечает определенной функции, исследователь находит в них статистические закономерности, которые, во-первых, свойственны индивидуальной выборке и, во-вторых, отличают эту выборку от всех остальных. Далее исследователь приходит к представлению об одном элементе выборки, как о наблюдаемой реализации некоторого стохастического процесса, описываемого соответствующей моделью, которая относится ко всей выборке. Получив такое представление, исследователь может заняться классификацией вновь получаемых фрагментов с помощью хорошо известного байесовского подхода. [4]

Методы поиска повторов в последовательностях ДНК

Геном эукариот характеризуется двумя основными особенностями: повторенность нуклеотидных последовательностей; разделением по составу на различные фрагменты, характеризуемые специфическим содержанием нуклеотидов.

Повторенная ДНК состоит из нуклеотидных последовательностей различной длины и состава, которые встречаются в геноме несколько раз либо в тандемно-повторенном, либо в диспергированном виде. Последовательности ДНК, которые не повторяются, называются уникальной ДНК (single-copy DNA). Размер части генома, занятой повторяющимися последовательностями, широко варьирует между таксонами. У дрожжей он достигает 20%, у млекопитающих до 60% всей ДНК повторяется. У растений процент повторенных последовательностей может превышать 80% [5].

Для поиска повторов используются различные методы, которые можно разделить на несколько групп. Первые 3 группы решают задачу, когда максимум что известно про повторы - примерная длина и степень дивергенции.

1. Точные методы. В эту группу включены методы, которые гарантируют обнаружение всех специфицированных повторов.

2. Приближенные, в том числе эвристические методы строятся с целью убыстрения точных методов.

3. Методы, использующие статистические особенности последовательности, например, методы сжатия, фурье-трансформации, байесовский подход. Однако эти методы работают только на протяженных кластерах сравнительно коротких повторов.

4. Поиск по образцу. Эта группа отличается тем, что прототип повтора известен заранее. Образец может быть представлен одиночной последовательностью, консенсусом, консенсусной матрицей или более сложной моделью. Например, многие известные повторы собраны в БД (база данных) RepBase (http://www.girinst.org/~server/repbase.html). В случае короткого повтора, когда внутренние делеции-вставки маловероятны, для поиска используется простое сканирование последовательности заданной моделью. В случае длинного прототипа используются методы поиска выравнивания прототипа с исследуемой последовательностью [6].

Поиск гомологии в БД нуклеотидных последовательностей

Поиск гомологии в БД нуклеотидных последовательностей необходим при решении самых разных задач, например:

ü предсказание функций неизвестных генов;

ü сравнительное изучение структурно-функциональных особенностей целых геномов, их частей, а также их эволюции.

ü Предсказание экзон-интронной структуры генов;

ü Стыковка и проверка секвенированных фрагментах в проектах по секвенированию. Несмотря на то, что имеются эффективные методы и алгоритмы сравнения пары нуклеотидных последовательностей, они недостаточно быстры, чтобы выполнить сравнение между заданной последовательностью и всеми последовательностями БД ввиду большого объема последней. Для поиска гомологии по БД часто применяют методы фильтрации, а именно для пары последовательностей предварительно вычисляют некоторую величину, которая могла бы отбросить заведомо негомологичные пары. Для оставшихся пар уже можно было бы выполнить сравнение с помощью какого-либо детального метода [7].

Глава 2. ОПЫТ РЕАЛИЗАЦИИ ИТ В СОБСТВЕННЫХ ИССЛЕДОВАНИЯХ

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями: