Как было отмечено выше, секвенирование сегодня является одним из самых необходимых методов исследования, благодаря которому можно узнать огромное количество информации об исследуемом объекте [3].
Имея на руках секвенированную нуклеотидную последовательность, исследователь хочет получить из нее максимальную информацию. Например, он хочет иметь структурно- функциональную разметку последовательности. Таким образом, мы приходим к задаче классификации сайтов и областей на последовательности. Сравнивая выборки фрагментов последовательностей, причем каждый набор отвечает определенной функции, исследователь находит в них статистические закономерности, которые, во-первых, свойственны индивидуальной выборке и, во-вторых, отличают эту выборку от всех остальных. Далее исследователь приходит к представлению об одном элементе выборки, как о наблюдаемой реализации некоторого стохастического процесса, описываемого соответствующей моделью, которая относится ко всей выборке. Получив такое представление, исследователь может заняться классификацией вновь получаемых фрагментов с помощью хорошо известного байесовского подхода. [4]
|
|
Методы поиска повторов в последовательностях ДНК
Геном эукариот характеризуется двумя основными особенностями: повторенность нуклеотидных последовательностей; разделением по составу на различные фрагменты, характеризуемые специфическим содержанием нуклеотидов.
Повторенная ДНК состоит из нуклеотидных последовательностей различной длины и состава, которые встречаются в геноме несколько раз либо в тандемно-повторенном, либо в диспергированном виде. Последовательности ДНК, которые не повторяются, называются уникальной ДНК (single-copy DNA). Размер части генома, занятой повторяющимися последовательностями, широко варьирует между таксонами. У дрожжей он достигает 20%, у млекопитающих до 60% всей ДНК повторяется. У растений процент повторенных последовательностей может превышать 80% [5].
Для поиска повторов используются различные методы, которые можно разделить на несколько групп. Первые 3 группы решают задачу, когда максимум что известно про повторы - примерная длина и степень дивергенции.
1. Точные методы. В эту группу включены методы, которые гарантируют обнаружение всех специфицированных повторов.
2. Приближенные, в том числе эвристические методы строятся с целью убыстрения точных методов.
3. Методы, использующие статистические особенности последовательности, например, методы сжатия, фурье-трансформации, байесовский подход. Однако эти методы работают только на протяженных кластерах сравнительно коротких повторов.
|
|
4. Поиск по образцу. Эта группа отличается тем, что прототип повтора известен заранее. Образец может быть представлен одиночной последовательностью, консенсусом, консенсусной матрицей или более сложной моделью. Например, многие известные повторы собраны в БД (база данных) RepBase (http://www.girinst.org/~server/repbase.html). В случае короткого повтора, когда внутренние делеции-вставки маловероятны, для поиска используется простое сканирование последовательности заданной моделью. В случае длинного прототипа используются методы поиска выравнивания прототипа с исследуемой последовательностью [6].
Поиск гомологии в БД нуклеотидных последовательностей
Поиск гомологии в БД нуклеотидных последовательностей необходим при решении самых разных задач, например:
ü предсказание функций неизвестных генов;
ü сравнительное изучение структурно-функциональных особенностей целых геномов, их частей, а также их эволюции.
ü Предсказание экзон-интронной структуры генов;
ü Стыковка и проверка секвенированных фрагментах в проектах по секвенированию. Несмотря на то, что имеются эффективные методы и алгоритмы сравнения пары нуклеотидных последовательностей, они недостаточно быстры, чтобы выполнить сравнение между заданной последовательностью и всеми последовательностями БД ввиду большого объема последней. Для поиска гомологии по БД часто применяют методы фильтрации, а именно для пары последовательностей предварительно вычисляют некоторую величину, которая могла бы отбросить заведомо негомологичные пары. Для оставшихся пар уже можно было бы выполнить сравнение с помощью какого-либо детального метода [7].
Глава 2. ОПЫТ РЕАЛИЗАЦИИ ИТ В СОБСТВЕННЫХ ИССЛЕДОВАНИЯХ