БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Выпускная работа по
«Основам информационных технологий»
Магистрантки
Кафедры микробиологии
Лисовой Анна Николаевны
Руководитель:
Д.б.н. профессор Прокулевич В. А.
Минск, 2008 г.
Реферат на тему:
«Информационные технологии в микробиологии»
ОГЛАВЛЕНИЕ
Реферат на тему: 2
ОГЛАВЛЕНИЕ. 3
ПЕРЕЧЕНЬ СОКРАЩЕНИЙ.. 4
ВВЕДЕНИЕ. 5
Глава 1. ОБЗОР ЛИТЕРАТУРЫ.. 7
1.1 Программы статистической обработки данных. 7
1.2 Классификация последовательностей с помощью байесовского подхода 9
1.3 Методы поиска повторов в последовательностях ДНК.. 9
1.4 Поиск гомологии в БД нуклеотидных последовательностей. 11
Глава 2. ОПЫТ РЕАЛИЗАЦИИ ИТ В СОБСТВЕННЫХ ИССЛЕДОВАНИЯХ 12
2.1 Построение дендрограммы штаммов вируса клещевого энцефалита, выделенных на территории Беларуси и взятых из компьютерного банка данных Gen Bank. 12
ЗАКЛЮЧНИЕ. 13
ЛИТЕРАТУРА.. 15
Предметный указатель к реферату. 16
Интернет ресурсы в предметной области исследования. 17
|
|
Личный сайт в WWW... 23
Граф научных интересов. 24
Презентация магистерской диссертации. 27
ПЕРЕЧЕНЬ СОКРАЩЕНИЙ
SPSS - Statistical Package for Social Science
БД – база данных
ДНК – дезоксирибонуклеиновая кислота
ИТ – информационные технологии
КЭ – клещевой энцефалит
НП – нуклеотидная последовательность
РНК – рибонуклеиновая кислота
ВВЕДЕНИЕ
Современная биология, и микробиология, в частности, стала производителем огромных объемов экспериментальных данных, осмысливание которых невозможно без привлечения современных информационных технологий (ИТ) и эффективных математических методов анализа данных и моделирования биологических систем и процессов.
Развитие человечества будет неразрывно связано с биологией и информатикой, поскольку с развитием технологий и приборов возрастает количество исследований и, следовательно, объем получаемой информации, которая для принесения пользы должна быть грамотным образом обработана.
Особенно стремительный прогресс информационных технологий (ИТ) наблюдается в последние десятилетия 20-го века. Можно проследить хронологическое совпадение со значимыми открытиями в различных областях биологии. К числу наиболее впечатляющих достижений информатики относятся:
ü персональные компьютеры высокой производительности, обеспечившие массовое распространение информационных технологий во всех областях знаний, в том числе в биологии;
ü сверхмощные вычислительные системы (суперкомпьютеры и сверхбольшие вычислительные кластеры);
ü сверхбольшие носители информации, обеспечивающие накопление и сохранение огромных объемов данных;
|
|
ü мировая сеть Интернет, обеспечившая доступ к глобальным распределенным информационным и программным ресурсам;
ü огромное разнообразие универсальных и специализированных языков программирования;
ü методы анализа данных, основанные на достижениях теории искусственного интеллекта;
ü технологии моделирования динамики сверхсложных систем, состоящих из огромного разнообразия взаимодействующих элементов [1].
Несколько десятилетий назад проведение исследований занимало гораздо больше времени, не только из-за менее совершенных биологических приборов, но и из-за необходимости длительного трудоемкого анализа полученных данных, кроме того за частую анализ данных был уделом специалистов, так как это требовало серьезной предварительной подготовки. С появлением и совершенствованием современных программ обработки данных статистическая обработка поднялась на новый уровень. Теперь исследователь-микробиолог может и не иметь математической подготовки. Достаточно оперировать статистическими понятиями и, самое главное, правильно выбрать метод анализа. Все осуществимо благодаря компьютеру и новейшим программам.
Для современной микробиологии компьютерный анализ очень важен для исследования нуклеиновых кислот ДНК (дезоксирибонуклеиновая кислота) и РНК (рибонуклеиновой кислоты). Функциями нуклеиновых кислот являются хранение, передача, воспроизведение генетической информации в ряду поколений. Так, в ДНК любой клетки закодирована информация о всех белках данного организма, о том, какие белки, в какой последовательности и в каком количестве будут синтезироваться.
В настоящее время секвенирование ДНК приобрело самые широкие масштабы. В секвенированных нуклеотидных последовательностях (НП) заключено огромное количество информации, связанной с молекулярной генетикой различных живых организмов. Для извлечения этой информации разрабатываются определенные методы с целью решения самых разнообразных задач молекулярной генетики, или как теперь говорят, геномики. Созданы многочисленные программы анализа нуклеотидных последовательностей, которые сегодня являются неотъемлемой частью многих биологических исследований [1].
Исходя из всего вышесказанного, цель моей работы проанализировать вклад информатики в развитие микробиологии на основе литературных данных и собственного опыта использования информационных технологий в научной деятельности.
Задачи:
ü охарактеризовать программы, используемые в микробиологических исследованиях при анализе полученных данных;
ü на примере использования информационных технологий в собственных исследованиях показать важность ИТ для исследователей живых объектов.
Глава 1. ОБЗОР ЛИТЕРАТУРЫ
Программы статистической обработки данных
Все программы статистической обработки данных можно разделить на профессиональные, полупрофессиональные (популярные) и специализированные. Статистические программы относятся к наукоемкому программному обеспечению, цена их часто недоступна индивидуальному пользователю. Профессиональные пакеты программ имеют большое количество методов анализа, популярные пакеты - количество функций, достаточное для универсального применения. Специализированные же пакеты ориентированы на какую-либо узкую область анализа данных [2].
MS Excel. Самой часто упоминаемой (и используемой) в отечественных статьях является приложение MS Excel из пакета офисных программ компании Microsoft MS Office. Причины этого кроются в широком распространении этого программного обеспечения, наличии русскоязычной версии, тесной интеграцией с MS Word и PowerPoint. Однако, MS Excel - это электронная таблица с достаточно мощными математическими возможностями, где некоторые статистические функции являются просто дополнительными встроенными формулами.
|
|
SPSS (Statistical Package for Social Science). Самый часто используемый пакет статистической обработки данных с более чем 30-и летней историей. Отличается гибкостью, мощностью применения для всех видов статистических расчетов используемых в биологии. Недавно вышла 13-я англоязычная версия.
STATA. Профессиональный статистический программный пакет с data-management system, который может применятся для биомедицинских целей. Один из самых популярных в образовательных и научных учреждениях США наряду с SPSS.
STATISTICA. Производителем программы является фирма StatSoft Inc. (США), которая выпускает статистические приложения, начиная с 1985 года. STATISTICA включает большое количество методов статистического анализа (более 250 встроенных функций) объединенных следующими специализированными статистическими модулями: основные статистики и таблицы, непараметрическая статистика, дисперсионный анализ, множественная регрессия, нелинейное оценивание, анализ временных рядов и прогнозирование, кластерный анализ, факторный анализ, дискриминантный функциональный анализ, анализ длительностей жизни, каноническая корреляция, многомерное шкалирование, моделирование структурными уравнениями и др. [3]. Несложный в освоении этот статистический пакет рекомендуют для биомедицинских исследований любой сложности.
Помимо этих, достаточно часто используемых программ, также используют пакеты NCSS, MINITAB 14, STATGRAPHICS PLUS, PRISM.