Программы статистической обработки данных

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Выпускная работа по
«Основам информационных технологий»


Магистрантки

Кафедры микробиологии

Лисовой Анна Николаевны

Руководитель:

Д.б.н. профессор Прокулевич В. А.

Минск, 2008 г.


Реферат на тему:

«Информационные технологии в микробиологии»




ОГЛАВЛЕНИЕ

Реферат на тему: 2

ОГЛАВЛЕНИЕ. 3

ПЕРЕЧЕНЬ СОКРАЩЕНИЙ.. 4

ВВЕДЕНИЕ. 5

Глава 1. ОБЗОР ЛИТЕРАТУРЫ.. 7

1.1 Программы статистической обработки данных. 7

1.2 Классификация последовательностей с помощью байесовского подхода 9

1.3 Методы поиска повторов в последовательностях ДНК.. 9

1.4 Поиск гомологии в БД нуклеотидных последовательностей. 11

Глава 2. ОПЫТ РЕАЛИЗАЦИИ ИТ В СОБСТВЕННЫХ ИССЛЕДОВАНИЯХ 12

2.1 Построение дендрограммы штаммов вируса клещевого энцефалита, выделенных на территории Беларуси и взятых из компьютерного банка данных Gen Bank. 12

ЗАКЛЮЧНИЕ. 13

ЛИТЕРАТУРА.. 15

Предметный указатель к реферату. 16

Интернет ресурсы в предметной области исследования. 17

Личный сайт в WWW... 23

Граф научных интересов. 24

Презентация магистерской диссертации. 27

 



ПЕРЕЧЕНЬ СОКРАЩЕНИЙ

SPSS - Statistical Package for Social Science

БД – база данных

ДНК – дезоксирибонуклеиновая кислота

ИТ – информационные технологии

КЭ – клещевой энцефалит

НП – нуклеотидная последовательность

РНК – рибонуклеиновая кислота

 

 



ВВЕДЕНИЕ

 

Современная биология, и микробиология, в частности, стала производителем огромных объемов экспериментальных данных, осмысливание которых невозможно без привлечения современных информационных технологий (ИТ) и эффективных математических методов анализа данных и моделирования биологических систем и процессов.

Развитие человечества будет неразрывно связано с биологией и информатикой, поскольку с развитием технологий и приборов возрастает количество исследований и, следовательно, объем получаемой информации, которая для принесения пользы должна быть грамотным образом обработана.

Особенно стремительный прогресс информационных технологий (ИТ) наблюдается в последние десятилетия 20-го века. Можно проследить хронологическое совпадение со значимыми открытиями в различных областях биологии. К числу наиболее впечатляющих достижений информатики относятся:

ü персональные компьютеры высокой производительности, обеспечившие массовое распространение информационных технологий во всех областях знаний, в том числе в биологии;

ü сверхмощные вычислительные системы (суперкомпьютеры и сверхбольшие вычислительные кластеры);

ü сверхбольшие носители информации, обеспечивающие накопление и сохранение огромных объемов данных;

ü мировая сеть Интернет, обеспечившая доступ к глобальным распределенным информационным и программным ресурсам;

ü огромное разнообразие универсальных и специализированных языков программирования;

ü методы анализа данных, основанные на достижениях теории искусственного интеллекта;

ü технологии моделирования динамики сверхсложных систем, состоящих из огромного разнообразия взаимодействующих элементов [1].

Несколько десятилетий назад проведение исследований занимало гораздо больше времени, не только из-за менее совершенных биологических приборов, но и из-за необходимости длительного трудоемкого анализа полученных данных, кроме того за частую анализ данных был уделом специалистов, так как это требовало серьезной предварительной подготовки. С появлением и совершенствованием современных программ обработки данных статистическая обработка поднялась на новый уровень. Теперь исследователь-микробиолог может и не иметь математической подготовки. Достаточно оперировать статистическими понятиями и, самое главное, правильно выбрать метод анализа. Все осуществимо благодаря компьютеру и новейшим программам.

Для современной микробиологии компьютерный анализ очень важен для исследования нуклеиновых кислот ДНК (дезоксирибонуклеиновая кислота) и РНК (рибонуклеиновой кислоты). Функциями нуклеиновых кислот являются хранение, передача, воспроизведение генетической информации в ряду поколений. Так, в ДНК любой клетки закодирована информация о всех белках данного организма, о том, какие белки, в какой последовательности и в каком количестве будут синтезироваться.

 В настоящее время секвенирование ДНК приобрело самые широкие масштабы. В секвенированных нуклеотидных последовательностях (НП) заключено огромное количество информации, связанной с молекулярной генетикой различных живых организмов. Для извлечения этой информации разрабатываются определенные методы с целью решения самых разнообразных задач молекулярной генетики, или как теперь говорят, геномики. Созданы многочисленные программы анализа нуклеотидных последовательностей, которые сегодня являются неотъемлемой частью многих биологических исследований [1].

Исходя из всего вышесказанного, цель моей работы проанализировать вклад информатики в развитие микробиологии на основе литературных данных и собственного опыта использования информационных технологий в научной деятельности.

Задачи:

ü охарактеризовать программы, используемые в микробиологических исследованиях при анализе полученных данных;

ü на примере использования информационных технологий в собственных исследованиях показать важность ИТ для исследователей живых объектов.

 

Глава 1. ОБЗОР ЛИТЕРАТУРЫ

Программы статистической обработки данных

Все программы статистической обработки данных можно разделить на профессиональные, полупрофессиональные (популярные) и специализированные. Статистические программы относятся к наукоемкому программному обеспечению, цена их часто недоступна индивидуальному пользователю. Профессиональные пакеты программ имеют большое количество методов анализа, популярные пакеты - количество функций, достаточное для универсального применения. Специализированные же пакеты ориентированы на какую-либо узкую область анализа данных [2].

MS Excel. Самой часто упоминаемой (и используемой) в отечественных статьях является приложение MS Excel из пакета офисных программ компании Microsoft MS Office. Причины этого кроются в широком распространении этого программного обеспечения, наличии русскоязычной версии, тесной интеграцией с MS Word и PowerPoint. Однако, MS Excel - это электронная таблица с достаточно мощными математическими возможностями, где некоторые статистические функции являются просто дополнительными встроенными формулами.

SPSS (Statistical Package for Social Science). Самый часто используемый пакет статистической обработки данных с более чем 30-и летней историей. Отличается гибкостью, мощностью применения для всех видов статистических расчетов используемых в биологии. Недавно вышла 13-я англоязычная версия.

STATA. Профессиональный статистический программный пакет с data-management system, который может применятся для биомедицинских целей. Один из самых популярных в образовательных и научных учреждениях США наряду с SPSS.

STATISTICA. Производителем программы является фирма StatSoft Inc. (США), которая выпускает статистические приложения, начиная с 1985 года. STATISTICA включает большое количество методов статистического анализа (более 250 встроенных функций) объединенных следующими специализированными статистическими модулями: основные статистики и таблицы, непараметрическая статистика, дисперсионный анализ, множественная регрессия, нелинейное оценивание, анализ временных рядов и прогнозирование, кластерный анализ, факторный анализ, дискриминантный функциональный анализ, анализ длительностей жизни, каноническая корреляция, многомерное шкалирование, моделирование структурными уравнениями и др. [3]. Несложный в освоении этот статистический пакет рекомендуют для биомедицинских исследований любой сложности.

Помимо этих, достаточно часто используемых программ, также используют пакеты NCSS, MINITAB 14, STATGRAPHICS PLUS, PRISM.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: