Вторые вопросы, проектные задания

Перечень вопросов

Экзаменационных билетов по дисциплине

"АНАЛИЗ БОЛЬШИХ ДАННЫХ "

Первые вопросы

1. Классификация современных методов анализа данных, теоретические основы методов.

2. Методы обучения с учителем. Цели, задачи, методы. Общие правила и термины методов классификации. Проблемы недообучения/переобучения.

3. Матрицы диаграмм рассеивания, их использование, форма, основы анализа.

4. Используемые в задачах классификации метрики. Пояснить рисунками, формульными соотношениями. В каких задачах какие метрики стоит использовать?

5. Нормализация данных. Пояснить рисунками, формульными соотношениями. В каких задачах какие методы нормализации стоит использовать?

6. Метод классификации "ближайших соседей": его теоретические основы. Поиск оптимального количества ближайших соседей. Достоинства и недостатки метода, особенности использования.

7. Метод регрессии "ближайших соседей": его теоретические основы, алгоритм метода. Коэффициент детерминации, множественный коэффициент корреляции, их использование. Поиск оптимального количества ближайших соседей. Достоинства и недостатки метода, особенности использования.

8. Линейные модели регрессии: линейная модель МНК. Теоретические основы. Виды регрессии, их отличия и особенности применения в классификаторах. Достоинства и недостатки метода, особенности использования.

9. Линейная модель "гребневая регрессия". Теоретические основы. Виды регрессии, их отличия и особенности применения в классификаторах. Достоинства и недостатки метода, особенности использования.

10.Линейная модель "Лассо". Теоретические основы. Виды регрессии, их отличия и особенности применения в классификаторах. Достоинства и недостатки метода, особенности использования.

11.Линейные модели регрессии: бинарная классификация. Теоретические основы. Какая регуляризация используется, параметр регуляризации, особенности применения. Достоинства и недостатки метода, особенности использования.

12.Расширение алгоритма бинарной классификации до случаев мультиклассовой классификации. Особенности множественной классификации на примере из 3х классов. Достоинства и недостатки метода, особенности использования.

13.Наивные байесовские классификаторы. Теоретические основы. Виды классификаторов, параметр alpha. Достоинства и недостатки метода, особенности использования.

14.Деревья решений. Решаемые задачи, пояснить. Методика построения дерева. Бинарное дерево решений. Деревья решений в задаче классификации regression. Достоинства и недостатки метода, особенности использования.

15.Ансамбли деревьев решений: случайный лес. Теоретические основы, бутстреп выборка, методика построения леса. Достоинства и недостатки метода, особенности использования.

16.Ансамбли деревьев решений: градиентный бустинг деревьев регрессии. Теоретические основы, отличия от случайного леса. Достоинства и недостатки метода, особенности использования.

17.Ядерный метод опорных векторов SVM. Теоретические основы. Достоинства и недостатки метода, особенности использования.

18.Нейронные сети глубокого обучения. Теоретические основы. Достоинства и недостатки метода, особенности использования.

19.Методы обучения без учителя. Цели, задачи, методы. Общие правила и термины. Проблемы.

20.Предобработка данных и масштабирование. Цели применения. Термины: мат. ожидание, дисперсия, СКО, медиана, квартиль (верхний, нижний). В каких моделях целесообразно использовать? Основные методы предобработки и масштабирования.

21.Методы снижения размерности, выделения признаков, множественного обучения. Общие правила и термины. 

22.Метод анализа главных компонент PCA. Теоретические основы, алгоритм применения. Достоинства и недостатки метода, особенности использования.

23.Метод факторизации неотрицательных матриц NMF. Теоретические основы, отличия от PCA.  Достоинства и недостатки метода, особенности использования, сравнение с PCA.

24.Метод t-SNE. Теоретические основы, отличия от PCA.  Достоинства и недостатки метода, особенности использования, сравнение с PCA.

25.Кластеризация k-средних. Теоретические основы. Достоинства и недостатки метода, особенности использования.

 

 

Вторые вопросы, проектные задания

1. Назначение библиотек и пакетов Python: scikit-learn, NumPy, SciPy, matplotlib, Pandas.

2. Параметры метода ближайших соседей: полями algorithm, leaf_size, metric, metric_params, n_jobs, p, weights.

3. Проектное задание: составить алгоритм метода ближайших соседей.

4. Проектное задание: составить алгоритм метода MinMaxScaler. Задать массив чисел          [-5;+10] с шагом 0.5. Применить разработанный алгоритм. Какое исходное число стало равно 0? Какое – 1?

5. Проектное задание: составить алгоритм метода StandardScaler.

6. Наборы типа Bunch: структуры, ключи, формы, признаки, описания.

7. Проектное задание: составить алгоритм метода линейной модели регрессии МНК.

8. Проектное задание: составить алгоритм классификации на основе метода Дерева решений.

9. Параметры классификатора "Дерево решений". Особенности подбора параметров. Стратегии от переобучения, критерии предварительной обрезки.

10. Параметры классификатора "Случайный лес". Особенности подбора параметров. Стратегии от переобучения, критерии.

11. Параметры машины градиентного бустинга. Особенности подбора параметров. Стратегии от переобучения, критерии.

12. Параметры нейронной сети глубокого обучения на основе MLP. Особенности подбора параметров. Стратегии от переобучения, критерии.

13. Параметр solver нейронной сети глубокого обучения на основе MLP. Алгоритмы adam и lbfgs.

14. Оценка сложности модели нейронной сети.

15. Методы оценки неопределенности прогноза классификатора библиотеки scikit-learn.

16. Основные выводы по моделям обучения с учителем. Алгоритм построения классификатора.

17. Алгоритм выполнения масштабирования и предобработки данных для модели классификатора SVM. Особенности.

18. Проектное задание: составить алгоритм кластеризации k-средних.

19. Декомпозиция алгоритма кластеризации k-средних (векторное квантование).

20. Алгомеративная кластеризация. Критерии связи кластеров. Особенности работы алгоритма.  

21. Кластеризация DBSCAN. Особенности работы алгоритма. Отличия, достоинства и недостатки.

22. Сравнение алгоритмов кластеризации: KMeans, Agglomerative, DBSCAN.

 

Перечень

справочных материалов для использования на экзамене:

ВСЕ слайды из файла "Слайды" (распечатанные слайды на экзамене выдает                      преподаватель).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: