Преподавание
Новости
Все новости

Ссылки
Наземные экосистемы таежной зоны | Учебное пособие
|
Методы анализа данных
Варианты исходных данных
Задания
1. Изучение предметной области. Подготовка данных.
Осуществить экспорт данных из txt файла в Excel файл:
- В файле XXX.txt - описание природы данных, в файле XXX_dat.txt - сами данные, которые нужно экспортировать.
- Типы данных должны соответствовать описанию (число, текст).
- Каждый столбец должен иметь подпись на русском языке (для перевода можно воспользоваться сайтом http://multitran.ru или аналогичным ресурсом).
2. Частотный анализ.
- 1. Выбираем номинальный или порядковый признак из набора признаков, содержащихся в файле, сформированном в первом задании.
- 1. 1. Строим частотную одномерную таблицу по этому признаку. (Использовать функцию ЧАСТОТА / FREQUENCY)
- 1. 2. Строим гистограмму по полученным данным (x - значение признака, у - частота)
- 2. Выбираем количественный признак из набора признаков, содержащихся в файле, сформированном в первом задании.
- 2. 1. Вычисляем основные статистические характеристики признака: минимальное, максимальное значения, мат. ожидание, дисперсия, медиана.
- 2. 2. Строим частотную одномерную таблицу по этому признаку. (Использовать функцию ЧАСТОТА / FREQUENCY). Использовать интервалы значений признака с некоторым разумным шагом.
- 2. 3. Строим гистограмму по полученным данным (x - значение признака, у - частота)
- 3. Выбираем два признака из набора признаков, содержащихся в файле, сформированном в первом задании.
- 3. 1. Строим частотную двухмерную таблицу по этому признаку. Будет проще, если выбрать один из признаков, имеющих мало различных значений, например "пол" или "принадлежность к группе (принадлежит - не принадлежит)".
Можно сначала сформировать соответствующие столбцы, отобрав их функцией, ЕСЛИ / IF, а затем к ним применять функцию ЧАСТОТА / FREQUENCY. Например, строим столбцы "зарплаты, получаемые мужчинами" и "зарплаты, получаемые женщинами", и при вычислении частот используем их.
- 3. 2. Строим соответствующую гистограмму.
3. Корреляционный и регрессионный анализ количественных признаков.
- Построить корреляционную матрицу для количественных признаков (используя коэффициент корреляции Пирсона), по этой матрице найти пары признаков, коррелированных между собой.
- Для одной из пар признаков (с сильной корреляцией) провести регрессионный анализ: найти коэффициенты линейной регрессии, затем - коэффициенты одной из нелинейных регрессий квазилинейного вида y = a1*f1(x) + a2*f2(x) + ... + ak*fk(x) + b (с помощью функции =ЛИНЕЙН(...)), например, y = a/x + b или y = a*x^2 + b*x + c, затем - коэффициенты нелинейной регрессии сложного вида, например, y = a*exp(b*x) + c или y = a/(x+b) + c или y = a/(1 + b*exp(-c*x)) - логистическая кривая (с помощью Поиска решения по критерию минимизации суммы квадратов отклонений y(xi) - yi). Нелинейные регрессии должны быть подобраны так, чтобы сумма квадратов отклонений у регрессии квазилинейного вида была меньше, чем у линейной, а у сложной нелинейной - меньше, чем у квазилинейной. Одну из регрессий неодходимо проверить на устойчивость коэффициентов к изменению выборки, для этого надо разбить всё множество объектов на две примерно равные группы, для этих групп отдельно найти коэффициенты регрессии и выяснить, как сильно они отличаются от исходных коэффициентов. Для всех регрессий надо построить точечные диаграммы с изображениями "облака точек" и линии регрессии.
4. Кластерный анализ
- Применить итерационный метод кластерного анализа.
- Число кластеров задается преподавателем.
- Исходные данные должны быть центрированы и нормированы.
- По итогам лабораторной работы необходимо написать отчёт, в котором должна присутствовать содержательная интерпретация результатов (почему, на Ваш взгляд, объекты именно таким образом разделились на кластеры?).
5. Временные ряды
Формулировка задания приводится на лекции
|
Поиск по сайту
|