Преподавание

Новости

Все новости
RSS лента новостей

Ссылки

Литературный конкурс на сайте Александра Костюнина

Союз образовательных сайтов

Версия для печати Версия для печати

Методы анализа данных

Варианты исходных данных

Задания

1. Изучение предметной области. Подготовка данных.
Осуществить экспорт данных из txt файла в Excel файл:

  • В файле XXX.txt - описание природы данных, в файле XXX_dat.txt - сами данные, которые нужно экспортировать.
  • Типы данных должны соответствовать описанию (число, текст).
  • Каждый столбец должен иметь подпись на русском языке (для перевода можно воспользоваться сайтом http://multitran.ru или аналогичным ресурсом).

2. Частотный анализ.

  • 1. Выбираем номинальный или порядковый признак из набора признаков, содержащихся в файле, сформированном в первом задании.
    • 1. 1. Строим частотную одномерную таблицу по этому признаку. (Использовать функцию ЧАСТОТА / FREQUENCY)
    • 1. 2. Строим гистограмму по полученным данным (x - значение признака, у - частота)
  • 2. Выбираем количественный признак из набора признаков, содержащихся в файле, сформированном в первом задании.
    • 2. 1. Вычисляем основные статистические характеристики признака: минимальное, максимальное значения, мат. ожидание, дисперсия, медиана.
    • 2. 2. Строим частотную одномерную таблицу по этому признаку. (Использовать функцию ЧАСТОТА / FREQUENCY). Использовать интервалы значений признака с некоторым разумным шагом.
    • 2. 3. Строим гистограмму по полученным данным (x - значение признака, у - частота)
  • 3. Выбираем два признака из набора признаков, содержащихся в файле, сформированном в первом задании.
    • 3. 1. Строим частотную двухмерную таблицу по этому признаку. Будет проще, если выбрать один из признаков, имеющих мало различных значений, например "пол" или "принадлежность к группе (принадлежит - не принадлежит)".
      Можно сначала сформировать соответствующие столбцы, отобрав их функцией, ЕСЛИ / IF, а затем к ним применять функцию ЧАСТОТА / FREQUENCY. Например, строим столбцы "зарплаты, получаемые мужчинами" и "зарплаты, получаемые женщинами", и при вычислении частот используем их.
    • 3. 2. Строим соответствующую гистограмму.

3. Корреляционный и регрессионный анализ количественных признаков.

  • Построить корреляционную матрицу для количественных признаков (используя коэффициент корреляции Пирсона), по этой матрице найти пары признаков, коррелированных между собой.
  • Для одной из пар признаков (с сильной корреляцией) провести регрессионный анализ: найти коэффициенты линейной регрессии, затем - коэффициенты одной из нелинейных регрессий квазилинейного вида y = a1*f1(x) + a2*f2(x) + ... + ak*fk(x) + b (с помощью функции =ЛИНЕЙН(...)), например, y = a/x + b или y = a*x^2 + b*x + c, затем - коэффициенты нелинейной регрессии сложного вида, например, y = a*exp(b*x) + c или y = a/(x+b) + c или y = a/(1 + b*exp(-c*x)) - логистическая кривая (с помощью Поиска решения по критерию минимизации суммы квадратов отклонений y(xi) - yi). Нелинейные регрессии должны быть подобраны так, чтобы сумма квадратов отклонений у регрессии квазилинейного вида была меньше, чем у линейной, а у сложной нелинейной - меньше, чем у квазилинейной. Одну из регрессий неодходимо проверить на устойчивость коэффициентов к изменению выборки, для этого надо разбить всё множество объектов на две примерно равные группы, для этих групп отдельно найти коэффициенты регрессии и выяснить, как сильно они отличаются от исходных коэффициентов. Для всех регрессий надо построить точечные диаграммы с изображениями "облака точек" и линии регрессии.

4. Кластерный анализ

  • Применить итерационный метод кластерного анализа.
  • Число кластеров задается преподавателем.
  • Исходные данные должны быть центрированы и нормированы.
  • По итогам лабораторной работы необходимо написать отчёт, в котором должна присутствовать содержательная интерпретация результатов (почему, на Ваш взгляд, объекты именно таким образом разделились на кластеры?).

5. Временные ряды

Формулировка задания приводится на лекции

Поиск по сайту

Пользовательского поиска

    Мой аккаунт в Twitter: @alikrpk

    Форум

    Последнее сообщение

    Перейти в раздел

    Если нашли ошибку

    Система Orphus


    Статистика

    Rambler's Top100