Коэффициент корреляции

Коэффициент корреляции

(Correlation coefficient)


Коэффициент корреляции - это статистический показатель зависимости двух случайных величин


Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение коэффициента корреляции


Содержание

  • Коэффициент корреляции - это, определение
  • Для чего нужен коэффициент корреляции?
  • Формула и переменные коэффициента корреляции
  • Свойства коэффициента корреляции
  • Оценка корреляционной связи по коэффициенту корреляции
  • Значения коэффициента корреляции
  • Средняя ошибка коэффициента корреляции
  • Когда не следует рассчитывать коэффициент корреляции?
  • Виды коэффициента корреляции
  •        Коэффициент корреляции Пирсона
  •               Модификация коэффициента корреляции Пирсона
  •        Коэффициент корреляции Спирмена
  •        Коэффициент корреляции Кендалла
  •        Коэффициент корреляции знаков Фехнера
  •        Коэффициент множественной ранговой корреляции (конкордации)
  •        Сравнение коэффициентов корреляции
  • Использование Excel для вычисления коэффициента корреляции
  • Принципы интерпретации коэффициента корреляции
  • Применение коэффициента корреляции на практике
  •        Коэффициент корреляции показателей фондового рынка
  •        Вычисление коэффициента корреляции портфеля
  •        Применение линейного коэффициента корреляции в трейдинге
  •        Торговая стратегия, построенная на коэффициенте корреляции
  •        Торговля ациями по коэффициенту корреляции
  •        Риск-менеджмент, основанный на коэффициенте корреляции
  •        Коэффициент корреляции валютных пар
  •        Изменение коэффициента корреляции ценовых графиков
  •        Коэффициент корреляции в анализе инвестиционного портфеля
  •        Парный трейдинг и коэффициент корреляции
  •        Коэффициент корреляции в психологических исследованиях
  • Источники и ссылки

Коэффициент корреляции - это, определение

Коэффициент корреляции - это статистический показатель зависимости двух случайных величин. Коэффициент корреляции может принимать значения от -1 до +1. При этом, значение -1 будет говорить об отсутствии корреляции между величинами, 0 - о нулевой корреляции, а +1 - о полной корреляции величин. Т.е., че ближе значение коэффициента корреляции к +1, тем сильнее связь мезду двумя случайными величинами.

Зависимость случайных величин по закону распределения

Коэффициент корреляции - это корреляцинное отношение, математическая мера корреляции двух случайных величин. В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.

Виды случайных величин и их законы распределения

Коэффициент корреляции - это мера линейной зависимости двух случайных величин в теории вероятностей и статистике. Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором - также и её направление.

Случайная величина в теории вероятности

Коэффициент корреляции - это статистический показатель, показывающий, насколько связаны между собой колебания значений двух других показателей. Например, насколько движение доходности ПИФа связано, перекликается (коррелирует) с движением индекса, выбранного для расчета коэффициента бета для этого ПИФа. Чем ближе значение коэффициента корреляции к 1, тем больше коррелируют ПИФ и индекс, а значит коэффициент бета и, следовательно, коэффициент альфа можно принимать к рассмотрению. Если значение этого коэффициента корреляции меньше 0,75, то указанные показатели бессмысленны.

Круговорот случайных величин

Коэффициент корреляции (Correlation coefficient) - это

Коэффициент корреляции - это математическая мера корреляции двух величин. В том случае, когда изменение одной из величин не приводит к закономерному изменению другой величины, то можно говорить об отсутствии корреляции между этими величинами. Коэффициенты корреляции могут быть положительными и отрицательными. Если при увеличении значения одной величины происходит уменьшение значений другой величины, то их коэффициент корреляции отрицательный. В случае, когда увеличение значений первого объекта наблюдения приводит к увеличениям значения второго объекта, то можно говорить о положительном коэффициенте.

Полная отрицательная <a href=корреляция" src="/pictures/investments/img1995973_Polnaya_otritsatelnaya_korrelyatsiya.gif" style="width: 600px; height: 449px;" title="Полная отрицательная корреляция" />

Коэффициент корреляции - это величина, которая может варьировать в пределах от +1 до -1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной - минус 1. На графике этому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных:

Полная положительная корреляция

Коэффициент корреляции - это показатель связи между двумя переменными. Расчёты подобных двумерных критериев взаимосвязи основываются на формировании парных значений, которые образовываются из рассматриваемых зависимых выборок.

Коэффициент корреляции +0,6 - пример слабой положительной корреляции

Коэффициент корреляции - это сила и направление связи между независимой и зависимой переменными. Значения r находятся в диапазоне между - 1.0 и + 1.0. Когда r имеет положительное значение, связь между х и у является положительной, а когда значение r отрицательно, связь также отрицательна. Коэффициент корреляции, близкий к нулевому значению, свидетельствует о том, что между х и у связи не существует.

Коэффициент корреляции -0,6 - пример слабой отрицательной корреляции

Коэффициент корреляции (Correlation coefficient) - это

Коэффициент корреляции - это объективный показатель, свидетельствующий о наличии или отсутствии связи между переменными, и измеряющий выраженность этой связи. Коэффициент корреляции был предложен как инструмент, с помощью которого можно проверить гипотезу о зависимости и измерить силу зависимости двух переменных. Сразу заметим, что коэффициент корреляции оказался не идеальным инструментом, он пригоден лишь для измерения силы линейной зависимости.

Пример идеальной положительной корреляции

Коэффициент корреляции - это инструмент, с помощью которого можно проверить гипотезу о зависимости и измерить силу зависимости двух переменных. Если распределение переменных нормальное или несущественно отличается от нормального, применяют коэффициент корреляции Пирсона. Для порядковых (ранговых) переменных или переменных, чье распределение существенно отличается от нормального, используется коэффициент корреляции Спирмана или Кендалла. Имейте в виду, существуют и другие коэффициенты.

Пример идеальной отрицательной корреляции

Коэффициент корреляции (Correlation coefficient) - это

Для чего нужен коэффициент корреляции?

Связь, которая существует между случайными величинами разной природы, например, между величиной Х и величиной Y, не обязательно является следствием прямой зависимости одной величины от другой (так называемая функциональная связь). В некоторых случаях обе величины зависят от целой совокупности разных факторов, общих для обеих величин, в результате чего и формируется связанные друг с другом закономерности. Когда связь между случайными величинами обнаружена с помощью статистики, мы не можем утверждать, что обнаружили причину происходящего изменения параметров, скорее мы лишь увидели два взаимосвязанных следствия.

График прямой корреляции

Например, дети, которые чаще смотрят по телевизору американские боевики, меньше читают. Дети, которые больше читают, лучше учатся. Не так-то просто решить, где тут причины, а где следствия, но это и не является задачей статистики. Статистика может лишь, выдвинув гипотезу о наличии связи, подкрепить ее цифрами. Если связь действительно имеется, говорят, что между двумя случайными величинами есть корреляция. Если увеличение одной случайной величины связано с увеличением второй случайной величины, корреляция называется прямой. Например, количество прочитанных страниц за год и средний балл (успеваемость). Если, напротив рост одной величины связано с уменьшением другой, говорят об обратной корреляции. Например, количество боевиков и количество прочитанных страниц.

График обратной корреляции

Взаимная связь двух случайных величин называется корреляцией, корреляционный анализ позволяет определить наличие такой связи, оценить, насколько тесна и существенна эта связь. Все это выражается количественно.

Как определить, есть ли корреляция между величинами? В большинстве случаев, это можно увидеть на обычном графике. Например, по каждому ребенку из нашей выборки можно определить величину Хi (число страниц) и Yi (средний балл годовой оценки), и записать эти данные в виде таблицы. Построить оси Х и Y, а затем нанести на график весь ряд точек таким образом, чтобы каждая из них имела определенную пару координат (Хi, Yi) из нашей таблицы. Поскольку мы в данном случае затрудняемся определить, что можно считать причиной, а что следствием, не важно, какая ось будет вертикальной, а какая горизонтальной.

График отсутствия корреляции

Если график имеет вид а), то это говорит о наличии прямой корреляции, в случае, если он имеет вид б) - корреляция обратная. Отсутствие корреляции тоже можно приблизительно определить по виду графика - это случай в). С помощью коэффициента корреляции можно посчитать насколько тесная связь существует между величинами. Пусть, существует корреляция между ценой и спросом на товар. Количество купленных единиц продукта в зависимости от цены у разных продавцов показано в таблице:

Таблица - Количество купленных единиц товара в зависимости от цены у разных продавцов

Видно, что мы имеем дело с обратной корреляцией. Для количественной оценки тесноты связи используют коэффициент корреляции. Коэффициент r мы считаем в Excel, с помощью функции fx, далее статистические функции, функция КОРРЕЛ. По подсказке программы вводим мышью в два соответствующих поля два разных массива (Х и Y). В нашем случае коэффициент корреляции получился r= - 0,988. Надо отметить, что чем ближе к 0 коэффициент корреляции, тем слабее связь между величинами. Наиболее тесная связь при прямой корреляции соответствует коэффициенту r, близкому к +1. В нашем случае, корреляция обратная, но тоже очень тесная, и коэффициент близок к -1.

Пример обратной корреляции

Что можно сказать о случайных величинах, у которых коэффициент имеет промежуточное значение? Например, если бы мы получили r=0,65. В этом случае, статистика позволяет сказать, что две случайные величины частично связаны друг с другом. Скажем на 65% влияние на количество покупок оказывала цена, а на 35% - другие обстоятельства.

Коэффициент корреляции (Correlation coefficient) - это

И еще одно важное обстоятельство надо упомянуть. Поскольку мы говорим о случайных величинах, всегда существует вероятность, что замеченная нами связь - случайное обстоятельство. Причем вероятность найти связь там, где ее нет, особенно велика тогда, когда точек в выборке мало, а при оценке Вы не построили график, а просто посчитали значение коэффициента корреляции на компьютере. Так, если мы оставим всего две разные точки в любой произвольной выборке, коэффициент корреляции будет равен или +1 или -1. Из школьного курса геометрии мы знаем, что через две точки можно всегда провести прямую линию. Для оценки статистической достоверности факта обнаруженной Вами связи полезно использовать так называемую корреляционную поправку:

Корреляционная поправка

В то время как задача корреляционного анализа - установить, являются ли данные случайные величины взаимосвязанными, цель регрессионного анализа - описать эту связь аналитической зависимостью, т.е. с помощью уравнения. Мы рассмотрим самый несложный случай, когда связь между точками на графике может быть представлена прямой линией. Зная уравнение прямой, мы можем находить значение функции по значению аргумента в тех точках, где значение Х известно, а Y - нет. Эти оценки бывают очень нужны, но они должны использоваться осторожно, особенно, если связь между величинами не слишком тесная. Отметим также, что из сопоставления формул для b и r видно, что коэффициент не дает значение наклона прямой, а лишь показывает сам факт наличия связи.

Коэффициент корреляции (Correlation coefficient) - это

Термин "корреляция" означает "связь". В эконометрике этот термин обычно используется в сочетании "коэффициенты корреляции". Рассмотрим линейный и непараметрические парные коэффициенты корреляции. Обсудим способы измерения связи между двумя случайными переменными. Пусть исходными данными является набор случайных векторов:

Набор случайных векторов

Выборочным коэффициентом корреляции, более подробно, выборочным линейным парным коэффициентом корреляции К. Пирсона, как известно, называется число:

Число - выборочный линейный парный коэффициент корреляции

Значение выборочного коэффициента корреляции

Таким образом, близость коэффициента корреляции к 1 (по абсолютной величине) говорит о достаточно тесной линейной связи. Если случайные векторанезависимы и одинаково распределены, то выборочный коэффициент корреляции сходится к теоретическому при безграничном возрастании объема выборки (сходимость по вероятности):

Безграничное возрастание объема выборки выборочного коэффициента корреляции

Более того, выборочный коэффициент корреляции является асимптотически нормальным. Это означает, что

Асимптотически нормальный выборочный коэффициент корреляции

Переменные выборочного коэффициента корреляции

Она имеет довольно сложное выражение:

Асимптотическая дисперсия выборочного коэффициента корреляции

где теоретические центральные моменты порядка k и m:

Теоретические центральные моменты порядка k и m

Коэффициенты корреляции типа rn используются во многих алгоритмах многомерного статистического анализа. В теоретических рассмотрениях часто считают, что случайные вектора имеют двумерное нормальное распределение. Распределения реальных данных, как правило, отличны от нормальных. Почему же распространено представление о двумерном нормальном распределении? Дело в том, что теория в этом случае проще. В частности, равенство 0 теоретического коэффициента корреляции эквивалентно независимости случайных величин. Поэтому проверка независимости сводится к проверке статистической гипотезы о равенстве 0 теоретического коэффициента корреляции. Эта гипотеза принимается, если

Статистическая гипотиза

Если предположение о двумерной нормальности не выполнено, то из равенства 0 теоретического коэффициента корреляции не вытекает независимость случайных величин. Нетрудно построить пример случайного вектора, для которого коэффициент корреляции равен 0, но координаты зависимы. Кроме того, для проверки гипотез о коэффициенте корреляции нельзя пользоваться таблицами, рассчитанными в предположении нормальности. Можно построить правила принятия решений на основе асимптотической нормальности выборочного коэффициента корреляции. Но есть и другой путь - перейти к непараметрическим коэффициентам корреляции, одинаково пригодным при любом непрерывном распределении случайного вектора.

Коэффициент корреляции (Correlation coefficient) - это

Для расчета непараметрического коэффициента ранговой корреляции Спирмена необходимо сделать следующее. Для каждого xi рассчитать его ранг ri в вариационном ряду, построенном по выборке Для каждого yi рассчитать его ранг qi в вариационном ряду, построенном по выборке Для набора из n пар (ri, qi), i=1,2...n вычислить линейный коэффициент корреляции. Он называется коэффициентом ранговой корреляции, поскольку определяется через ранги.В качестве примера рассмотрим данные из таблицы:

Данные для расчета коэффициентов корреляции

Для данных таблицы коэффициент линейной корреляции равен 0,83, непосредственной линейной связи нет. А вот коэффициент ранговой корреляции равен 1, поскольку увеличение одной переменной однозначно соответствует увеличению другой переменной. Во многих экономических задачах, например, при выборе инвестиционных проектов, достаточно именно монотонной зависимости одной переменной от другой.

Поскольку суммы рангов и их квадратов нетрудно подсчитать, то коэффициент ранговой корреляции Спирмена равен

Коэффициент ранговой корреляции Спирмена

Отметим, что коэффициент ранговой корреляции Спирмена остается постоянным при любом строго возрастающем преобразовании шкалы измерения результатов наблюдений. Другими словами, он является адекватным в порядковой шкале, как и другие ранговые статистики, например, статистики Вилкоксона, Смирнова, типа омега-квадрат для проверки однородности независимых выборок.

Широко используется также коэффициент ранговой корреляции Кендалла, коэффициент ранговой конкордации Кендалла и Б. Смита и др. Наиболее подробное обсуждение этой тематики содержится в монографии, необходимые для практических расчетов таблицы имеются в справочнике. Дискуссия о выборе вида коэффициентов корреляции продолжается до настоящего времени.

Определение статистической связи по коэффициенту корреляции

Формула и переменные коэффициента корреляции

Коэффициент корреляции показывает степень статистической зависимости между двумя числовыми переменными. Он вычисляется следующим образом:

Статистическая зависимость между двумя числовыми переменными

где n - количество наблюдений, x - входная переменная, y - выходная переменная. Значения коэффициента корреляции всегда расположены в диапазоне от -1 до 1 и интерпретируются следующим образом:

- если коэффициент корреляции близок к 1, то между переменными наблюдается положительная корреляция. Иными словами, отмечается высокая степень связи входной и выходной переменных. В данном случае, если значения входной переменной x будут возрастать, то и выходная переменная также будет увеличиваться;

Пример положительной корреляции

- если коэффициент корреляции близок к -1, это означает, что между переменными наблюдается отрицательная корреляция. Иными словами, поведение выходной переменной будет противоположным поведению входной. Если значение x будет возрастать, то y будет уменьшаться, и наоборот;

Пример отрицательной корреляции

- промежуточные значения, близкие к 0, будут указывать на слабую корреляцию между переменными и, соответственно, низкую зависимость. Иными словами, поведение входной переменной x не будет совсем (или почти совсем) влиять на поведение y.

Пример слабой корреляции

Коэффициент корреляции равен квадратному корню коэффициента детерминации, поэтому может применяться для оценки значимости регрессионных моделей. Очевидно, что если корреляция между переменными высокая, то, зная поведение входной переменной, проще предсказать поведение выходной, и полученное предвидение будет точнее (говорят, что входная переменная хорошо «объясняет» выходную). Однако, чем выше корреляция наблюдается между переменными, тем очевиднее связь между ними, например, взаимозависимость между ростом и весом людей, однако данное соотношение настолько очевидно, что не представляет интереса.

Пусть X,Y - две случайные величины, определённые на одном вероятностном пространстве. Тогда их коэффициент корреляции задаётся формулой:

Формула коэффициента корреляции двух случайных величин

где cov обозначает ковариацию, а D - дисперсию, или, что то же самое,

Развернутая формула коэффициента корреляции двух случайных величин

где символ Е обозначает мат ожидание.

1. Ковариация (корреляционный момент, ковариационный момент) в теории вероятностей и математической статистике мера линейной зависимости двух случайных величин. Пусть X, Y - две случайные величины, определённые на одном и том же вероятностном пространстве. Тогда их ковариация определяется следующим образом:

Ковариация величин X и Y

Предполагается, что все математические ожидания Е в правой части данного выражения определены.

Замечания к определению ковариации

Пусть X1, X2,...,Xn, Y1, Y2,...,Yn - выборки Xn и Yn случайных величин, определённых на одном и том же вероятностном пространстве. Тогда ковариацией между выборками Xn и Yn является:

Ковариация выборок

Свойства ковариации:

Свойства ковариации

Если ковариация положительна, то с ростом значений одной случайной величины, значения второй имеют тенденцию возрастать, а если знак отрицательный - то убывать. Однако только по абсолютному значению ковариации нельзя судить о том, насколько сильно величины взаимосвязаны, так как её масштаб зависит от их дисперсий. Масштаб можно отнормировать, поделив значение ковариации на произведение среднеквадратических отклонений (квадратных корней из дисперсий). При этом получается так называемый коэффициент корреляции Пирсона, который всегда находится в интервале от -1 до 1.

Среднеквадратическое отклонение ковариации

Случайные величины, имеющие нулевую ковариацию, называются некоррелированными. Независимые случайные величины всегда некоррелированы, но не наоборот. Обсудим достоинства и недостатки ковариации, как величины, характеризующей зависимость двух случайных величин.

1. Если ковариация отлична от нуля, то случайные величины зависимы. Чтобы судить о наличии зависимости согласно любому из определений независимости, требуется знать совместное распределение пары случайных величин. Но найти совместное распределение часто бывает сложнее, чем посчитать мат. ожидание произведения случайных величин. Если нам повезёт, и мат ожидание произведения случайных величин не будет равняться произведению их математических ожиданий, мы скажем, что случайные величины зависимы, не находя их совместного распределения! Это очень хорошо.

Пример ковариации случайных величин при недостаточных данных

2. Величина ковариации не является «безразмерной»: если е - объем газа в сосуде, а n - давление этого газа, то ковариация измеряется в м3Па. Иначе говоря, при умножении этих величин на какое-нибудь число ковариация тоже умножается на это число. Но умножение на число не сказывается на «степени зависимости» величин (они от этого «более зависимыми» не становятся), так что большое значение ковариации не означает более сильной зависимости. Это очень плохо.

Коэффициент корреляции (Correlation coefficient) - это

Нужно как-то нормировать ковариацию, получив из неё «безразмерную» величину, абсолютное значение которой: не менялось бы при умножении случайных величин на число и свидетельствовало бы о «силе зависимости» случайных величин.

Замечание: Говоря о «силе» зависимости между случайными величинами, мы имеем в виду следующее. Самая сильная зависимость - функциональная, а из функциональных - линейная зависимость, когда:

Функциональная линейная зависимость

Бывают гораздо более слабые зависимости. Так, если по последовательности независимых случайных величин построить величины:

Последовательность независимых случайных величин

то эти величины зависимы, но очень «слабо»: через единственное общее слагаемое Е25. Сильно ли зависимы число гербов в первых двадцати пяти подбрасываниях монеты и число гербов в испытаниях с двадцать пятого по девяностое? Итак, следующая величина есть всего лишь ковариация, нормированная нужным образом.

Теорема (неравенство Коши - Буняковского):

Неравенство Коши - Буняковского

Доказательство:

Доказательство теоремы Коши - Буняковского

Ковариационная матрица (или матрица ковариаций) в теории вероятностей - это матрица, составленная из попарных ковариаций элементов одного или двух случайных векторов. Ковариационная матрица случайного вектора - квадратная симметрическая матрица, на диагонали которой располагаются дисперсии компонент вектора, а внедиагональные элементы - ковариациями между компонентами.

Определение ковариационной матрицы

Такая матрица ковариации является обобщением дисперсии для многомерной случайной величины, а ее след - скалярным выражением дисперсии многомерной случайной величины. Собственные векторы и собственные числа этой матрицы позволяют оценить размеры и форму облака распределения такой случайной величины, аппроксимировав его эллипсоидом (или эллипсом в двумерном случае).

Свойства мартиц ковариации:

Свойства матрицы ковариации

2. Мат. ожидание. Рассмотрим случайную величину с числовыми значениями. Часто оказывается полезным связать с этой функцией число - ее «среднее значение» или, как говорят, «среднюю величину», «показатель центральной тенденции». По ряду причин, некоторые из которых будут ясны из дальнейшего, в качестве «среднего значения» обычно используют мат. ожидание.

Определение 1. Мат ожиданием случайной величины Х называется число:

Математическое ожидание</a> случайной величины

т.е. Мат ожидание случайной величины - это взвешенная сумма значений случайной величины с весами, равными вероятностям соответствующих элементарных событий.

Пример. Вычислим мат ожидание числа, выпавшего на верхней грани игрального кубика. Непосредственно из определения 1 следует, что

Математическое ожидание числа, выпавшего на верхней грани игрального кубика

Утверждение 2. Пусть случайная величина Х принимает значения х1, х2,…, хm. Тогда справедливо равенство:

Равенство математического ожидания числа

т.е. Мат. ожидание случайной величины - это взвешенная сумма значений случайной величины с весами, равными вероятностям того, что случайная величина принимает определенные значения. В отличие от (4), где суммирование проводится непосредственно по элементарным событиям, случайное событие

Случайное событие

может состоять из нескольких элементарных событий. Иногда соотношение принимают как определение мат ожидания. Однако с помощью определения, как показано далее, более легко установить свойства мат. ожидания, нужные для построения вероятностных моделей реальных явлений, чем с помощью соотношения. Для доказательства соотношения сгруппируем в члены с одинаковыми значениями случайной величины:

Группировка членов с одинаковой величиной

Поскольку постоянный множитель можно вынести за знак суммы, то

Равенство, если вынести общий множитель за скобки

По определению вероятности события:

Вероятность</a> события

С помощью двух последних соотношений получаем требуемое:

Формула математического ожидания

Понятие мат ожидания в вероятностно-статистической теории соответствует понятию центра тяжести в механике. Поместим в точки х1, х2,…, хm на числовой оси массы P(X=x1), P(X=x2),…, P(X=xm) соответственно. Тогда равенство показывает, что центр тяжести этой системы материальных точек совпадает с мат ожиданием, что показывает естественность определения.

Утверждение 3. Пусть Х - случайная величина, М(Х) - ее мат. ожидание, а - некоторое число. Тогда:

Математическое ожидание из утверждения 3

Для доказательства рассмотрим сначала случайную величину, являющуюся постоянной, т.е. функция отображает пространство элементарных событий в единственную точку. Поскольку постоянный множитель можно выносить за знак суммы, то

Если вынести постоянный множитель за скобки в утверждении 3

Если каждый член суммы разбивается на два слагаемых, то и вся сумма разбивается на две суммы, из которых первая составлена из первых слагаемых, а вторая - из вторых. Следовательно, мат ожидание суммы двух случайных величин Х+У, определенных на одном и том же пространстве элементарных событий, равно сумме математических ожиданий М(Х) и М(У) этих случайных величин:

Математическое ожидание суммы двух случайных величин

Поскольку

Просчет равенства для двух случайных величин

Упростим последнее равенство. Как показано в начале доказательства утверждения 3, мат. ожидание константы - сама эта константа. Поскольку постоянный множитель можно выносить за знак суммы и правая часть последнего равенства равна 0:

Доказательство утверждения 3

Из сказанного вытекает

Значения, которые может принимать <a href=математическое ожидание src="/pictures/investments/img1996324_Znacheniya_kotoryie_mozhet_prinimat_matematicheskoe_ozhidanie.png" style="width: 800px; height: 88px;" title="Значения, которые может принимать математическое ожидание" />

поскольку второе слагаемое в равенстве 3) всегда неотрицательно и равно 0 только при указанном значении а.

Утверждение 4. Пусть случайная величина Х принимает значения х1, х2,…, хm, а f - некоторая функция числового аргумента. Тогда

Условия утверждения 4

Для доказательства сгруппируем в правой части равенства, определяющего мат ожидание, члены с одинаковыми значениями:

Группировка в правой части членов с одинаковыми значениями

Пользуясь тем, что постоянный множитель можно выносить за знак суммы, и определением вероятности случайного события, получаем:

Вынесение постоянного множителя за скобки

что и требовалось доказать.

Утверждение 5. Пусть Х и У - случайные величины, определенные на одном и том же пространстве элементарных событий, а и b - некоторые числа. Тогда

Условия утверждения 5

С помощью определения мат. ожидания и свойств символа суммирования получаем цепочку равенств:

Цепочка равенст из утверждения 5

Требуемое доказано.

Выше показано, как зависит мат. ожидание от перехода к другому началу отсчета и к другой единице измерения, а также к функциям от случайных величин. Полученные результаты постоянно используются в технико-экономическом анализе, при оценке финансово-хозяйственной деятельности предприятия, при переходе от одной валюты к другой во внешнеэкономических расчетах, в нормативно-технической документации и др. Рассматриваемые результаты позволяют применять одни и те же расчетные формулы при различных параметрах масштаба и сдвига.

Коэффициент корреляции (Correlation coefficient) - это

3. Дисперсия. Мат ожидание показывает, вокруг какой точки группируются значения случайной величины. Необходимо также уметь измерить изменчивость случайной величины относительно мат ожидания.

Определение 5. Дисперсией случайной величины Х называется число

Дисперсия случайной величины

Установим ряд свойств дисперсии случайной величины, постоянно используемых в вероятностно-статистических методах принятия решений. Утверждение 8. Пусть Х - случайная величина, а и b - некоторые числа,

Первое свойство дисперсии случайной величины

Доказательство первого свойства дисперсии

Поскольку постоянный множитель можно выносить за знак суммы, то

Вынесение постоянного множителя за знак суммы в доказательстве первого свойства дисперсии

Утверждение 8 показывает, в частности, как меняется дисперсия результата наблюдений при изменении начала отсчета и единицы измерения. Оно дает правило преобразования расчетных формул при переходе к другим значениям параметров сдвига и масштаба.

Утверждение 9. Если случайные величины Х и У независимы, то дисперсия их суммы Х+У равна сумме дисперсий. Для доказательства воспользуемся тождеством:

Дисперсия сумм случайных величин равна сумме дисперсий

которое вытекает из известной формулы элементарной алгебры:

Формула элементарной алгебры

Из утверждений 3 и 5 и определения дисперсии следует, что:

Из свойств дисперсии следуют равенства

Согласно утверждению 6 из независимости Х и У вытекает независимость Х-М(Х) и У-М(У). Из утверждения 7 следует, что:

Из независимости переменных следует равенство

Из утверждения 3 правая часть последнего равенства равна 0, откуда с учетом двух предыдущих равенств и следует заключение утверждения 9.

Утверждение 10. Пусть X1, X2,…, Xk - попарно независимые случайные величины. Пусть Yk - их сумма, тогда мат ожидание суммы равно сумме математических ожиданий слагаемых, дисперсия суммы равна сумме дисперсий слагаемых:

Математическое ожидание и дисперсия суммы слагаемых равна сумме математических ожиданий и дисперсий

Соотношения, сформулированные в утверждении 10, являются основными при изучении выборочных характеристик, поскольку результаты наблюдений или измерений, включенные в выборку, обычно рассматриваются в математической статистике, теории принятия решений и эконометрике как реализации независимых случайных величин.

Для любого набора числовых случайных величин (не только независимых) мат. ожидание их суммы равно сумме их математических ожиданий. Это утверждение является обобщением утверждения 5. Строгое доказательство легко проводится методом математической индукции.

При выводе формулы для дисперсии D(Yk) воспользуемся следующим свойством символа суммирования:

Вывод формулы для дисперсии

Воспользуемся теперь тем, что мат ожидание суммы равно сумме математических ожиданий:

Математическое ожидание суммы равно сумме математических ожиданий

Как показано при доказательстве утверждения 9, из попарной независимости рассматриваемых случайных величин следует, что

Попарная независимость рассматриваемых случайных величин

Следовательно, в сумме (8) остаются только члены с i=j, а они равны как раз D(Xi). Полученные в утверждениях 8-10 фундаментальные свойства таких характеристик случайных величин, как мат. ожидание и дисперсия, постоянно используются практически во всех вероятностно-статистических моделях реальных явлений и процессов.

Пример 9. Рассмотрим событие А и случайную величину Х такую, что

Исходные условия примера по дисперсии

Воспользуемся формулой для мат. ожидания. Случайная величина Х принимает два значения - 0 и 1, значение 1 с вероятностью Р(А) и значение 0 с вероятностью 1 - Р(А), а потому:

Решение примера по дисперсии

Вынося общий множитель, получаем, что:

Вынесение общего знаменателя в решении примера по дисперсии

Пример 10. Рассмотрим k независимых испытаний, в каждом из которых некоторое событие А может наступить, а может и не наступить. Введем случайные величины X1, X2,…, Xk следующим образом:

Введение случайных величин в условие примера

Тогда случайные величины X1, X2,…, Xk попарно независимы. Как показано в примере 9

Следствие из условий примера 9

Иногда р называют «вероятностью успеха» - в случае, если наступление события А рассматривается как «успех».

Целями исследования зависимости между признаками являются доказательство наличия связи между признаками и изучение этой связи. Для доказательства наличия связи между двумя случайными величинами Х и У применяют корреляционный анализ. Если совместное распределение Х и У является нормальным, то статистические выводы основывают на выборочном коэффициенте линейной корреляции, в остальных случаях используют коэффициенты ранговой корреляции Кендалла и Спирмена, а для качественных признаков - критерий хи-квадрат.

Коэффициент корреляции (Correlation coefficient) - это

Свойства коэффициента корреляции

Коэффициент корреляции р для генеральной совокупности, как правило, неизвестен, поэтому он оценивается по экспериментальным данным, представляющим собой выборку объема n пар значений (Xi, Yi), полученную при совместномизмерении двух признаков Х и Y. Коэффициент корреляции, определяемый по выборочным данным, называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). Его принято обозначать символом r.

Коэффициент корреляции (Correlation coefficient) - это

Коэффициенты корреляции - удобный показатель связи, получивший широкое применение в практике. К их основным свойствам необходимо отнести следующие:

1. Коэффициенты корреляции способны характеризовать только линейные связи, т.е. такие, которые выражаются уравнением линейной функции. При наличии нелинейной зависимости между варьирующими признаками следует использовать другие показатели связи.

Теорема свойства коэффициента корреляции

Доказательство теоремы о свойствах коэффициента корреляции

Продолжение доказательства теоремы о свойствах коэффициента корреляции

2. Значения коэффициентов корреляции - это отвлеченные числа, лежащее в пределах от -1 до +1.

3. При независимом варьировании признаков, когда связь между ними отсутствует.

4. При положительной, или прямой, связи, когда с увеличением значений одного признака возрастают значения другого, коэффициент корреляции приобретает положительный (+) знак и находится в пределах от 0 до +1.

Стандартизация случайной величины

5. При отрицательной, или обратной, связи, когда с увеличением значений одного признака соответственно уменьшаются значения другого, коэффициент корреляции сопровождается отрицательным (-) знаком и находится в пределах от 0 до -1.

6. Чем сильнее связь между признаками, тем ближе величина коэффициента корреляции к 1. Если коэффициент корреляции + - 1, то корреляционная связь переходит в функциональную, т.е. каждому значению признака Х будет соответствовать одно или несколько строго определенных значений признака Y.

7. Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Этот параметр зависит от числа степеней свободы. Чем больше n, тем выше достоверность связи при одном и том же значении коэффициента корреляции.

Теорема стандартизированной случайной величины

Доказательство теоремы стандартизированной случайной величины

В практической деятельности, когда число коррелируемых пар признаков Х и Y невелико, то при оценке зависимости между показателями используется следующую градацию:

- высокая степень взаимосвязи - значения коэффициента корреляции находится в пределах от 0,7 до 0,99;

- средняя степень взаимосвязи - значения коэффициента корреляции находится в пределах от 0,5 до 0,69;

- слабая степень взаимосвязи - значения коэффициента корреляции находится от 0,2 до 0,49.

Пример по свойствам коэффициента корреляции

Решение примера по свойствам коэффициента корреляции

Оценка корреляционной связи по коэффициенту корреляции

При изучении корреляционной связи важным направлением анализа является оценка степени тесноты связи. Понятие степени тесноты связи между двумя признаками возникает вследствие того, что в реальной действительности на изменение результативного признака влияют несколько факторов. При этом влияние одного из факторов может выражаться более заметно и четко, чем влияние других факторов. С изменением условий в качестве главного, решающего фактора может выступать другой.

Понятие тесноты корреляционной связи

При статистическом изучении взаимосвязей, как правило, учитываются только основные факторы. А вопрос необходимо ли вообще изучать более подробно данную связь и практически ее использовать, решается с учетом степени тесноты связи. Зная количественную оценку тесноты корреляционной связи, таким образом, можно решить следующую группу вопросов: необходимо ли глубокое изучение данной связи между признаками и целесообразно ли ее практическое применение; сопоставляя оценки тесноты связи для различных условий, можно судить о степени различий в ее проявлении в конкретных условиях; последовательное рассмотрение и сравнение признака у с различными факторами (х1, х21, …) позволяет выявить, какие из этих факторов в данных конкретных условиях являются главными, решающими факторами, а какие второстепенными, незначительными факторами;

Измерение тесноты корреляционной связи

Показатели тесноты связи должны удовлетворять ряду основных требований: величина показателя степени тесноты связи должна быть равна или близка к нулю, если связь между изучаемыми признаками (процессами, явлениями) отсутствует; при наличии между изучаемыми признаками (х и у) функциональной связи величина степень тесноты связи равна единице; при наличии между признаками (х и у) корреляционной связи показатель тесноты связи выражается правильной дробью, которая по величине тем больше, чем теснее связь между изучаемыми признаками (стремится к единице); при прямолинейной корреляционной связи показатели тесноты связи отражают и направление связи: знак (+) означает наличие прямой (положительной) связи; а знак (-) - обратной (отрицательной).

Корреляционная связь - отрицательная

Для характеристики степени тесноты корреляционной связи могут применяться различные статистические показатели: коэффициент Фехнера (КФ), коэффициент линейной (парной) корреляции (r), коэффициент детерминации, корреляционное отношение ( ), индекс корреляции, коэффициент множественной корреляции (R), коэффициент частной корреляции (r) и др. В данном вопросе рассмотрим коэффициент линейной корреляции (r) и корреляционное отношение.

Более совершенным статистических показателем степени тесноты корреляционной связи является линейный коэффициент корреляции (r), предложенный в конце XIX в. При расчете коэффициента корреляции сопоставляются абсолютные значения отклонений индивидуальных величин факториального признака х и результативного признака у от их средних.

Характеристики корреляционного отношения

Однако непосредственно сопоставлять между собой эти полученные результаты нельзя, т.к. признаки, как правило, выражены в различных единицах и даже при наличии одинаковых единиц измерения будут иметь различные по величине средние и различные вариации. В этой связи сравнению подлежат отклонения, выраженные в относительных величинах, т.е. в долях среднего квадратического отклонения (их называют нормированными отклонениями).

Коэффициент корреляции (Correlation coefficient) - это

На практике коэффициент корреляции используется как некоторый «градусник», который показывает «ноль» в случае независимости переменных, плюс единицу в случае прямой линейной зависимости переменных и минус единицу в случае обратной линейной зависимости переменных. Значения коэффициента, находящиеся между нулем и единицей понимаются (с математической точки зрения необосновано!) так: чем ближе значение коэффициента корреляции к нулю, тем слабее зависимость, чем ближе к (плюс или минус) единице - тем сильнее зависимость. Отметим, что речь идет лишь об интерпретации свойств коэффициента корреляции, при этом аналитик далеко выходит за рамки математически точных утверждений.

Коэффициент корреляции используется как некоторый «градусник»

Важно! Принято считать, что чем cor(x,y) ближе по модулю к 1, тем ближе связь между анализируемыми переменными к линейной. Если величина cor(x,y) близка к -1, то связь обратная (С возрастанием переменной х переменная у убывает). Если величина cor(x,y) близка к +1, то связь прямая (С возрастанием переменной х переменная у возрастает).

Обычно задается вопрос, какие значения коэффициента корреляции указывают на сильную зависимость, а какие на слабую. Этот вопрос не имеет ответа. Строгая теория по этому поводу ничего не говорит. Тем не менее, во многих пособиях приводится ответ, но к огорчению новичков, в каждой книге ответ свой! Отчасти это связано с тем, что в разных дисциплинах сложились разные традиции интерпретации коэффициента.

Интерпретация значений коэффициента корреляции

Имейте в виду, что значения, приведенные в таблице, могут служить лишь неточными ориентирами. Заметьте, что в таблице рассматривается модуль коэффициента корреляции.

Взаимосвязь должна интерпретироваться в оба направления. Формально, корреляция не обозначает причинно-следственной связи! Это ВЗАИМОсвязь, ВЗАИМОсовпадение, явлений. Возвращаясь к примеру: застенчивость взаимосвязана с депрессивностью. Логично подумать, что депрессивный человек более застенчив, чем не депрессивный, но почему не наоборот? С чего начинать рассуждение? Мы интерпретируем корреляцию в оба направления и не констатируем причинно-следственную связь. Пишем «кореляция», «взаимосвязь», подразумеваем - совпадение. Причем сильная корреляция обозначает неслучайное совпадение.

Коэффициент корреляции показывает степень взаимосвязи случайных величин

Есть случаи, когда корреляция может говорить о причинно следственной связи. Это случаи, когда одна из переменых общективна, а вторая субъективна. К объективным переменным относятся возраст, стаж, рост, которые просто не могут зависеть от субъективных переменных: настроения, особенностей личности, мотивации и т.д. Однако, такие объективные переменные, как вес, количество детей в семье, частота смены места работы, количество контактов и т.п. могут и часто зависят от субъективных психологических показателей.

Коэффициент корреляции (Correlation coefficient) - это

К примеру, профессионализм рабочего повышается со стажем. Стаж и профессионализм коррелируют и мы можем быть уверены, что для повышения профессионализма стаж является объективной причиной. Объективные переменные, основанные на времени всегда являются причиной при наличии корреляции с субъективными характеристиками. В остальных случаях нужно очень осторожно относиться к причинно-следственным интерпретациям коэффициента корреляции.

Схема причинно-следственной связи

Если причинно-следственная связь обоснована в теоретической части работы и подтверждается многими авторами, то корреляцию так же можно интерпретировать как причинно-следственную связь.

Виды взаимосвязи:

- прямая положительная и отрицательная взаимосвязь. Два явления непосредственно совпадают, поэтому взаимосвязаны. Интеллект и успеваемость в школе, общительность и застенчивость - яркие примеры прямой взаимосвязи;

Коэффициент корреляции (Correlation coefficient) - это

- косвеная взаимосвязь. Два явления сильно коррелируют с третьим, поэтому между собой так же имеют корреляцию. К примеру, стиль общения ребенка взаимосвязан со стилем воспитания в семье за счет третьей переменной - установок личности. Очевидно, что воспитание в семье формирует установки ребенка, в свою очередь установки влияют на поведение;

Иллюзия закономерности - пример случайной связи

- нулевая корреляция. Предполагает отсутствие закономерной взаимосвязи между переменными;

- сучайная взаимосвязь. Корреляция может быть случайной! Очень многие процессы происходят одновременно и совпадают. Здесь уместно сказать, что если много-много коррелировать - что нибудь обязательно скоррелируется.

Виды статистического наблюдения

Значения коэффициента корреляции

Значимость коэффициента корреляции. Выборочный коэффициент корреляции Пирсона является оценкой генерального коэффициента корреляции. В данном случае решается следующий вопрос. Может ли выборочный коэффициент корреляции случайно отличаться от нуля, а в действительности случайные переменные Х и Y - некоррелированы?

Решение этого вопроса дается с помощью распределения вероятностей для выборочного коэффициента корреляции при условии, что генеральный коэффициент корреляции = 0. Существует таблица случайных отклонений от нуля произведения

Начальные условия таблицы случайных отклонений

в зависимости от вероятности Р и объема выборки n.

Таблица - Границы случайных отклонений значений

Если выборочный коэффициент корреляции окажется больше приведенного в таблице граничного значения, то с надежностью Р можно утверждать, что генеральный коэффициент корреляции ρ(X,Y) отличен от нуля. Значимость коэффициента корреляции можно проверить, решив следующую задачу проверки гипотез. Выдвигаются гипотезы:

Выдвигаются гипотизы

Задается уровень значимости. Статистика Т определяется по формуле:

Статистика Т

где n - число пар данных. Статистика Т подчиняется t-распределению Стьюдента с n-2 числом степеней свободы. По таблице t-распределения определяется:

По таблице t-распределения определяется

Если Т, полученное по выборке, удовлетворяет условию, то отвергается и коэффициент корреляции считается значимым. При проверке значимости коэффициента корреляции рангов исходят из того, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи между переменными, при n>10, статистика:

Корреляционная связь между переменными

имеет t-распределение Стьюдента с k=n-2 степенями свободы. Коэффициент корреляции значим на уровне а, если фактически наблюдаемое значение t будет больше критического по абсолютной величине:

Значение критического по абсолютной величине

При интерпретации коэффициента корреляции следует понимать, что:

- Корреляция между двумя случайными величинами может быть вызвана влиянием других факторов, и для объяснения полученных результатов нужно хорошо знать область приложения;

- Корреляция как формальное статистическое понятие не вскрывает причинного характера связи, т. е. нельзя указать, какую переменную принимать в качестве причины, а какую - в качестве следствия.

Пример графиков корреляции случайных величин

Относительная сила зависимости, или связи, между двумя переменными, образующими двумерную выборку, измеряется коэффициентом корреляции, изменяющимся от -1 для идеальной обратной зависимости до +1 для идеальной прямой зависимости. Коэффициент корреляции обозначается греческой буквой ρ. Линейность корреляции означает, что все точки, изображенные на диаграмме разброса, лежат на прямой. На панели А изображена обратная линейная зависимость между переменными X и Y. Таким образом, коэффициент корреляции ρ равен -1, т.е., когда переменная X возрастает, переменная Y убывает. На панели Б показана ситуация, в которой между переменными X и Y нет корреляции. В этом случае коэффициент корреляции ρ равен 0, и, когда переменная X возрастает, переменная Y не проявляет никакой определенной тенденции: она ни убывает, ни возрастает. На панели В изображена линейная прямая зависимость между переменными X и Y. Таким образом, коэффициент корреляции ρ равен +1, и, когда переменная X возрастает, переменная Y также возрастает.

Три вида зависимости между двумя переменными

При анализе выборок, содержащих двумерные данные, вычисляется выборочный коэффициент корреляции, который обозначается буквой r. В реальных ситуациях коэффициент корреляции редко принимает точные значения -1, 0 и +1. На рисунке приведены шесть диаграмм разброса и соответствующие коэффициенты корреляции r между 100 значениями переменных X и Y.

Шесть диаграмм разброса и соответствующие коэффициенты корреляции, полученные с помощью программы Excel

На панели А показана ситуация, в которой выборочный коэффициент корреляции r равен -0,9. Прослеживается четко выраженная тенденция: небольшим значениям переменной X соответствуют очень большие значения переменной Y, и, наоборот, большим значениям переменной X соответствуют малые значения переменной Y. Однако данные не лежат на одной прямой, поэтому зависимость между ними нельзя назвать линейной. На панели Б приведены данные, выборочный коэффициент корреляции между которыми равен -0,6. Небольшим значениям переменной X соответствуют большие значения переменной Y. Обратите внимание на то, что зависимость между переменными X и Y нельзя назвать линейной, как на панели А, и корреляция между ними уже не так велика. Коэффициент корреляции между переменными X и Y, изображенными на панели В, равен -0,3. Прослеживается слабая тенденция, согласно которой большим значениям переменной X, в основном, соответствуют малые значения переменной Y. Панели Г-Е иллюстрируют положительную корреляцию между данными - малым значениям переменной X соответствуют большие значения переменной Y.

Положительная корреляция выборки данных

Обсуждая рисунке, мы употребляли термин тенденция, поскольку между переменными X и Y нет причинно-следственных связей. Наличие корреляции не означает наличия причинно-следственных связей между переменными X и Y, т.е. изменение значения одной из переменных не обязательно приводит к изменению значения другой. Сильная корреляция может быть случайной и объясняться третьей переменной, оставшейся за рамками анализа. В таких ситуациях необходимо проводить дополнительное исследование. Таким образом, можно утверждать, что причинно-следственные связи порождают корреляцию, но корреляция не означает наличия причинно-следственных связей.

Сильная корреляция может быть случайной

Средняя ошибка коэффициента корреляции

Коэффициенты корреляции и регрессии, характеризующие зависимость между признаками групп животных, являются статистическими величинами, поэтому обладают свойством репрезентативности. Достоверность их величин устанавливают при помощи ошибок репрезентативности, вытекающих из самой сущности выборочного обследования, при котором целое характеризуется на основании изучения части.

Ошибки коэффициентов корреляции вычисляют по следующим формулам:

- для коэффициента корреляции r при многочисленной выборке (n>30):

Ошибка коэффициента корреляции при многочисленной выборке

- для r при малочисленной выборке (n < 30):

Ошибка коэффициента корреляции при малочисленной выборке

- для rp:

Ошибка коэффициента корреляции

Для коэффициентов регрессии:

Ошибка для коэффициентов регрессии

Используя величины статистических ошибок, определяют достоверность выборочных коэффициентов корреляции и регрессии:

- критерий достоверности коэффициентов корреляций:

Критерий достоверности коэффициентов корреляций

- критерий достоверности коэффициентов регрессии:

Критерий достоверности коэффициентов регрессии

Величины корреляции и регрессии считаются достоверными, если они превышают свои ошибки в определенное количество раз, зависящие от размера выборки. Критерии достоверности сравнивают со стандартами значений по таблице Стьюдента для установленного числа степеней свободы и порога вероятности безошибочных прогнозов.

Коэффициент корреляции (Correlation coefficient) - это

Показатели связи имеют реальный смысл, если они оказываются статистическими достоверными. Практическое же значение они приобретают лишь тогда, когда имеют достаточную величину. Например, коэффициент корреляции между многоплодием свиноматок и энергий роста их потомства 0,25 0,03 имеет вполне реальный смысл, так как он более чем в восемь раз превосходит свою квадратическую ошибку (tp = 8,3). Однако практическое значение этого показателя весьма невелико: он свидетельствует, что всего 6% общей вариации признака (r2=0,252=0,06=6%) зависит от изменчивости другого, связанного с ним признака; 94% составляют так называемую остаточную вариацию, не зависящую от связи признаков между собой. Поэтому строить практические расчеты на основании коэффициента корреляции, значение которого не превышает 0,5, по меньшей мере, ненадежно. Однако практическая значимость показателей связи зависит от цели исследования, т.е. от того, с какой степенью точности допустимы их вычисления и какова может быть их величина в заданных условиях.

В ходе биологических исследований биометрические величины показывают, какая доля общей вариации зависит от взаимного влияния биологических признаков и какая - от случайных причин.

Понятие доли общей вариации - дисперсии

Когда не следует рассчитывать коэффициент корреляции?

Расчет r может ввести в заблуждение, если:

1. Соотношение между двумя переменными нелинейное, например квадратичное. Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций: например, равносторонней гиперболы, параболы второй степени и др. Различают два класса нелинейных регрессий: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам; регрессии, нелинейные по оцениваемым параметрам.

Примером нелинейной регрессии по включаемым в нее объясняющим переменным могут служить следующие функции: полиномы разных степеней; равносторонняя гипербола.

Формулы полинома n-ой степени и равносторонней гиперболы

К нелинейным регрессиям по оцениваемым параметрам относятся функции: степенная; показательная; экспоненциальная.

Степенная, показательная и экспоненциальная функции

Параметры нелинейной регрессии по включенным переменным оцениваются, как и в линейной регрессии, методом наименьших квадратов, поскольку эти функции линейны по параметрам.

Как показывает опыт большинства исследователей, среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях - полином третьего порядка. Ограничения в использовании полиномов более высоких степеней связаны с требованием однородности исследуемой совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и соответственно менее однородна совокупность по результативному признаку.

Нелинейная регрессия

Парабола второй степени целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую. В этом случае определяется значение фактора, при котором достигается максимальное (или минимальное) значение результативного признака: приравниваем к нулю первую производную параболы второй степени. Если же исходные данные не обнаруживают изменения направленности связи, то параметры параболы второго порядка становятся трудно интерпретируемыми, а форма связи часто заменяется другими нелинейными моделями.

Пример параболы второго порядка

Среди класса нелинейных функций, параметры которых без особых затруднений оцениваются МНК, следует назвать хорошо известную в эконометрике равностороннюю гиперболу. Иначе обстоит дело с регрессией, нелинейной по оцениваемым параметрам. Данный класс нелинейных моделей подразделяется на два типа: нелинейные модели внутренне линейные и нелинейные модели внутренне нелинейные. Если нелинейная модель внутренне линейна, то она с помощью соответствующих преобразований может быть приведена к линейному виду. Если же нелинейная модель внутренне нелинейна, то она не может быть сведена к линейной функции. Например, в эконометрических исследованиях широко используется степенная функция.

Равносторонняя гипербола и степенная функция

Данная модель нелинейна относительно оцениваемых параметров, ибо включает параметры a и b неаддитивно. Однако ее можно считать внутренне линейной, ибо логарифмирование данного уравнения по основанию е приводит его к линейному виду. Соответственно оценки параметров a и b могут быть найдены с помощью МНК.

В специальных исследованиях по регрессионному анализу часто к нелинейным относят модели, только внутренне нелинейные по оцениваемым параметрам, а все другие модели, которые внешне нелинейны, но путем преобразований параметров могут быть приведены к линейному виду, относятся к классу линейных моделей. В этом плане к линейным относят, например, экспоненциальную модель, поскольку логарифмируя ее по натуральному основанию, получим линейную форму модели:

Линейная форма модели

Если модель внутренне нелинейна по параметрам, то для оценки параметров используются итеративные процедуры, успешность которых зависит от вида уравнений и особенностей применяемого итеративного подхода.

2. Данные включают более одного наблюдения по каждому случаю. Количественная характеристика социально-экономических процессов в непосредственной связи с их качественной сущностью невозможна без глубокого статистического исследования. Использование различных способов и приемов статистической методологии предполагает наличие исчерпывающей и достоверной информации об изучаемом объекте, что включает этапы сбора статистической информации и ее первичной обработки, сведения и группировки результатов наблюдения в определенные совокупности, обобщения и анализа полученных материалов.

Расчет коэффициента корреляции не проводиться при более, чем одном наблюдении на каждое событие

Если при сборе статистических данных допущена ошибка или материал оказался недоброкачественным, это повлияет на правильность и достоверность как теоретических, так и практических выводов. Поэтому статистическое наблюдение от начальной до завершающей стадии должно быть тщательно продуманным и четко организованным.

Статистическое наблюдение - это первая стадия всякого статистического исследования, представляющая собой научно организованный по единой программе учет фактов, характеризующих явления и процессы общественной жизни, и сбор полученных на основе этого учета массовых данных.

Классификация видов статиситческого наблюдения

Однако не всякий сбор сведений является статистическим наблюдением. О статистическом наблюдении можно говорить лишь тогда, когда, во-первых, обеспечивается регистрация устанавливаемых фактов в специальных учетных документах и, во-вторых, изучаются статистические закономерности, т.е. такие, которые проявляются только в массовом процессе, в большом числе единиц какой-то совокупности. Поэтому статистическое наблюдение должно быть планомерным, массовым и систематическим.

Коэффициент корреляции (Correlation coefficient) - это

К статистическому наблюдению предъявляются следующие требования: полноты и практической ценности статистических данных; достоверности и точности данных; их единообразия и сопоставимости. Любое статистическое исследование необходимо начинать с точной формулировки его цели и конкретных задач, а тем самым и тех сведений, которые могут быть получены в процессе наблюдения. После этого определяются объект и единица наблюдения, разрабатывается программа, выбираются вид и способ наблюдения.

Формы, виды и способы статистического наблюдения

С точки зрения полноты охвата фактов статистическое наблюдение может быть сплошным и несплошным. Сплошное наблюдение представляет собой полный учет всех единиц изучаемой совокупности. Несплошное наблюдение организуют как учет части единиц совокупности, на основе которой можно получить обобщающую характеристику всей совокупности. К видам несплошного наблюдения относятся: способ основного массива, выборочные наблюдения, монографические описания.

Коэффициент корреляции (Correlation coefficient) - это

При непосредственном учете фактов сведения получают путем личного учета единиц совокупности: пересчета, взвешивания, измерения и т.д. Документальный способ сбора статистической информации базируется на систематических записях в первичных документах, подтверждающих тот или иной факт. В ряде случаев для заполнения статистических формуляров прибегают к опросу населения, который может быть произведен экспедиционным, анкетным или корреспондентским способом.

Существуют различные способы формирования выборочной совокупности. Это, во-первых, индивидуальный отбор, включающий такие разновидности, как собственно случайный, механический, стратифицированный, и, во-вторых, серийный, или гнездовой, отбор.

Существуют различные способы формирования выборочной совокупности

3. Есть аномальные значения (выбросы).Любая изучаемая совокупность может содержать единицы наблюдения, значения признаков которых резко выделяются из основной массы значений. Такие нетипичные значения признаков (выбросы) могут быть обусловлены воздействием каких-либо сугубо случайных обстоятельств, возникать в результате ошибок наблюдения или же быть объективно присущими наблюдаемому явлению. В любом случае они являются аномальными для совокупности, так как нарушают статистическую закономерность изучаемого явления. Следовательно, статистическое изучение совокупности без предварительного выявления и анализа возможных аномальных наблюдений может не только исказить значения обобщающих показателей (средней, дисперсии, среднего квадратического отклонения и др.), но и привести к серьезным ошибкам в выводах о статистических свойствах совокупности, сделанных на основе полученных оценок показателей.

Для выявления и исключения аномальных единиц наблюдения построена диаграмма рассеяния изучаемых признаков.

Диаграмма рассеяния изучаемых признаков

4. Данные содержат ярко выраженные подгруппы наблюдений. Собранный в процессе статистического наблюдения материал нуждается в определенной обработке, сведении разрозненных данных воедино. Научно организованная обработка материалов наблюдения (по заранее разработанной программе), включающая в себя кроме обязательного контроля собранных данных систематизацию, группировку материалов, составление таблиц, получение итогов и производных показателей (средних, относительных величин), называется в статистике сводкой.

Сводка представляет собой второй этап статистического исследования. Целью сводки является получение на основе сведенных материалов обобщающих статистических показателей, отражающих сущность социально-экономических явлений и определенные статистические закономерности.

Данные могут содержать ярко выраженные подгруппы наблюдений

Статистическая сводка осуществляется по программе, которая должна разрабатываться еще до сбора статистических данных, практически одновременно с составлением плана и программы статистического наблюдения. Программа сводки включает определение групп и подгрупп; системы показателей; видов таблиц. Группировка - это разбиение совокупности на группы, однородные по какому-либо признаку. С точки зрения отдельных единиц совокупности группировка - это объединение предприятий отдельных единиц совокупности в группы, однородные по каким-либо признакам.

Коэффициент корреляции (Correlation coefficient) - это

Устойчивое разграничение объектов выражается классификацией, которая основывается на самых существенных признаках (например, классификация отраслей народного хозяйства, классификация основных фондов и т.д.). Таким образом, классификация - это узаконенная, общепринятая, нормативная группировка.

Метод группировки основывается на следующих категориях - это группировочный признак, интервал группировки и число групп. Группировочный признак - это признак, по которому происходит объединение предприятий отдельных единиц совокупности в однородные группы. Интервал очерчивает количественные границы групп. Как правило, он представляет собой промежуток между максимальными и минимальными значениями признака в группе.

Графические методы группировки

Интервалы бывают: равные, когда разность между максимальным и минимальным значениями в каждом из интервалов одинакова; неравные, когда, например, ширина интервала постепенно увеличивается, а верхний интервал часто не закрывается вовсе; открытые, когда имеется только либо верхняя, либо нижняя граница; закрытые, когда имеются и нижняя, и верхняя границы.

При проведении группировки приходится решать ряд задач: выделение группировочного признака; определение числа групп и величины интервалов; при наличии нескольких группировочных признаков описание того, как они комбинируются между собой; установление показателей, которыми должны характеризоваться группы, т.е. сказуемого группировки.

Методы статистики

Статистические группировки и классификации преследуют цели выделения качественно однородных совокупностей, изучения структуры совокупности, исследования существующих зависимостей. Каждой из этих целей соответствует особый вид группировки: типологическая, структурная, аналитическая (факторная).

Типологическая группировка решает задачу выявления и характеристики социально-экономических типов (частных подсовокупностей). Структурная дает возможность описать составные части совокупности или строение типов, а также проанализировать структурные сдвиги. Аналитическая (факторная) группировка позволяет оценивать связи между взаимодействующими признаками. В зависимости от числа положенных в их основание признаков различают простые и многомерные группировки. Группировка, выполненная по одному признаку, называется простой.

Понятие статистической таблицы

Многомерная группировка производится по двум и более признакам. Частным случаем многомерной группировки является комбинационная группировка, базирующаяся на двух и более признаках, взятых во взаимосвязи, в комбинации. Структурная группировка применяется для характеристики структуры совокупности и структуры сдвигов.

Структурный называется группировка, в которой происходит разделение выделенных с помощью технологической группировки типов явлений, однородных совокупностей на группы, характеризующие их структуру по какого либо варьирующему признаку. Например, группировка населения по размеру среднедушевого дохода. Анализ структурных группировок взятых за ряд периодов или моментов времени, показывает изменения структуры изучаемых явлений, то есть структурные сдвиги. В изменении структуры общественных явлений отражаются важнейшие закономерности их развития.

Способы первичного наблюдения объектов учета

Показатель численности групп представлен либо частотой (количеством единиц в каждой группе), либо частотностью (удельным весом каждой группы). Среди простых группировок особо выделяют ряды распределения. Ряд распределения - это группировка, в которой для характеристики групп (упорядоченно расположенных по значению признака) применяется один показатель - численность группы. Другими словами, это ряд чисел, показывающий, как распределяются единицы некоторой совокупности по изучаемому признаку. Ряды, построенные по атрибутивному признаку, называются атрибутивными рядами распределения. Ряды распределения, построенные по количественному признаку, называются вариационными рядами.

Пример графического представления ряда распределения показателей

Примером атрибутивных рядов могут служить распределения населения по полу, занятости, национальности, профессии и т.д. Примером вариационного ряда распределения могут служит распределения населения по возрасту, рабочих - по стажу работы, заработной плате и т.д. Вариационные ряды распределения состоят их двух элементов вариантов и частот. Вариантами называются числовые значения колличественного признака в ряду распределения, они могут быть положительными и отрицательными, абсолютными и относительными.

Частоты - это численности отдельных вариантов или каждой группы вариационного ряда. Сумма всех частот называется объемом совокупности и определяет число элементов всей совокупности. Вариационные ряды в зависимости от характера вариации подразделяются на дискретные и интервальные.

Понятие частоты в статистике

Виды коэффициента корреляции

До сих пор статистические методы касались одной случайной переменной и ее распределения. Однако многие проблемы в статистике касаются нескольких переменных. Во многих проблемах несколько переменных изучаются с целью установления их взаимосвязи или определения корреляции между ними. Две случайные величины - Х и Y - находятся в корреляционной зависимости, если каждому значению любой из них соответствует определенное распределение другой величины.

Коэффициент корреляции (Correlation coefficient) - это

Чтобы определить корреляцию между двумя случайными величинами (Х и Y), необходимо иметь две случайные выборки, одна из которых соответствует Х, другая - Y. Например, при анализе торговли ковровыми покрытиями было обнаружено изменение цен в % и соответствующие изменения в продаже. В результате имеем:

Пример - Изменение цен в % и соответствующие изменения в продаже

Взаимосвязь между этими случайными величинами можно проанализировать с использованием диаграммы рассеивания. С помощью этой диаграммы можно установить, есть ли связь между переменными и какого она вида. Для представленных данных диаграмма рассеивания имеет вид:

Пример диаграммы рассеивания

Анализ этой диаграммы показывает, что при увеличении цен продажа имеет тенденцию к снижению. Более того, можно грубо оценить, что этот спад идет по прямой. Взаимосвязь между переменными Х и Y можно представить следующими диаграммами:

Взаимосвязь между переменными Х и Y

Взаимосвязь между Х и Y, представленная на этих рисунках, классифицируется как: а - слабая положительная линейная; b - слабая отрицательная линейная (когда с возрастанием одной переменной другая убывает); с - отсутствие связи; d - сильная положительная линейная; е - сильная отрицательная линейная; f - нелинейная связь. Для оценки линейной взаимосвязи между двумя случайными переменными Х и Y используется выборочный коэффициент корреляции Пирсона:

Оценка линейной взаимосвязи между двумя переменными - коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона предполагает, что случайные переменные Х и Y являются непрерывного типа. Кроме того, предполагается, что они распределены по нормальному закону. Это ограничивает применение коэффициента корреляции. Существует непараметрический аналог коэффициента корреляции Пирсона - ранговый коэффициент корреляции Спирмена. Коэффициент ранговой корреляции Спирмена находится по формуле:

Расчет коэффициента ранговой корреляции Спирмена

То есть в данном случае проблема оценки тесноты связи решается с использованием ранжирования или упорядочивания объектов по степени выраженности измеряемых признаков. При этом каждому объекту присваивается определенный номер, называемый рангом.

Например. Объекту с наименьшим значением признака присваивается ранг 1, следующему за ним - ранг 2 и т. д. При ранжировании иногда сталкиваются со случаями, когда величина проявления рассматриваемого признака одна и та же для нескольких объектов. В таких случаях объекты называются связанными. Связанным объектам приписываются одинаковые средние ранги.

Коэффициент корреляции (Correlation coefficient) - это

Например. Если 4 объекта оказались равнозначными в отношении рассматриваемого признака и невозможно определить, какие из следующих рангов (4, 5, 6, 7) приписать этим объектам, то каждому объекту приписывается средний ранг, равный (4+5+6+7)/4 = 5.5. При наличии связанных рангов ранговый коэффициент корреляции Спирмена вычисляется по формуле:

При наличии связанных рангов ранговый коэффициент корреляции Спирмена вычисляется по формуле

Пример. Десять однородных предприятий были проранжированы по двум признакам - x1 и x2. В итоге имеем следующие выборки:

Условия примера для определения ранговой корреляции

Определить коэффициент корреляции рангов. Решение. В первой ранжировке имеем четыре группы неразличимых рангов. Во второй ранжировке имеем две таких группы:

Первая и вторая ранжировка

Используя формулу, имеем r = 0.917. Примечание. Коэффициент корреляции рангов может использоваться для изучения связи между ординальными (порядковыми) переменными, которые еще называются качественными. В отличие от количественных переменных, для которых можно определить, на сколько или во сколько раз проявления одного признака у одного объекта больше (меньше), чем у другого, для качественных признаков этого определить нельзя.

Например. По некоторой дисциплине два студента имеют соответственно оценки "отлично" и "удовлетворительно". В этом случае можно утверждать, что уровень подготовки у первого студента выше, чем у другого, но нельзя сказать, на сколько или во сколько раз.

Коэффициент корреляции (Correlation coefficient) - это

       Коэффициент корреляции Пирсона

Линейный корреляционный анализ позволяет установить прямые связи между переменными величинами по их абсолютным значениям. Формула расчета коэффициента корреляции построена таким образом, что если связь между признаками имеет линейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициентом линейной корреляции Пирсона. В общем виде формула для подсчета коэффициента корреляции такова:

Формула для подсчета коэффициента корреляции в общем виде

Расчет коэффициента корреляции Пирсона предполагает, что переменные X и Y распределены нормально. Даная формула предполагает, что из каждого значения xi переменной X, должно вычитаться ее среднее значение x. Это не удобно, поэтому для расчета коэффициента корреляции используют не данную формулу, а ее аналог, получаемый с помощью преобразований:

Расчет коэффициента корреляции Пирсона

Используя данную формулу, решим следующую задачу: 20 школьникам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Психолога интересует вопрос: существует ли взаимосвязь между временем решения этих задач? Переменная X - обозначает среднее время решения наглядно-образных, а переменная Y - среднее время решения вербальных заданий тестов.

Коэффициент корреляции (Correlation coefficient) - это

Для решения данной задачи представим исходные данные в виде таблицы, в которой введены дополнительные столбцы, необходимые для расчета по формуле В таблице 12 даны индивидуальные значения переменных X и Y, построчные произведения переменных X и Y, квадраты переменных всех индивидуальных значений переменных X и Y, а также суммы всех вышеперечисленных величин.

Исходные данные для примера по коэффициенту Пирсона

Рассчитываем эмпирическую величину коэффициента корреляции по формуле:

Эмпирическая величина коэффициента корреляции

Определяем критические значения для полученного коэффициента корреляции. Величины критических значений коэффициентов линейной корреляции Пирсона даны по абсолютной величине. Следовательно, при получении как положительного, так и отрицательного коэффициента корреляции по формуле оценка уровня значимости этого коэффициента проводится по той же таблице приложения без учета знака, а знак добавляется для дальнейшей интерпретации характера связи между переменными X и Y. При нахождении критических значений для вычисленного коэффициента корреляции Пирсона число степеней свободы рассчитывается как:

Число расчета степеней свободы

Строим соответствующую "ось значимости":

Ось значимости

Ввиду того, что величина расчетного коэффициента корреляции попала в зону значимости - Н0 отвергается и принимается гипотеза Н1. Иными словами, связь между временем решения наглядно-образных и вербальных задач статистически значима на 1% уровне и положительна. Полученная прямо пропорциональная зависимость говорит о том, что чем выше среднее время решения наглядно-образных задач, тем выше среднее время решения вербальных и наоборот.

Для применения коэффициента корреляции Пирсона, необходимо соблюдать следующие условия: сравниваемые переменные должны быть получены в интервальной шкале или шкале отношений, распределения переменных X и Y должны быть близки к нормальному, число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

Коэффициент корреляции (Correlation coefficient) - это

Пример решения задачи при помощи коэффициента Пирсона. На основании наблюдений за развивающимся сайтом и изменением его средневзвешенной позиции по основным запросам в поисковой системе необходимо проверить, можно ли говорить о линейной зависимости между позицией сайта и числом посетителей. Исходные данные: X (число посетителей в сутки), Y (усредненная позиция сайта в поисковой системе). В таблице представлены значения признаков X и Y:

Значение признаков Х и У в задаче по коэффициенту Пирсона

1. На основании исходных данных, приведенных в таблице, расчитаем средние значения для X и Y:

Среднее значение Х и У

Все необходимые для расчета коэффициента корреляции промежуточные данные и их суммы представлены в таблице:

Расчет коэффициента корреляции Пирсона в примере

Оценим полученное нами эмпирическое значение коэффициента Пирсона, сравнив его с соответствующим критическим значением для заданного уровня значимости из таблицы критических значений коэффициента корреляции Пирсона. Для выборки с числом элементов m = 9 и уровнем значимости p = 0,05 критическое значение коэффициента Пирсона = 0,67, с уровнем значимости p = 0,01 критическое значение коэффициента Пирсона = 0,8. Так как абсолютное значение, полученного нами коэффициента корреляции меньше критического значения, взятого из таблицы (находится вне зоны значимости), мы принимаем гипотезу Н0 об отсутcтвии корреляционной зависимости между выборками. Полученный результат свидетельствует об отсутствии линейной зависимости между числом посетителей сайта и его позицией в поисковой системе, однако это не означает, что эти параметры не связаны между собой.

Наиболее часто используемый коэффициент корреляции Пирсона r называется также линейной корреляцией

              Модификация коэффициента корреляции Пирсона

До сих пор мы подробно рассматривали два вида коэффициентов корреляции: коэффициент линейной корреляции Пирсона для интервальных шкал и коэффициент ранговой корреляции Спирмена. Существуют и другие типы коэффициентов для различных сочетаний шкал. Для коррелирования переменных, измеренных в дихотомической и интервальной шкале используют точечно-бисериальный коэффициент корреляции.

Коэффициент корреляции (Correlation coefficient) - это

Точечно-бисериальный коэффициент корреляции - это метод корреляционного анализа отношения переменных, одна из которых измерена в шкале наименований и принимает только 2 значения (к примеру, мужчины/женщины, ответ верный/ответ неверный, признак есть/признака нет), а вторая в шкале отношений или интервальной шкале. Формула расчета коэффициента точечно-бисериальной корреляции:

Формула расчета коэффициента точечно-бисериальной корреляции

Переменные коэффициента точечно-бисериальной корреляции

Чаще всего данный вид коэффициента корреляции применяется для расчета связи пунктов теста с суммарной шкалой. Это один из видов проверки валидности. Случаи, когда одна из переменных представлена в дихотомической шкале, а другая в ранговой (порядковой), требуют применения коэффициента рангово-бисериальной корреляции:

Коэффициент рангово-бисериальной корреляции

Если обе переменные представляют собой дихотомическую шкалу то следует использовать коэффициент четырехклеточной сопряженности Пирсона. Классификация объектов по дихотомической шкале приведет к построению четырехклеточной таблицы. К примеру, студент может посетить более 50% лекций, а может и не посетить, может сдать зачет с первого раза, а может и не сдать. На основе такой классификации построим таблицу:

Пример построения четырехклеточной таблицы

В клетки a,b,c,d таблицы следует вписать количество объектов, обладающих соответствующими признаками. Формула расчета коэффициента четырехклеточной сопряженности Пирсона:

Формула расчета коэффициента четырехклеточной сопряженности Пирсона

Приведенный коэффициент является ни чем иным, как модификацией коэффициента корреляции Пирсона, поэтому так же изменяется от - 1 до + 1 и критические значения этого коэффициента даны в таблице критических значений для коэффициента Пирсона. Коэффициент четырехклеточной сопряженности часто применяется для коррелирования ответов на вопросы теста, закодированные в дихотомической шкале.

Коэффициент корреляции (Correlation coefficient) - это

       Коэффициент корреляции Спирмена

Коэффициент ранговой корреляции Спирмена (Spearman rank correlation coefficient) - мера линейной связи между случайными величинами. Для оценки силы связи между величиными используются не численные значения, а соответствующие им ранги. Этот коэффициент определяет степень тесноты и направленность связи признаков. Величина коэффициента лежит в интервале от +1 до -1. Абсолютное значение характеризует тесноту связи, а знак - направленность связи между двумя признаками.

Преимущество: можно ранжировать по признакам, которые нельзя выразить численно: субъективные оценки, предпочтения и т.д. При экспертных оценках можно ранжировать оценки разных экспертов и найти их корреляции друг с другом, чтобы затем исключить из рассмотрения оценки эксперта, слабо коррелирующие с оценками других. Коэффициент корреляции рангов применяется для оценки устойчивости тенденции динамики.

Вычисление коэффициента корреляции Спирмена

Недостатки: недостатком коэффициента корреляции рангов является то, что одинаковым разностям рангов могут соответствовать совершенно отличные разности значений (в случае количественных признаков). Недоучет размеров отклонений признаков от их средних величин занижает меру тесноты связи. Поэтому для количественных признаков корреляция рангов обладает меньшей информативностью, чем коэффициент корреляции числовых значений этих признаков.

Вычисление коэффициент корреляции Спирмена при наличии связок

Свойства коэффициента ранговой корреляции Спирмена:

1. Нормируемость. Коэффициент корреляции рангов может принимать значения от -1 до +1. Значение 1 свидетельствует о возможном наличии прямой связи, значение - 1 свидетельствует о возможном наличии обратной связи.

2. Ограниченность. Для оценки данных необходима выборка от 5 до 40 наблюдений по каждой переменной. При большом количестве одинаковых рангов по сопоставляемым переменным коэффициент дает приближенные значения. При совпадении значений вносится поправка на одинаковые ранги. В этом случае формула имеет вид:

Свойство ограниченности коэффициента ранговой корреляции Спирмена

3. Независимость. Чтобы получить адекватный результат, необязательно наличие нормального закона распределения коррелируемых рядов.

Коэффициент корреляции рангов используется для оценки качества связи между двумя совокупностями. Кроме этого, его статистическая значимость применяется при анализе данных на гетероскедастичность.

При ранжировании возможно появление одинаковых рангов в каждом ряду. Одинаковые ранги называются связками. Возможно присутствие нескольких связок в одном ряду рангов. Повторяющиеся ранги для X и Y отсутствуют: количество значений переменных в X и Y - должно быть одинаково; разность рангов для пары значений X и Y.

Обоснование критерия Спирмена

Повторяющиеся ранги для X и Y есть. В этом случае вводится поправка на связки в ранговых рядах. Поправка рассчитывается для каждого ряда отдельно. Поправка для каждого ряда рассчитывается с учетом всех связок в этом ряду: поправка для связок рангов в ряду X; поправка для связок рангов в ряду Y; номер связки в ряду X; количество одинаковых рангов в связке с номером j; номер связки в ряду Y; количество одинаковых рангов в связке с номером k.

Критическая область критерия Спирмена

Пример решения задачи с использованием коэффициента Спирмана: На основании наблюдений за развивающимся сайтом и изменением его средневзвешенной позиции по основны м запросам в поисковой системе необходимо проверить, можно ли говорить о линейная зависимость между позицией сайта и числом посетителей.

Исходные данные: X (число посетителей в сутки), Y (усредненная позиция сайта в поисковой системе). В таблице представлены значения признаков X и Y:

Значение признаков Х и У для примера решения задачи коэффициента Спирмена

Проранжируем каждый из элементов признаков (X и Y) в порядке возрастания значений (самому маленькому элемнту присвоим ранг 1 и т. д. до самого большого элемента последовательности, который получит ранг m). Результаты ранжирования представлены в таблице:

Результаты ранжирования признаков

Кроме рангов, для каждого элемента из наборов признаков X и Y в таблице расчитаны Di - разность рангов и D2 - квадрат разности рангов пары соответствующих элементов X и Y. Для расчета коэффициена ранговой корреляции Спирмена используется формула:

Формула для расчета коэффициента Спирмена

Найдем сумму квадратов разностей рангов, сложив для этого элементы столбца. Подставим полученные значения в формулу, и найдем значение коэффициента Спирмена.

Коэффициент корреляции Спирмена

Оценка коэффициента корреляции Спирмена. Оценим полученное нами эмпирическое значение коэффициента Спирмена, сравнив его с соответствующим критическим значением для заданного уровня значимости из таблицы критических значений коэффициента ранговой корреляции Спирмена. Для выборки с числом элементов m = 9 и уровнем значимости p = 0,05 критическое значение коэффициента Спирмена = 0,68.

Коэффициент корреляции (Correlation coefficient) - это

Так как абсолютное значение, полученного нами коэффициента корреляции больше критического значения, взятого из таблицы, мы отклоняем гипотезу H0 об отсуттвии корреляционной зависимости между выборками и принимаем альтернативную гипотезу о статистической значимости отличия коэффициента корреляции от нуля, и наличии связи.

Оценка коэффициента корреляции Спирмена на основании t-критерия. Произведем оценку значимости полученного нами коэффициента ранговой корреляции Спирмена, используя таблицу "Стьюдента".

Таблица коэффициентов Стьюдента

Так как коэффициент ранговой корреляции больше t-критерия мы отклоняем гипотезу H0 об отсуттвии корреляционной зависимости между выборками и принимаем альтернативную гипотезу о статистической значимости отличия коэффициента корреляции от нуля, и наличии отрицательной связи между числом посетителей сайта и его позицией в поисковой системе.

Заметим, что для тех же исходных данных при подсчете коэффициента корреляции Пирсона в результате было получено заключение об отсутствии связи. Такой результат можно обьяснить тем, что коэффициент корреляции Пирсона подтверждает илиопровергает наличие линейной зависимости. Коэффициент рангов Спирмена подтверждает присутствие монотонно-возрастающей или убывающей зависимости (не обязательно линейной). В нашем случае зависимость нелинейная, но монотонно-убывающая.

Значимость коэффициента ранговой корреляции

       Коэффициент корреляции Кендалла

Коэффициент корреляции Кенделла (Kendall tau rank correlation coefficient) - мера линейной связи между случайными величинами. Корреляция Кенделла является ранговой, то есть для оценки силы связи используются не численные значения, а соответствующие им ранги. Коэффициент инвариантен по отношению к любому монотонному преобразованию шкалы измерения.

Критическая область критерия Кендалла

Коэффициент корреляции Кенделла вычисляется по формуле:

Вычисление корреляции Кенделла

Коэффициент Кенделла принимает значения отрезка -1; +1. Значение +1 - указывает на строгую прямую линейную зависимость, -1 - на обратную.

Обоснование критерия Кенделла

Для измерения степени согласия Кенделл предложил следующий коэффициент:

Измерение степени согласия

Таким образом, коэффициент Кенделла можно считать мерой неупорядоченности второй последовательности относительно первой. Статистическая проверка наличия корреляции. Нулевая гипотеза Н0: Выборки x и y не коррелируют. Рассмотрим центрированную и нормированную статистику Кенделла:

Центрированная и нормированная статистика Кенделла

Нулевая гипотеза отвергается (против альтернативы Н1 - наличие корреляции), если:

Условия отвержения нулевой гипотезы

Ниже приведены примеры вычисления корреляций Кенделла и Спирмена. Значения коэффициентов указаны над каждым изображением. Заметно, что в большинстве случаев коэффициент Спирмена больше коэффициента Кенделла. Объяснение этого эффекта приводится ниже. Направление линейной зависимости.

Корреляции Кенделла и Спирмена. Нормальные сгущения

Коэффициенты корреляции реагируют на изменение направления и зашумлённость линейной зависимости между переменными. Наклон линейного тренда.

Корреляции Кенделла и Спирмена. Вращающаяся полоса

Коэффициенты корреляции реагируют на изменение направления, но не реагируют на изменение наклона тренда. На первом, четвёртом и седьмом рисунках дисперсия одной из переменных близка к нулю, поэтому не удаётся зафиксировать факт линейной зависимости. Нелинейная зависимость.

Корреляции Кенделла и Спирмена. Нелинейная зависимость

Корреляции Кенделла и Спирмена не отражают меры нелинейной зависимости между переменными. Линейная и нелинейная зависимости. На каждой из приведённых ниже иллюстраций осуществляется переход от линейной зависимости к нелинейной. Коэффициенты корреляции Кенделла и Спирмена реагируют на это одинаковым образом.

Корреляции Кенделла и Спирмена. Перекрещенные полосы

Корреляции Кенделла и Спирмена. Расширяющаяся полоса

Корреляции Кенделла и Спирмена. Синусоида с переменной амплитудой

По мере смены линейной зависимости нелинейной значения коэффициентов корреляции падают. В случае выборок из нормального распределения коэффициент корреляции Кенделла может быть использован для оценки коэффициента корреляции Пирсона по формуле:

Оценка коэффициента корреляции Пирсона

Выборкам x и y соответствуют последовательности рангов:

Выборкам x и y соответствуют последовательности рангов

Проведем операцию упорядочивания рангов.

Операция упорядочивания рангов

Коэффициент корреляции Кенделла и коэффициент корреляции Спирмена выражаются через ранги следующим образом:

Выражение через ранги коэффициента корреляции Спирмена и Кенделла

Заметно, что в случае с коэффициентом Спирмана инверсиям придаются дополнительные веса, таким образом коэффициент Спирмана сильнее реагирует на несогласие ранжировок, чем коэффициент Кенделла. Этот эффект проявляется в приведённых выше примерах: в большинстве из них коэффициент Спирмана больше коэффициент Кенделла.

Утверждение. Если выборки x и y не коррелируют (выполняется гипотеза Н0), то величины Кенделла и Спирмена сильно закоррелированы. Коэффициент корреляции между ними можно вычислить по формуле:

Коэффициент корреляции между коэффициентами Кенделла и Спирмена

       Коэффициент корреляции знаков Фехнера

Коэффициент Фехнера - это оценка степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от средних значений факторного и результативного признаков. Коэффициент Фехнера наряду с такми коэффициентами, как коэффициент Спирмэна и коэффициент Кэндэла, относится к коэффициентам корреляции знаков.

Г. Фехнер предложил очень простой способ оценки степени связи между составляющими двумерной выборки без использования уравнения регрессии. Для определения индекса Фехнера вычисляют средние Х и У, а затем для каждой пары определяют знаки отклонений. Для каждой пары возможны четыре сочетания знаков: ++; +-; -+; --.

Формула индекса Фехнера

Очевидно, что i больше либо равно -1 и i меньше либо равно +1, и что при i больше 0 имеем положительную корреляцию, при i меньше 0 - отрицательную, при i = 0 связь в указанном смысле отсутствует. Коэффициент Фехнера изменяется в пределах -1; +1 и применяется для оценки тесноты связи качественных признаков (непараметрические методы).

Свойства коэффициента Фехнера

Расчет коэффициента Фехнера состоит из следующих этапов:

1. Определяют средние значения для каждого признака (X и Y).

2. Определяют знаки отклонения (-,+) от среднего значения каждого из признаков.

Коэффициент корреляции (Correlation coefficient) - это

3. Если знаки совпадают, присваивают значение А, иначе В.

4. Считают количество А и В, вычисляя коэффициент Фехнера по формуле:

Вычисление коэффициента Фехнера

Найдем индексы Фехнера для примера.

Пример расчета коэффициента Фехнера

Графическое представление коэффициента Фехнера

       Коэффициент множественной ранговой корреляции (конкордации)

До сих пор рассматривались модели простой корреляции, т.е. корреляционной зависимости между двумя признаками Однако в практике экономического анализа часто приходится изучать явления, которые складываются под влиянием не одного, а многих различных факторов, каждый из которых в отдельности может не производить решающего влияния Совокупный же влияние факторов иногда оказывается достаточно сильным, чтобы по их изменениях можно было делать виснет овкы о величинах показателя изучаемого явления Методы измерения корреляционной связи одновременно между двумя, тремя и более корреляционными признакам создают учение о множественной корреляции.

Графическое представление коэффициента конкордации рангов

В моделях множественной корреляции зависимая переменная рассматривается как функция нескольких (в общем случае п) независимых переменных. Множественное корреляционное уравнение устанавливает связь между исследуемыми признаками и позволяет вычислить ожидаемые значения результативного признака под влиянием включенных в анализ признаков-факторов, связанных да аниме уравнением.

Для оценки степени тесноты связи между результативным и факторными признаками вычисляют коэффициент множественной корреляции Величина его всегда положительное число, которое находится в пределах от 0 до 1. В множественных корреляционно-регрессионных моделях коэффициент простой корреляции между результативным признаком и факторными, а также между самими факторными признаками.

В множественных корреляционно-регрессионных моделях коэффициент простой корреляции

Методы корреляции произведения моментов Пирсона и линейного регрессионного анализа Гальтона были обобщены и расширены в 1897 г. Джорджем Эдни Юлом до модели множественной линейной регрессии, предполагающей использование многомерного нормального распределения. Методы множественной корреляции позволяют оценить связь между множеством непрерывных независимых переменных и одной зависимой непрерывной переменной. Коэффициент множественной корреляции обозначается через R0. Его вычисление требует решения совместной системы линейных уравнений. Число линейных уравнений равно числу независимых переменных.

Френсис Гальтон - выдающийся английский ученый

Иногда необходимо исключить эффект третьей переменной, с тем чтобы определить «чистую» связьмежду любой парой переменных. Частный (парциальный) коэффициент корреляции выражает связь между двумя переменными при исключенном (элиминированном) влиянии еще одной или несколко других переменных. В простейшем случае частный коэффициент корреляции вычисляется как функция парных корреляций (произведений моментов) между Y, X1 и Х2.

При небходимости можно воспользоваться услугами группы из m-экспертов, установить результирующиеранги целей, но тогда возникнет вопрос о согласованности мнений этих экспертов или конкордации. Пусть у нас имеются ранжировки 4 экспертов по отношению к 6 факторам, которые определяют эффективность некоторой системы.

Ранжировки экспертов по отношению к факторам

Заметим, что полная сумма рангов составляет 84, что дает в среднем по 14 на фактор. Для общего случая n факторов и m экспертов среднее значение суммы рангов для любого фактора определится выражением.

Среднее значение суммы рангов

Теперь можно оценить степень согласованности мнений экспертов по отношению к шести факторам. Для каждого из факторов наблюдается отклонение суммы рангов, указанных экспертами, от среднего значения такой суммы. Поскольку сумма этих отклонений всегда равна нулю, для их усреднения разумно использовать квадраты значений.

В нашем случае сумма таких квадратов составит S= 64, а в общем случае эта сумма будет наибольшей только при полном совпадении мнений всех экспертов по отношению ко всем факторам:

Наибольшая сумма квадратов

М. Кэндэллом предложен показатель согласованности или коэффициент конкордации, определяемый как:

Коэффициент конкордации Кенделла

В нашем примере значение коэффициента конкордации составляет около 0,229, что при четырех экспертах и шести факторах достаточно, чтобы с вероятностью не более 0.05 считать мнения экспертов несогласованными. Дело в том, что как раз случайность ранжировок, их некоррелированность просчитывается достаточно просто. Так для нашего примера указанная вероятность соответствует сумме квадратов отклонений S = 143,3, что намного больше 64.

Коэффициент корреляции (Correlation coefficient) - это

В заключение вопроса об особенностях метода экспертных оценок в системном анализе отметим еще два обстоятельства. В первом примере мы получили результирующие ранги 10 целей функционирования некоторой системы. Как воспользоваться этой результируюзей ранжировкой? Как перейти от ранговой шкалы целей к шкале весовых коэффициентов - в диапазоне от 0 до 1?

Здесь обычно используются элементарные приемы нормирования. Если цель 3 имеет ранг 1, цель 8 имеет ранг 2 и т. д., а сумма рангов составляет 55, то весовой коэффициент для цели 3 будет наибольшим и сумма весов всех 10 целей составит 1. Вес цели придется определять как:

Определение веса цели

При использовании групповой экспертной оценки можно не только выяснять мнение экспертов о показателях, необходимых для системного анализа. Очень часто в подобных ситуациях используют так называемый метод Дельфы (от легенды о дельфийском оракуле). Опрос экспертов проводят в несколько этапов, как правило - анонимно. После очередного этапа от эксперта требуется не просто ранжировка, но и ее обоснование. Эти обоснования сообщаются всем экспертам перед очередным этапом без указания авторов обоснований.

Имеющийся опыт свидетельствует о возможностях существенно повысить представительность, обоснованность и, главное, достоверность суждений экспертов. В качестве “побочного эффекта” можно составить мнение о профессиональности каждого эксперта.

Определение рангового коэффициента конкордации

       Сравнение коэффициентов корреляции

Для проверки гипотезы о равенстве двух корреляций (H0) величины сравниваемых корреляций r1 и r2 подвергаются преобразованию Фишера:

Преобразование Фишера

Определенные таким образом z1 и z2 можно считать нормально распределенными с параметрами распределений:

Нормальное распределение переменных

соответственно. В том случае, если верна нулевая гипотеза, то есть значения корреляций не различаются, величина z1 - z2 оказывается нормально распределенной со средним равным 0 и дисперсией:

Нулевая гипотеза дисперсии

В этой связи (z1 - z2)/σ правомерно считать наблюдением стандартной нормальной величины U, где большие значения будут выглядеть неправдоподобными, отвергая нулевую гипотезу. Таким образом, для z1 и z2 уровень значимости равен:

Уровень значимости переменных

Где Φ - функция нормального распределения с параметрами 0 и 1.

Сравнение двух коэффициентов корреляции необходимо, когда нужно узнать, какой из них достоверно выше или ниже, иными словами, насколько достоверно различие между ними. Для сравнения коэффициентов корреляции применяем следующий алгоритм и сразу же разберем его на примере. Исходные данные:

Коэффициент корреляции (Correlation coefficient) - это

- N1 (количество пар значений для первого коэффициента) = 100;

- R1 (первый коэффициент корреляции) = 0,2;

Коэффициент корреляции (Correlation coefficient) - это

- N2 (количество пар значений для второго коэффициента) = 50;

- R2 (второй коэффициент корреляции) = 0,5.

1. Вычисляем ошибку разницы по формуле:

Вычисление ошибки разницы

2. Преобразуем оба коэффициента с помощью z-преобразования Фишера:

Преобразование коэффициентов с помощью z-преобразования Фишера

3. Вычисляем значения t-критерия по формуле:

Вычисление значения t-критерия

Получившееся значение проверяется по таблице критических значений t-критерия Стьюдента.

4. Проверяем значимость полученного значения. Вычисляем количество степеней свободы (df), далее пользуемся таблицей критических значений t-критерия Стьюдента или используем Excel:

Проверка значимости полученного значения

Итого - вероятность того, что коэффициенты корреляции одинаковы составляет 0,04 (4%). Если взять за критическое значение p<0,05, то различия достоверны, на уровне p<0,01 - недостоверны. ИТОГО: Чтобы сравнить два коэффициента корреляции с Excel нужно использовать формулу:

Сравнение двух коэффициентов корреляции в Excel

Естественно, вместо R1, R2, N1, N2, df подставляем или адреса ячеек или конкретные числа. Таким образом можно сравнивать целые матрицы корреляций, что очень удобно и позволяет значительно повысить точность выводов. Для сравнения матриц необходимо указывать адреса ячеек коэффициентов корреляций из этих матриц, а количество пар постоянно для обеих коэффициентов и может быть введено как постоянное число в формулу. Приведем пример с матрицами:

Пример сравнения коэффициентов корреляции с матрицами

Вывод по матрицам: коэффициенты корреляции между V2 и V3 в выборке 1 и 2 значимо не различаются.

Коэффициент корреляции (Correlation coefficient) - это

Использование Excel для вычисления коэффициента корреляции

Одна из наиболее распространенных задач статистического исследования состоит в изучении связи между выборками. Обычно связь между выборками носит не функциональный, а вероятностный (или стохастический) характер. В этом случае нет строгой, однозначной зависимости между величинами.

Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры тесноты такой связи используется коэффициент корреляции. Коэффициент корреляции оценивается по выборке объема п связанных пар наблюдений (x, y) из совместной генеральной совокупности X и Y. Для оценки степени взаимосвязи величин X и Y, измеренных в количественных шкалах, используется коэффициент линейной корреляции, предполагающий, что выборки X и Y распределены по нормальному закону.

Пакет офисной программы Excel

Коэффициент корреляции - параметр, который характеризует степень линейной взаимосвязи между двумя выборками. Коэффициент корреляции определяет степень, тесноту линейной связи между величинами и может принимать значения от -1 (строгая обратная линейная за-висимость) до +1 (строгая прямая линейная зависимость). Приближенно принимают следующую классификацию корреляционных связей: сильная, или тесная при коэффициенте корреляции rв>0,70; средняя - при 0,50.

Для более точного ответа на вопрос о наличии линейной корреляционной связи необходима проверка соответствующей статистической гипотезы.

В MS Excel для вычисления парных коэффициентов линейной корреляции используется специальная функция КОРРЕЛ (массив1; массив2), где массив1 - ссылка на диапазон ячеек первой выборки (X); массив2 - ссылка на диапазон ячеек второй выборки (Y).

Результаты вычисления коэффициента корреляции

Пример. 10 студентам были даны тесты на конструкторское и логическое мышление. Измерялось среднее время решения заданий теста в секундах. Исследователя интересует вопрос: существует ли взаимосвязь между временем решения этих задач? (Переменная X - среднее время решения конструкторских заданий, а переменная Y- среднее время решения логических заданий тестов).

Коэффициент корреляции (Correlation coefficient) - это

Алгоритм решения. Для выявления степени взаимосвязи, прежде всего, не-обходимо ввести данные в таблицу MS Excel. Затем вычисляется значение коэффициента корреляции. Для этого курсор установите в ячейку C1. На панели инструментов нажмите кнопку Вставка функции (fx). В появившемся диалоговом окне Мастер функций выберите категорию Статистические и функцию КОРРЕЛ, после чего нажмите кнопку ОК. Указателем мыши введите диапазон данных выборки Х в поле массив1 (А1:А10). В поле массив2 введите диапазон данных выборки Y (В1:В10). Нажмите кнопку ОК.

В ячейке С1 появится значение коэффициента корреляции - 0,54119. После этого нужно вычислить наблюдаемое значение критерия по формуле:

Наблюдаемое значение критерия

Далее необходимо по статистическим таблицам определить критические значения по Приложению 6 (критические точки распределения Стьюдента - двусторонние). При нахождении критических значений число степеней свободы. Тогда критические точки t(0,05;8)=2,31. Поскольку наблюдаемое значение критерия принадлежит области принятия нулевой гипотезы, она принимается. Иными словами линейной корреляционной связи между временем решения конструкторских и логических заданий теста нет.

Коэффициент корреляции (Correlation coefficient) - это

При большом числе наблюдений, когда коэффициенты корреляции необходимо последовательно вычислять для нескольких выборок, для удобства получаемые коэффициенты сводят в таблицы, называемые корреляционными матрицами. Корреляционная матрица - это квадратная таблица, в которой на пересечении соответствующих строки и столбца находится коэффициент корреляции между соответствующими параметрами.

Для удобства получаемые коэффициенты сводят в таблицы

В MS Excel для вычисления корреляционных матриц используется процедура Корреляция из пакета Анализ данных. Процедура позволяет получить корреляционную матрицу, содержащую коэффициенты корреляции между различными параметрами. Для реализации процедуры необходимо:

Коэффициент корреляции (Correlation coefficient) - это

- выполнить команду Анализ данных и в появившемся списке Инструменты анализа выбрать строку Корреляция инажать кнопку ОК;

- впоявившемся диалоговом окне указать Входной интервал, то есть ввести ссылку на ячейки, содержащие анализируемые данные. Входной интервал должен содержать не менее двух столбцов;

Коэффициент корреляции (Correlation coefficient) - это

- в разделе Группировка переключатель установить в соответствии с введенными данными (по столбцам или по строкам);

- указать выходной интервал, то есть ввести ссылку на ячейку, с которой будут показаны результаты анализа. Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные. Нажать кнопку ОК.

Представление корреляционной матрицы в excel

В выходной диапазон будет выведена корреляционная матрица, в которой на пересечении каждых строки истолбца находится коэффициент корреляции между соответствующими параметрами. Ячейки выходного диапазона, имеющие совпадающие координаты строк и столбцов, содержат значение 1, так как каждый столбец во входном диапазоне полностью коррелирует сам с собой. Рассматривается отдельно каждый коэффициент корреляции между соответствующими параметрами. Отметим, что хотя в результате будет получена треугольная матрица, корреляционная матрица симметрична. Подразумевается, что в пустых клетках в правой верхней половине таблицы находятся те же коэффициенты корреляции, что и в нижней левой (симметрично относительно диагонали).

Пример. Имеются ежемесячные данные наблюдений за состоянием погоды и посещаемостью музеев и парков. Необходимо определить, существует ли взаимосвязь между состоянием погоды и посещаемостью музеев и парков.

Условия примера для расчета коэффициента корреляции в Exel

Алгоритм решения. Для выполнения корреляционного анализа введите в диапазон A1:G3 исходные данные (рис. 3). Затем выберите пункт Анализ данных и далее укажите строку корреляция. В появившемся диалоговом окне укажите Входной интервал (А2:С7). Укажите, что данные рассматриваются по столбцам. Укажите выходной диапазон (Е1) и нажмите кнопку ОК.

Результаты вычисления корреляционной матрицы

На рисунке видно, что корреляция между состоянием погоды и посещаемостью музея равна -0,92; а между состоянием погоды и посещаемостью парка 0,97; между посещаемостью парка и музея -0,92. Таким образом, в результате анализа выявлены зависимости: сильная степень обратной линейной взаимосвязи между посещаемостью музея и количеством солнечных дней; практически линейная (очень сильная прямая) связь между посещаемостью парка и состоянием погоды; сильная обратная взаимосвязь между посещаемостью музея и парка.

Выборочный коэффициент корреляции:

Выборочный коэффициент корреляции

В Excel для вычисления коэффициента корреляции используется функция =КОРРЕЛ():

В Excel для вычисления коэффициента корреляции используется функция =КОРРЕЛ()

Итак, коэффициент корреляции свидетельствует о линейной зависимости, или связи, между двумя переменными. Чем ближе коэффициент корреляции к -1 или +1, тем сильнее линейная зависимость между двумя переменными. Знаккоэффициента корреляции определяет характер зависимости: прямая (+) и обратная (-). Сильная корреляция не является причинно-следственной зависимостью. Она лишь свидетельствует о наличии тенденции, характерной для данной выборки.

Коэффициент корреляции (Correlation coefficient) - это

Допустим, у меня есть две дискретных случайных величины: вероятность: 0,1...0,8...0,1, значения:100...150...200 и вторая случайная величина аналогична, только вероятности 0,25;0,5;0,25 и значения 200, 250, 300 соответственно. Как рассчитать ковариацию на основе этих распределений? Нужно ли считать распределение произведения? В Excel есть функция КОВАР - но она вместо мат. ожидания использует СРЗНАЧ, просьба подсказать как рассчитать вручную.

Использование функции корреляции в анализе данных

Перепробовал все какие нашел формулы из Интернета, все выдают какую-то лажу, в частности коэффициент корреляции по ним получается то больше единицы, то всегда 0, то не получается единицей в указанном выше случае. Коэффициент корреляции получаю делением на произведение среднеквадратичных отклонений, дисперсию для стандартного отклонения считаю как взвешенную по вероятностям сумму разниц квадратов значений случайной величины и её мат. ожидания (мат ожидание рассчитываю как взвешенные по вероятности значения случайной величины).

Расчет корреляционной матрицы - пример

Для вычисления корреляции случайных величин нужно знать их совместное распределение. То есть, грубо говоря, знать, как часто вторая величина принимает значения 200, 250 и 300, если первая величина равна 100 (то же для других значений). Вы такой информации не дали. То, что Вы нашли в Excel - это другая величина, выборочная корреляция (ее можно рассматривать как оценку истинной, но это другая тема). Она вычисляется для парной выборки (x1,x2,...,xn),(y1,y2,...,yn), где одинаковый индекс соответствует одному и тому же объекту. При таком понимании эти величины взаимосвязаны. Если же значения в каждом наборе перемешать независимо от другого (например, упорядочить), получим совсем другой (и неправильный) ответ.

Коэффициент корреляции (Correlation coefficient) - это

Посмотрела Ваш файл. Вы пытаетесь найти совместное распределение как произведение распределений двух величин. Это означает, что две Ваши величины независимы, и корреляция между ними должна быть равна 0. Дополнение.Скриншот вычисления при правильно подобранных совместных вероятностях.

Скриншот вычисления при правильно подобранных совместных вероятностях

Принципы интерпретации коэффициента корреляции

Основные принципы интерпретации различных коэффициентов корреляции одинаковы. В случае дихотомической шкалы мы говорим о вероятности совпадения (прямого или обратного) ответов типа да/нет, в случае рангов о вероятности совпадения порядка, в случае коэффициента линейной корреляции мы говорим о степени совместного изменения переменных или о их взаимосвязи.

Коэффициент корреляции (Correlation coefficient) - это

Полученный коэффициент нужно проверить на значимость, которая зависит от вероятности ошибки и количества человек. Коэффициент корреляции может быть формально небольшим, к примеру r=0,17, но если исследование проведено на 500 человек и вероятность ошибки (р) менее 0,05, то мы признаём значимым даже такой небольшой коэффициент. С другой стороны, при выборке в 5 человек очень большой коэффициент мы признаем незначимым, т.к. из-за малого количества человек мы можем совершить ошибочный вывод об этой корреляции.

Расчет значимости коэффициента корреляции

Таким образом, для нас главное узнать какой должна быть вероятность ошибки и количество человек, чтобы признать полученный коэффициент действительно значимым.

Расчет значения р (вероятности ошибки) - сложная процедура, поэтому компьютерные программы, в которых можно считать коэффициент корреляции, расчитывают вероятность ошибки самостоятельно. Если же расчет производился вручную или по другим причинам конкретное значение р неизвестно, то используем уже рассчитанные таблицы критических значений.

Коэффициент корреляции (Correlation coefficient) - это

Таблицы критических значений предназначены чтобы можно было найти критическое значение коэффициента корреляции, т.е. такое, после которого взаимосвязь можно считать значимой и неслучайной. При этом значение вероятности ошибки задаётся исследователем. В таблицах обычно есть критические значения коэффициентов корреляции для р<=0,001, р<=0,01, р<=0,05, иногда пишут соответственно 0,1%, 1%, 5%. Таким образом, пользуясь таблицами мы отвечаем на вопрос: какое критическое значение коэффициента корреляции при данном количестве людей и вероятности ошибки менее или равно 0,1% (1%, 5%)?

Пример таблицы критических значений

Обычно в психологических исследованиях вероятность ошибки выбирают на уровне p<=0,05, но если в исследовании принимают участие более 100 человек, то можно выбирать и р<=0,01. В первой колонке таблицы критических значений находится значение df (Degrees of Freedom - степени свободы), которое расчитывается очень просто: df = n-1, где n - количество человек. На пересечении нужного df и выбранной вероятности ошибок находим критический коэффициент корреляции. Если рассчитанное значение больше критического - коэффициент значимый, в обратном случае взаимосвязь является случайной.

Коэффициент корреляции (Correlation coefficient) - это

В примерах, приведённых выше для количества человек n=89 и p<=0,05 критический коэффициент корреляции r=0,20. А вот если бы количество человек было 45 (при том же p<=0,05) то критическим значением было бы r=0,29, при количестве человек 10 критическое значение r=0,63. Существуют различные формулы расчета коэффициента корреляции для различных типов шкал. Результатом расчета по любой формуле будет число от -1 до +1. В следующей таблице написаны названия коэффициентов корреляции для различных типов шкал.

Названия коэффициентов корреляции для различных типов шкал

Коэффициент корреляции - это мера взаимосвязи измеренных явлений.На самом примитивном уровне его можно рассматривать как меру совпадения двух рядов чисел. Любой коэффициент корреляции изменяется в пределах от -1 до +1. Отрицательные значения говорят про обратнопропорциональную взаимосвязь, положительные о прямопропорциональной. Полученный коэффициент необходимо сравнивать с критическим табличным.

Коэффициент корреляции (Correlation coefficient) - это

Применение коэффициента корреляции на практике

Для каждого трейдера важно понимать, что мы работаем с торговыми инструментами, состоящими из пары валют. В отличие от фондового рынка, где, как правило, каждый торговый инструмент это всего лишь одна индивидуальная единица, на Форекс используется измерение стоимости одной валюты в единицах другой. При этом мы не редко можем наблюдать, визуальную схожесть в движении нескольких валютных пар. Это может быть связано с тем, что обе пары могут содержать одну и ту же валюту в обоих случаях. Например, можно говорить о корреляции валютных пар EUR/USD и USD - CHF с отрицательным значением К.

Торговые инструменты трейдера рынка Форекс в терминале

Одним из способов использования корреляции пар в торговле является устранение расхождения инструментов. Например, трейдер выбрал для своей работы две валютные пары, которые коррелируют с К = 0.8. В этом случае, при наблюдении за движением подопытных, человек заметит, что К время от времени меняется, то несколько увеличиваясь, то несколько уменьшаясь. Тем не менее, средние значения коэффициента все равно находятся в диапазоне 0.7<К<0.8.

Как только на рынке наступит ситуация, что К<0.4, например, то это будет означать наличие лишь частичного соответствия в движении обоих инструментов. То есть, при росте одной пары рост другой окажется весьма ограничен. Но, помня о том, что в целом эти инструменты коррелируют с К=0.7 или 0.8, мы можем использовать данный разрыв себе на пользу, открыв позиции в сторону сближения пар.

Торговые индикаторы на рынке Форекс

Нахождение подобных ситуаций и дальнейшее их использование затрудняется непостоянностью значения К. Мы можем не верно толковать новые значения коэффициента, принимая из за ожидаемый нами разрыв, но позже может оказаться, что это новое значение данного коэффициента, которое теперь станет постоянным на определенное время. Существуют специальные корреляционные индикаторы, помогающие трейдерам наблюдать за схождением и расхождением инструментов, а другими словами, за изменениями текущих значений К.

Сложно переоценить значимость коэффициента корреляции в рыночной торговле. Его использование позволяет смотреть на трейдинг более глобально, учитывая движения пар, относительно друг друга. Еще одной областью применения коэффициента стало хеджирование. Желая снизить риски в своей торговле, спекулянты могут проводить хеджирование не только на разных рынках, но и с помощью коррелирующих инструментов. Таким образом, происходит частичное хеджирование.

Сложно переоценить значимость коэффициента корреляции в рыночной торговле

       Коэффициент корреляции показателей фондового рынка

Для начала разберемся в самой сути такого понятия, как арбитраж. Это несколько логически связанных сделок, направленных на извлечение прибыли из разницы в ценах на одинаковые или связанные активы в одно и то же время на разных рынках (пространственный арбитраж), либо на одном и том же рынке в разные моменты времени (временно́й арбитраж, обычная биржевая спекуляция). Выделяют эквивалентный арбитраж - операции с комбинацией составных или производных активов (опционов, биржевых индексов) и обычных контрактов, когда между теоретически эквивалентными комбинациями на практике возникает разница цен.

Понятие арбитража на рынке Форекс

Упрощенно арбитраж выглядит следующим образом: торгуются пары или группы инструментов, суммарная стоимость которых должна быть равна определенной величине, исходя из природы инструментов. Например: акции одной и той же компании на различных торговых площадках, группа инструментов входящих в индекс и фьючерс на индекс. При отклонении стоимости корзины от расчетной величины, совершается сделка. Трейдеры-арбитражеры сглаживают дисбаланс цен на родственных» инструментах.

Коэффициент корреляции (Correlation coefficient) - это

В первоначальном виде арбитраж возник на заре развития вторичных (региональных) бирж, когда один итот же актив торговался на разных площадках по разным ценам и с 44 каждым годом разрыв этой цены стремительно сокращался, а вместе с ним скорость арбитражных стратегий и их объем.

Сегодня существует в качестве межбиржевого варианта, когда актив торгуется на биржах разных стран, например на токийской и нью-йоркской, лондонской и франкфуртской. А также на NYSE и NASDAQ в качестве арбитража разных активов, например двух-трех акций из одного сектора.

Схема валютного арбитража

В основе арбитража лежит такое понятие, как корреляция. корреляция, если простыми словами - это взаимосвязь двух или более событий, т.е. когда происходит одно, то вероятно (статистически подтверждено) и другое. Когда-то корреляции на рынке были невыраженными в моменте, они были растянуты во времени. Вот к примеру, как рассуждают экономисты/аналитики: «Если индекс доллара упадет, цена на нефть должна расти…» или «Если индекс SNP упадет, цена на золото должна вырасти или наоборот…», ну это как бы простые причинно-следственные связи. Однако совершенно очевидно, что если все так просто, то все бы с легкостью зарабатывали, чего, как мы все прекрасно знаем, не происходит. Пример самой жесткой корреляции - это пары типа Евро/Доллар. Они намертво связаны между собой. Малейшее изменение цены одного приводит к мгновенному изменению цены другого. Тут, понятно, корреляция обратная и речь идет о торгуемых инструментах, например, на СМЕ. И данная корреляция действительна в обе стороны. Есть же, например, бумаги, которые сами «ничего не решают», но есть у них «старший», который и скажет, куда им «идти». А есть ситуации, в которых таких «старших» два и более, вот тут совсем все интересно становится.

Когда речь заходит о корреляциях, в том смысле, в каком я их понимаю, неизбежно возникает вопрос: «а кто главный (ведущий)?». Для этого введем понятие «Поводырь» - это будет любой торгуемый инструмент, изменение цены которого приведет к какой-либо реакции того, за которым мы наблюдаем (торгуем).

Корреляция акций

Основные поводыри для Американского фондового рынка следующие (в порядке убывания силы глобального влияния):

1. Фьючерсный контракт на индекс SNP 500 - главный поводырь, самый влиятельный, нет ни одного ликвидного инструмента, на который бы не оказало влияние изменение цены фьючерсного контракта хотя бы на тик, реакция есть всегда. Вопрос о первичности (кто за кем «ходит»), индекс или фьючерс, всегда рождает много споров, но нас, спекулянтов, скальперов, волнует только одно - кто из них быстрее. Я могу ответственно заявить, что фьючерсный контракт - быстрее, изменчивее (в разы) и главнее в данном контексте.

Фьючерс на индекс SNP&500

2. Фьючерс на нефть марки Light Sweet - углеводороды, что тут еще сказать. Сильное влияние оказывает на некоторые сектора, на отдельные индустрии, связанные с нефтедобычей и нефтепереработкой, а также на те отрасли, где существенная статья издержек - топливо и ГСМ, например авиакомпании. Сам актив несколько зависим от Индекса доллара.

Фьючерс на нефть марки Light Sweet

3. Фьючерсный контракт на золото (и другие драг. металлы) - Au рулит по-прежнему, ибо мировое «золотое плечо» уже вылезло за все допустимые рамки, не дам источник, но цитату приведу: «В мире обещания продать золото, больше в 100 раз, чем самого золота», как-то так. Т.е. это и мерило ценности некоторых валют, и надежный (однако!) для многих актив, и инструмент хеджирования рисков и еще много чего полезного делает. Также как и нефть, оказывает серьезное влияние на компании, занимающиеся золотодобычей, переработкой, реализацией и прочим. Сам по себе поводырь зависим (в моменте) от Индекса доллара.

Фьючерс на золото

4. Индекс доллара - с появлением евро все сильнее стал подвержен колебаниям, связанным с проблемами в Еврозоне, также изменчив за счет спекулятивных действий в торгуемой валютной паре евро/доллар. Сам зависим от макроэкономической статистики, стоимости облигаций (и наоборот тоже, тут уже сложный аналитический расклад, который данной статьи никак не касается, тем более, я не аналитик и тем более, не экономист, а спекулянт. Оказывает влияние на многие товарные фьючерсы, расчет по которым ведется в долларах Соединенных Штатов.

Индекс доллара

Поводырем вторичным (а иногда и первичным) может также являться акция, которая в данный момент самая сильная/слабая в секторе/индустрии, которая сама по себе является более весомой в индексе из всего сектора. Например, если $C (Citigroup) измениться резко в цене на полпроцента, это мгновенно скажется на остальных акциях, связанных с банковской деятельностью и с финансами, не так сильно отразиться на $JPM и $BAC, но точно «дернет» $BBT и $PNC, к примеру, а уж $FAZ и $FAS отреагируют как следует, по взрослому, с резким изменением котировок и объемом. А вот обратное не будет иметь такого влияния. Если $PNC или какой-нибудь банк Испании или Ирландии не обрушиться на пару процентов, то никто из «толстых» не заметит, однако по цепочке может привести к некоей корректировке на графике. Скажем так, $PNC также входит в состав портфеля, торгуемого в виде ETF $FAZ ($FAS), так вот сильное его ($PNC) изменение приведет к неминуемому (но небольшому) изменению цены индекса, что, закономерно, приведет к корректировке даже $C и $BAC, первого на несколько центов, а второго, возможно, ни на сколько, разве стакан уплотниться в «сильную» сторону. Это один из вариантов, комбинаций может быть очень много. На графике видно, как акции вторичные стоят в рэйндже, пока сильнейшие представители сектора «смотрят» в разные стороны, и как послушно они «идут» за всеми, если направление сильных совпадает:

Вторичные акции стоят в рэйндже, пока сильнейшие представители сектора «смотрят» в разные стороны

На графике изображены: SPY - SPDR S&P 500 (белая линия), C - Citigroup, Inc., JPM - JP Morganand Co., BAC - Bank of America Corp Corporation, GS - The Goldman Sachs Group, Inc., BBT - BB&T Corporation, PNC - PNC Financial Services Group Inc.

Теперь давайте рассмотрим какой-нибудь самый необычный пример. Вот Авиакомпании. Например $UAL или $DAL или $LCC, не входят в состав индекса SNP 500 и тем более DJIA, однако довольно объемны, имеют высокую капитализацию, в целом привязаны к рынку, как таковому, но главное - зависят от цен на топливо. И не нужно рассказывать, что у них все поставки фьючерсные, с фиксированной ценой на пару лет вперед и прочее, это все так, но откройте их график минутный и понаблюдайте, что происходит, когда нефть очень резко изменяется в цене. А теперь добавьте сюда индекс доллара, который влияет на них самих, т.к. Цены их услуг - они в долларахи сама нефть зависит от него (доллара), ну и SNP 500, который частенько идет в противоход нефти… Вот их (акции авиакомпаний) разрывает в разные стороны. А еще помню день был, когда у $LCC отчет случился и нефть с рынком в разные стороны… Вот остальных трепало! График выглядел интересно. Вот пример за эту неделю, $LCC валится на растущей черного золота и растущем фьючерсе, и отрастает на падающей черного золота (тикер $USO):

LCC валится на растущей нефти и растущем фьючерсе, и отрастает на падающей нефти

На графике изображены: SPY - SPDR S&P 500 (белая линия), USO - United States Oil, UAL - United Continental Holdings, Inc., LCC - US Airways Group, Inc., DAL - Delta Air Lines Inc.

Также, для дальнейшего понимания написанного мною, потребуется ввести еще один термин - «Драйвер», под которым понимается некое событие, которое сильно влияет на поведение торгуемого актива, либо, что немаловажно, поводыря, за которым мы также наблюдаем, это может быть новость в компании, отчет, понижение/повышение рейтинга или новость, касающаяся сектора в целом, макроэкономическая статистика, изменение ставки вложения инвистиций и другие. Т.е. драйверы глобальные влияют на фьючерсные контракты (поводыри, описанные выше), а те, в свою очередь, на торгуемые инструменты и т.д.

«Драйвер» - некое событие, которое сильно влияет на поведение торгуемого актива

Теперь вопрос: почему акции так одинаково ходят и кто за всем этим стоит? Да все, особенно скальперы, роботы-скальперы, люди-скальперы. Роботы-арбитражеры в первую очередь, а также алгоритмы, котирующие акцию (читай маркетмейеры). Ведь иначе невозможно было бы такую массу акций заставить двигаться более менее одинаково, речь, понятно, внутри дня. Потому что, если мы взглянем на большие таймфреймы, то выясниться, что многие сектора живут своей отдельной жизнью. Вот например, график месячный, с 2000 года:

Месячный график движения акций

На нем изображены: XLK - Technology Select Sector SPDR, XLF - Financial Select Sector SPDR, XLP - customer Staples Select Sector SPDR, XLE - energy Select Sector SPDR, XLV - Health Care Select Sector SPDR, XLI - Industrial Select Sector SPDR, XLB - Materials Select Sector SPDR, XLU - Utilities Select Sector SPDR, XLY - customer Discret Select Sector SPDR, SPY - SPDR S&P 500 (белая линия).

Ютилитис какие слабенькие. Интересно, они рванут вверх, за ростом фьючерсного контракта или на малейшем его откате шлёпнутся еще ниже? Разброс относительно $SPY приличный. А вот, что на меньших масштабах времени, дневка, за 2012 год:

Дневное движение акций

Действующие лица те же. В общем есть некое понимание, что графики похожи, но одни сильнее рынка в целом, а другие слабее, в абсолютном выражении, при расчете на начало года. Это все глобально, на год, а вот на месяц:

Месячное движение акций

Действующие лица те же. Меня же в торговле интересует арбитраж внутридневной, график - от пятиминутного до минутного:

Пятиминутный график движения акций

Или, например, технологический сектор в пятницу (14.09.2012), смотрите, как на откатах фьючерсного контракта вниз они «валяться» и «стоят» на его росте, между прочим - это и есть входы в шорт:

Технологический сектор рынка акций

На графике изображены: SPY - SPDR S&P 500 (белая линия), T - AT&T, Inc., VZ - Verizon Communications Inc., XLK - Technology Select Sector SPDR.

Это, что касательно фьючерсного контракта SNP 500 (на графиках, для моего удобства показан не сам фьючерс, а ETF на индекс SNP 500, учитывая, что график - линия, различий нет совсем). А вот пример акций нефтяной индустрии, в сравнении с черным золотом:

Пример акций нефтяной индустрии

На графике изображены: USO - United States Oil, XOM - Exxon Mobil Corporation, SLB - Schlumberger Limited, CVX - Chevron. Или, например, «золотые» акции, в сравнении, понятно, с золотом:

«Золотые» акции в сравнении с золотом

На графике изображены: GLD - SPDR gold Shares, NEM - Newmont mining industry Corp., KGC - Kinross gold Corporation, ABX - Barrick gold Corporation.

Однако, график - одно, а стакан с лентой (LEVEL II + Time & sales) - совсем другое дело (кстати, именно это и позволяет торговать $SPY, опираясь на фьючерс). Показать в картинках, что происходит и какая реакция - сложно, потому распишу немного словами. Что можем видеть на ведомых, если на ведущих есть большое движение? В первую очередь - изменение котировки без сделок, оно и понятно, акции скоррелированы, а торговать-то некому, ибо акции не первого эшелона, но машинки-котировщики будут исправно двигать биды с оферами, в след за «старшим» братом, держа при этом некий спред, обычно больше 3-4 ц. Если же движение общее, не только на сильных акциях, а на всем рынке в целом, то может произойти сильное движение, с объемом, и с еще большим расширением спреда в противоположную от него (движения) сторону. Например, нефть ($USO) улетела вверх на полпроцента за секунду, в $SLB будет расширен спред в сторону оферов (ASK), чтобы продать повыше, а потом закрыться пониже, поднимая биды (BID). Это один из десятков сценариев, понятно, что всегда есть вариации, но уловить общее можно, если тщательно понаблюдать и проанализировать поведение акций и их поводырей.

LEVEL II + Time & sales - стакан с лентой

Стиль торговли таким образом называется «арбитраж», торгуется, как правило, минимум два инструмента, причем часто в разные стороны, но можно торговать один, рассматривая другие инструменты, как поводырей. Стиль сегодня очень роботизирован, но и для «мануальных скальперов» еще есть место.

Сложим все варианты арбитража в одну табличку и определим четыре варианта действий (простым языком, не пинайте, но так понятно всем будет): что отросло и главное - продавать, а что недоросло - покупать; что упало и главное - покупать, а что недоупало - продавать; что отросло и главное - не трогать, а что недоросло - продавать; что упало и главное - не трогать, а что недоупало - покупать.

При арбитраже как правило торгуется два инструмента

Имея ввиду торговлю одного инструмента, чаще поступают так, торгуя по тренду сектора (индустрии): что не главное и отросло сильно - продавать, в случае, когда главное - «стоит и смотрит» вниз (было на вебинаре, кто помнит, $TCK); что не главное и упало сильно - покупать, в случае, когда главное - «стоит и смотрит» вверх.

Еще более кратко сам процесс можно описать так: определяем глобально (по секторам), кто сильный, кто слабый - по дневке; смотрим внутри сектора (на дневках) между акциями тоже самое; смотрим внутри дня на акции (по тренду сектора), опираясь на фьючерсный контракт (+ другие поводыри).

Коэффициент корреляции (Correlation coefficient) - это

Теперь, как определить «главного» в секторе/индустрии. Те, кто первый в столбце, те и рулят, как правило. НО!!! В случае, если нет глобальных новостей по сектору или если нет отчетов у разных акций из этого сектора. Т.е. их главенство имеет место быть в самый скучный понедельник, а не в день статистики, запасов газа, безработицы да еще с отчетом старших акций.

Определение главного в секторе индустрии

       Вычисление коэффициента корреляции портфеля

Итак, перейдем к вычислению средней доходности, дисперсии и стандартного отклонения для портфеля акций, состоящего на 60% из акций А и на 40% из акций В. Мы предполагаем, что доходность по каждой из акций А и В - это случайные величины Rа и Rв. Среднее значение доходности акции А равно 10%, со стандартным отклонением 8,66%. Среднее значение доходности акции В равно 15%, со стандартным отклонением 12%.

Коэффициент корреляции (Correlation coefficient) - это

Теперь нас интересует, каково будет среднее значение доходности портфеля и стандартное отклонение для портфеля. Вопрос средней доходности портфеля решается просто. А вот стандартное отклонение - показатель уровня изменчивости доходности портфеля, не отражает средней изменчивости доходности его компонентов (акций). Причина в том, что диверсификация снижает изменчивость, так как цены различных акций изменяются неодинаково. Во многих случаях снижение стоимости одной акции компенсируется ростом цены на другую.

Ожидаемая доходность нашего портфеля равна средневзвешенной ожидаемых значений доходностей отдельных акций:

Средневзвешенное ожидаемое значение доходности отдельных акций

Для того, чтобы найти дисперсию и стандартное отклонение доходности портфеля, мы должны знать значения ковариации акций А и В. Ковариация служит для измерения степени совместной изменчивости двух акций. Общая формула вычисления ковариации:

Общая формула вычисления ковариации

Из формулы видно, что ковариация любой акции с ней самой равна ее дисперсии. В задачах, значение ковариации двух активов будет дано. Или, вместо нее будет дано значение коэффициента корреляции - безразмерной величины, которая стандартизует ковариацию для облегчения сравнения, и принимает значения от -1 до 1. Пусть нам дано, что коэффициент корреляции акций А и В равен 0,7. Формула коэффициента корреляции:

Формула коэффициента корреляции

В большинстве случаев, изменение акций происходит в одном направлении. В этом случае коэффициент корреляции и, соответственно, ковариация, положительны. Если акции изменяются соверженно не связанно, тогда коэффициент корреляции и ковариация равны нулю. Если акции изменяются в противоположных направляения - коэффициент корреляции и ковариация отрицательны. Для нахождения дисперсии портфеля, нам надо заполнить матрицу:

Матрица для нахождения дисперсии

Эта матрица очень похожа на матрицу ковариаций. Заполнив матрицу, надо просто сложить полученные в ней величины и найдем дисперсию портфеля:

Нахождение дисперсии портфеля

Вычислим дисперсию портфеля:

Пример вычисления дисперсии портфеля

Стандартное отклонение равно квадратному корню из дисперсии, то есть:

Стандартное отклонение равно квадратному корню из дисперсии

Легко подсчитать, что только в том случае, если коэффициент корреляции двух акций равен +1, то стандартное отклонение портфеля равно средневзвешенному стандартных отклонений доходности отдельных акций:

Средневзвешенное стандартное отклонение доходности отдельных акций

Если же коэффициент корреляции равен -1, то стандартное отклонение портфеля равно:

Стандартное отклонение портфеля

и можно было бы добиться, изменяя пропорции X1 и X2 акций в портфеле, чтобы стандартное отклонение портфеля было равно нулю. К сожалению, в реальности, отрицательная корреляция акций практически не встречается.

Коэффициент корреляции (Correlation coefficient) - это

       Применение линейного коэффициента корреляции в трейдинге

Коллеги, добрый день! В настоящей статье я хочу предложить вашему вниманию небольшое исследование, посвященное одному из статистических показателей - линейному коэффициенту корреляции. А также поделюсь некоторыми соображениями по его применению в трейдинге на примере акций Лукойла.

Коэффициент корреляции (Correlation coefficient) - это

Для начала позвольте небольшой экскурс в историю возникновения показателя корреляции (да возблагодарим Википедию!): Корреляция (корреляционная зависимость) - статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин. Математической мерой корреляции двух случайных величин служит корреляционное отношение либо коэффициент корреляции. В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.

Общее понятие показателей корреляции

Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.

Жорж Кювье - французский ученый, впервые ввел понятие корреляции

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором - также и ее направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция - корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях - это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи - например, для независимых случайных величин.

Линейный коэффициент корреляции (далее ЛКК) (коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле:

Рассчет коэффициента корреляции

Коэффициент корреляции изменяется в пределах [-1…+1]. Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

Прямая валютная корреляция

Итак, коллеги, ЛКК определяет: во-первых, наличие связи между двумя потоками данных, во-вторых, силу этой связи (сила связи определяется приближением абсолютного значения ЛКК к единице), в-третьих, направление этой связи (прямая - ЛКК больше единицы или обратная - ЛКК меньше единицы). Важным и необходимым условием для расчета ЛКК является наличие двух одинаковых по количеству данных потоков данных. Так же в общем случае считается, что значения ЛКК можно считать достоверным, если в расчете участвует поток из более, чем 30 пар данных.

Коэффициент корреляции (Correlation coefficient) - это

В Excel расчет значения ЛКК реализован через функцию «КОРРЕЛ()». Пример наличия корреляции: Положительная корреляция: температура окружающего воздуха и продажи летней одежды. Чем теплее на улице, тем больше покупаем летних вещей. Рост температуры - рост продаж. Отрицательная корреляция: та же самая температура окружающего воздуха, но продажи уже зимней одежды. Чем холоднее на улице, тем больше покупаем зимних теплых вещей. Снижение температуры - рост продаж.

Пример наличия корреляции

Примеры применения ЛКК в трейдинге. Области применения ЛКК в трейдинге достаточно широки. Например, долго считалось, что при падении фондовых рынков в целом растет спрос на золото. То есть между динамикой фондовых рынков и динамикой цен на золото существует обратная корреляционная зависимость. Другой пример. Рост котировок нефти и рост рынков, вес «нефтянки» в которых высок и является значимым. К таким рынкам относится и фондовый рынок России. Но в последние несколько лет, а именно в основном начиная с 2007 года, такие зависимости явно изменились. И либо сильно ослабли, либо исчезли совсем.

Линейный коэффициент корреляции широо применяется в трейдинге

У приведенных выше примеров есть одна общая особенность: они построены строго на двух потоках данных, как того и требует формула расчета ЛКК. Тем не менее, в одной из книг, посвященных теории управления капиталом (а именно, Р.Винс «Математика управления капиталом») я нашел интересный подход к построению ЛКК на массиве, состоящем только из одного потока данных. Это может быть, например, непрерывный поток исходов в системных сделках или поток цен какой-то одной акции. О таком методе построения ЛКК ниже.

Коэффициент корреляции (Correlation coefficient) - это

       Торговая стратегия, построенная на коэффициенте корреляции

Итак, давайте исследуем, например, поток цен на акции Лукойла (LKOH). Составим поток из недельных свечей. Мне удалось найти архив, начиная с 01.01.2001 и по сей день, то есть поток из почти 600 недельных свечей за десять с половиной лет. Исследовать будем не свечи в целом, а, например, максимальные цены в каждой свечей. Таким образом, перед нами непрерывный поток из 600 данных - максимальные цены в каждой торговой неделе, начиная с 01 января 2001 года. Кроме этих данных, пока никакие другие данные нам не нужны.

Динамика максимальных недельных цен в акциях LKOH

На рисунке показана динамика максимальных недельных цен в акциях LKOH. Расчет ЛКК должен дать ответы на вопросы: Есть ли зависимость между максимальными ценами двух любых соседних недель. Если зависимость есть, то какова ее направленность? Коллеги, если упростить, то вопрос можно сформулировать так: Если на истекшей неделе Лукойл обновил свой недельный максимум по сравнению с предыдущей неделей, то можем ли мы ожидать продолжения роста и на будущей неделе? Для расчета ЛКК поток данных требует некоторой трансформации. Составим таблицу:

Таблица удобного представления данных для примера

В таблице на рисунке в последнем столбце, построенном на основе данных столбца «High цена», логика расчета следующая: если максимум текущей недели выше, чем максимум предыдущей недели, то в ячейке стоит значение 1. В противном случае значение равно 0. Таким образом, поток цен преобразован в поток единиц и нулей. Далее произведем расчет ЛКК на основе данных столбца «Обновление High цены». Поскольку для расчета ЛКК необходимо два потока данных, то сделаем следующее:

Распределение двух потоков данных

Как видно из рисунка, поток 2 «сдвинут» относительно потока 1 на один период. Таким образом, из одного потока данных получено два. И теперь смысл расчета ЛКК заключается в выяснении связи между двумя соседними значениями выборки. В нашем случае - максимальными ценами соседних недель (текущей и предыдущей). Теперь собственно по расчету ЛКК. Расчет произведем двумя способами: Охватим весь период выборки (600 недель).

Начиная с 30й недели выборки (август 2001 года) для каждой недели рассчитаем значение ЛКК по последним 30 неделям. То есть для каждой недели рассчитаем т.н. «скользящее» значение ЛКК с периодом n=30 (по аналогии со скользящей средней), поскольку при n>30 в общем случае значение ЛКК считается значимым. Результаты расчетов отражены на рисунке:

Результаты расчета корреляции по неделям

Выводы по рисунка: На протяжении всего периода выборки у акций Лукойла наблюдается неярко выраженная положительная корреляция между максимальными ценами соседних недель (красная линия графика с ЛКК = +0,1). То есть факт обновления максимальной цены на текущей неделе по сравнению с предыдущей позволяет сделать предположение о том, что на следующей неделе в сравнении с текущей вероятность обновления максимума выше вероятности НЕобновления максимума.

Коэффициент корреляции (Correlation coefficient) - это

ЛКК, построенное по последним 30 неделям (синяя линия на графике), изменяется в диапазоне от -0,35 (сильная отрицательная корреляция) до +0,6 (очень сильная положительная корреляция). Самый продолжительный период, в течение которого корреляция между недельными максимумами была положительная - это период с мая 2004 года до августа 2007 года. В этот период обновление максимумов на прошлой неделе в большинстве случаев приводило к обновлению максимумов в течение текущей недели. Именно в этот период акции Лукойла агрессивно росли.

Прогноз движения акций Лукойла

Самый продолжительный период, в течение которого корреляция между недельными максимумами была отрицательная - это период с августа 2007 года по июль 2011 года. В этот период недельной обновление максимумов на прошлой неделе в большинстве случаев не приводило к обновлению максимумов в течение текущей недели. И наоборот, НЕобновление недельных максимумов в течение текущей недели в большинстве случае приводило к росту на следующей неделе. В этот период акции Лукойла «запилило» от максимумов весной 2008 года до низов в июле 2009 года.

Пример торговли акциями Лукойла

В точках, где синяя линия находится выше красной, корреляция между недельными максимумами выше средней за период и имеет прямую направленность. В таких точках при обновлении недельных максимумов на текущей неделе наиболее вероятно обновление максимумов в течение следующей недели. В точках, где синяя линия находится ниже красной, корреляция между недельными максимумами ниже средней за период и имеет в основном обратную направленность. В таких точках, в отличие от ситуации п.5, наиболее вероятно обновление максимумов в течение следующей недели при НЕобновлении недельных максимумов текущей недели.

Коллеги, на основании последних двух выводов у меня сформировалась идея тестирования стратегии, построенной на принципах такого парного корреляционного эффекта.

Коэффициент корреляции (Correlation coefficient) - это

       Торговля ациями по коэффициенту корреляции

Стратегия, построенная на принципах автокорреляции. Общее описание стратегии. Принципы стратегии: тестируемый инструмент - акции Лукойла (LKOH) на недельном ТФ за период с 01.01.2001 по 31.07.2012; типы совершаемых сделок - исключительно Long; время удержания позиции - вход на Open недельной свечи, выход на Close этой же свечи. Таким образом, удержание позиции строго в течение торговой недели без ухода в бумагах на выходные; внешние факторы - цены на нефть, мировые новости, динамика западных рынков и проч. - не учитываются; внутренние факторы - внутрикорпоративные новости, дивидендные отсечки и проч. - не учитываются.

Здание компании Лукойл

Принципы формирования сигналов: Методом тестирования определяется некое критическое скользящее значение линейного коэффициента корреляции (далее - ЛККкр) по 30 периодам. Покупка Вариант 1. Если текущее значение ЛКК ВЫШЕ критического значения и на текущей неделе ПРОИЗОШЛО обновление максимума по сравнению с прошлой неделей, то на Open следующей недели происходит покупка. Срок удержания позиции - не позднее Close недели открытия позиции.

Историческая стоимость акций Лукойла

Покупка Вариант 2. Если текущее значение ЛКК НИЖЕ критического значения и на текущей неделе НЕ ПРОИЗОШЛО обновление максимума по сравнению с прошлой неделей, то на Open следующей недели происходит покупка. Срок удержания позиции - не позднее Close недели открытия позиции. Во всех остальных случаях - вне позиции (cash). Таким образом, для принятия решения о входе/невходе в позицию необходима информация о максимальных ценах последних 30ти недель. И ничего более сверх этого.

Коэффициент корреляции (Correlation coefficient) - это

Само решение принимается в промежутке между закрытием торговой недели и открытием следующей торговой недели. В случае формирования торгового сигнала трейдеру необходимо находиться в рынке утром первого дня торговой недели для открытия позиции и вечером последнего дня торговой недели для выхода из бумаг. Для тестирования такой стратегии вполне хватило возможностей Excel. У недельного Лукойла критическим значением ЛКК оказалось значение 0,15. Приведу пару примеров для иллюстрации:

Пример 1.

У недельного Лукойла критическим значением ЛКК оказалось значение больше 0,15

Сигнал от 25.06.12. В данном случае выполнены оба условия покупки: ЛККкр=0,1855 (>0,15) и обновлен максимум предыдущей недели (1805 руб. > 1765 руб.). На основании этого на Open свечи 02.07.12 совершена покупка по 1804 руб. Позиция закрыта на Close свечи 02.07.12, то есть 06.07.12, по цене 1825 руб. Рентабельность сделки составила +1,2% при периоде удержания позиции 5 сессий.

Сигнал от 02.07.12. В данном случае так же выполнены оба условия покупки: ЛККкр=0,2472 (>0,15) и обновлен максимум предыдущей недели (1857 руб. > 1805 руб.). На основании этого на Open свечи 09.07.12 совершена покупка по 1826 руб. Позиция закрыта на Close свечи 09.07.12, то есть 13.07.12, по цене 1818 руб. Рентабельность сделки составила -0,4% при периоде удержания позиции 5 сессий.

Пример 2.

У недельного Лукойла критическим значением ЛКК оказалось значение меньше 0,15

Сигнал от 07.05.12. В данном случае выполнены оба условия покупки: ЛККкр=0,1098 (<0,15) и НЕ обновлен максимум предыдущей недели (1700 руб. < 1802 руб.). На основании этого на Open свечи 14.05.12 совершена покупка по 1684 руб. Позиция закрыта на Close свечи 14.05.12, то есть 18.05.12, по цене 1594 руб. Рентабельность сделки составила -5,4% при периоде удержания позиции 5 сессий.

Сигнал от 14.05.12. В данном случае выполнены оба условия покупки: ЛККкр=0,1258 (<0,15) и НЕ обновлен максимум предыдущей недели (1684 руб. < 1700 руб.). На основании этого на Open свечи 21.05.12 совершена покупка по 1602 руб. Позиция закрыта на Close свечи 21.05.12, то есть 25.05.12, по цене 1639 руб. Рентабельность сделки составила +2,3% при периоде удержания позиции 5 сессий.

Коэффициент корреляции (Correlation coefficient) - это

Сигнал от 21.05.12. В данном случае выполнены оба условия покупки: ЛККкр=0,1336 (<0,15) и НЕ обновлен максимум предыдущей недели (1602 руб. < 1684 руб.). На основании этого на Open свечи 28.05.12 совершена покупка по 1647 руб. Позиция закрыта на Close свечи 28.05.12, то есть 01.06.12, по цене 1742 руб. Рентабельность сделки составила +5,8% при периоде удержания позиции 5 сессий.

Back-testing стратегии. В данном разделе приведу результаты тестирования стратегии в сравнении со стратегией «Buy&Hold» (B&H).

Динамика дохода тестируемой стратегии в сравнении с принципом B&H

На рисунке показана динамика дохода тестируемой стратегии в сравнении с принципом B&H. За точку отчета (0%) принята цена акций Лукойла в начале января 2001 года (270 руб.). Как видно, принцип B&H опережал стратегию в течение 2001-2008 гг. Падение ранка в 2008 году сравняло результаты обоих стратегий до уровня примерно +200% к старту. Затем, начиная с 2009 года, обе стратегии показали примерно одинаковые результаты и на сегодня корреляционная стратегия незначительно опережает по доходности принцип B&H.

Как видно из профилей графиков, волатильность (риск) принципа B&H гораздо выше волатильности тестируемой стратегии. Размер среднегодовой доходности тестируемой стратегии составляет 20% годовых на всем периоде тестирования.

       Риск-менеджмент, основанный на коэффициенте корреляции

Покупка по Варианту 1 (ЛККкр >0,15 + новый максимум)

Покупка по Варианту 1 (ЛККкр больше 0,15 + новый максимум)

Из 600 недель тестового периода сигналы по Варианту 1 возникли в 109 случаях (19% потока или каждая пятая неделя). Из 109 сигналов 74 отработали в плюс (68%, или два из трех сигналов). Средний результат положительного исхода равен по модулю среднему результату отрицательного исхода (38 руб./акция) Общий положительный результат потока сигналов сформирован за счет превышения в 2 раза количества положительных исходов над отрицательными исходами.

Коэффициент корреляции (Correlation coefficient) - это

С учетом частоты распределения положительных и отрицательных исходов расчет математического ожидания выглядит следующим образом: Размер ожидаемого успеха +26 руб./акция, Размер ожидаемого убытка -13 руб./акция, Общий ожидаемый результат +13 руб./акция, Размер среднеквадратичного отклонения исходов сигналов составляет 24 руб./акция. Диапазон колебаний исходов сигналов находится в пределах [-11 руб.;+38 руб.], Максимальная серия подряд убыточных сигналов составила 2 сигнала с максимальным риском не более 178 руб./акция. В нынешних ценах это около 9% торгового депозита.

Покупка по Варианту 2 (ЛККкр <0,15 + нет нового максимума)

Покупка по Варианту 2 (ЛККкр меньше 0,15 + нет нового максимума)

Фактически покупки по варианту 2 - это покупки против падения рынка. Поэтому показатели риска и волатильности выше, нежели по варианту 1. Из 600 недель тестового периода сигналы по Варианту 2 возникли в 190 случаях (33% потокаили каждая третья неделя). Из 190 сигналов 91 отработали в плюс (48% или половина сигналов). Средний результат положительного исхода равен +66 руб./акция, а отрицательного исхода -50 руб./акция. Общий положительный результат потока сигналов сформирован за счет превышения размера средней прибыли над средним убытком.

Коэффициент корреляции (Correlation coefficient) - это

С учетом частоты распределения положительных и отрицательных исходов расчет математического ожидания выглядит следующим образом: Размер ожидаемого успеха +32 руб./акция, Размер ожидаемого убытка -26 руб./акция, Общий ожидаемый результат +6 руб./акция, Размер среднеквадратичного отклонения исходов сигналов составляет 49 руб./акция. Диапазон колебаний исходов сигналов находится в пределах [-44 руб.;+55 руб.], Максимальная серия подряд убыточных сигналов составила 6 сигналов с максимальным риском 187 руб./акция. В нынешних ценах это около 10% торгового депозита. Стратегия в целом:

Стратегия в целом

Из 600 недель тестового периода сигналы по стратегии в целом возникли в 299 случаях (53% потока или каждая вторая неделя). Из 299 сигналов 165 отработали в плюс (55% или более половины сигналов). Средний результат положительного исхода равен +53 руб./акция, а отрицательного исхода -47 руб./акция. Общий положительный результат потока сигналов сформирован как за счет превышения количества положительных исходов над отрицательными исходами, так и за счет превышения размера средней прибыли над средним убытком.

Дивидентная история акций Лукойла

С учетом частоты распределения положительных и отрицательных исходов расчет математического ожидания выглядит следующим образом: Размер ожидаемого успеха +29 руб./акция, Размер ожидаемого убытка -21 руб./акция, Общий ожидаемый результат +8 руб./акция, Размер среднеквадратичного отклонения исходов сигналов составляет 55 руб./акция. Диапазон колебаний исходов сигналов находится в пределах [-47 руб.;+63 руб.], Максимальная серия подряд убыточных сигналов составила 6 сигналов с максимальным риском 187 руб./акция. В нынешних ценах это около 10% торгового депозита при доходности 20% годовых.

В целом стратегия показала неплохой тренд-следящий результат, а так же оказалась достаточно устойчива в условиях падения 2008 года. Особенно, если учесть усилия трейдера по следованию сигналам. Коллеги, за сим пока все по описанию линейной корреляции и ее применении в трейдинге.

Пример тренд-следящего результата

       Коэффициент корреляции валютных пар

Рассмотрим такое явление, как межвалютная корреляция на Форексе. Данная методика может существенно повысить понимание рыночных процессов, а также улучшить качество ваших краткосрочных и среднесрочных прогнозов. Существует две разновидности межвалютной корреляции, которые могут помочь в работе трейдера. Рассмотрим подробнее.

Коэффициент корреляции (Correlation coefficient) - это

Корреляция - это статистический термин, означающий наличие взаимосвязанных тенденций изменений между двумя рядами данных. В нашем случае Валютная корреляция - это взаимосвязь между историческими данными курсов одной валютной пары. Или изменения курса одной пары могут быть взаимосвязанными с изменениями другой пары. Данная взаимосвязь чаще всего имеет фундаментальное экономическое обоснование и уходит корнями в особенности всемирного хозяйства. Проще говоря, есть две валютных пары: A/B и C/D. Если между ними есть корреляция, при росте курса A/B может стабильно наблюдаться или рост кусра C/D (тогда это прямая корреляция) или его падение (тогда корреляция буде обратной).

Косинусоида и она же только с наложенным на неё шумом

Выше мы говорили о двух разновидностях. Это скользящая и прямая корреляция. Прямая корреляция валютных пар - явление, полезное для повышения точности прогнозов. Даже торгуя на одном инструменте, вы можете повысить точность прогнозирования, применяя анализ нескольких валютных пар. Вернемся к нашим A/B и C/D, допустим, вы торгуете инструментом A/B. Известно, что эти валютные пары в прямой корреляции, то есть вверх и вниз идут синхронно. Ваш технический анализ показал, что пара A/B должна падать. Соответственно, если теханализ пары C/D говорит об обратном, есть повод усомниться в достоверности сигнала. Если же всё совпало, - вы можете с большей уверенностью открывать позицию. Получается, зная взаимосвязи, можно уменьшить количество случайных сигналов. Однако нужно помнить, что корреляционный анализ работает на относительно больших масштабах (в лучшем случае на часовых или получасовых графиках). Если ваша торговая стратегия базируется на «минутках», эти данные могут только помешать.

Добавляем шум ко второму ряду и видим что взаимосвязь падает

Следующий вид корреляции - скользящая. Суть в том, что взаимосвязь проявляется на сдвинутом по временной шкале наборе данных. То есть изменение курса пары A/B сейчас является предвестником изменения пары C/D в будущем. Если собрать информацию, достаточно детальную для формирования торговой стратегии, наличие таких корреляций может очень существенно повысить точность. Фактически, у вас появляется инструмент базового прогнозирования курса.

Как анализировать корреляцию?

Пример анализа корреляции

Чтобы отыскать корреляционную связь, можно пользоваться существующими утилитами из Интернета (которые не сложно найти в Гугле по запросу «корреляция валют форекс») или делать всё руками, в старом добром экселе. Там есть такая замечательная функция КОРРЕЛ, которая показывает корреляцию двух выбранных множеств данных. Берем курсы нескольких инструментов, копируем исторические данные в Эксель и ищем корреляцию. Чтобы искать прямую корреляцию, необходимо выделять два совпадающих по временному промежутку набора данных. Чтобы искать скользящую взаимосвязь, сдвигаем множество вправо или влево на несколько периодов. Корреляция более 0.5 свидетельствует о прямой взаимосвязи, менее 0.5 - об обратной взаимосвязи, в пределах от -0.5 до 0.5 - об отсутствии взаимосвязи. Эти границы более чем условны, следует проверять их на практике...

Коэффициент корреляции (Correlation coefficient) - это

Для того чтобы легче было понять взаимосвязи и соотношение с числом коэффициента корреляции я подготовил рисунки, которые наглядно показывают коэффициент и визуальное сходство двух рядов. В качестве примера взяты рад косинуса и зашумлённый ряд косинусоиды, от амплитуды зашумления зависит коэффициент корреляции:

Ещё добавляем шум и взаимосвязь почти исчезает

А здесь пример обратной корреляции валют. Как видим когда одна расчёт другая падает! Как EUR/USD и USD - CHF:

Пример обратной корреляции валют

Текущая корреляция наиболее популярных валютных пар. Нужно понимать, что корреляция между валютами не является постоянной, рынок постоянно меняется. Приведенные здесь данные являются примерными, точную информацию нужно рассчитывать самостоятельно. Рассмотрим, как коррелирует с другими инструментами наиболее популярный среди трейдеров инструмент EUR/USD: прямая корреляция с: AUD - USD, BP/USD, NZD - USD; обратная корреляция с: USD-JPY, USD / CHF, USD - CAD.

Еще один любимый нашими трейдерами инструмент - «йенадоллар», USD/JPY. Взгялем на него: прямая: Доллар / Франк, USD / CAD; обратная: EUR/USD, AUS/USD,GBP/USD,NZD/USD. Что касается скользящей корреляции, ловить ее довольно сложно. К примеру, часто цена на золото опережает или немного отстает от GBP - USD. Но такую взаимосвязь нужно рассчитывать чуть ли не для каждого отдельного торгового дня.

Корреляция фондовых индексов

       Изменение коэффициента корреляции ценовых графиков

В качестве примера корреляции двух пар с положительным К, можно вспомнить о EUR/USD и EUR / JPY. В обоих случаях мы покупаем EUR и продаем вторую валюту. Некоторые пары движутся относительно друг друга, но со временем К может меняться. Например, чтобы определить для своей работы две коррелирующие между собой валютные пары, достаточно найти такую из всего ассортимента, предоставляемого ДЦ, которая бы имела очень низкую волатильность. В 2012 году в качестве такого инструмента вполне могла бы выступать EUR/CHF. Не каждый день ширина ее движения на рынке превышала бы 30 пунктов, что можно считать малой величиной, относительно аналогичных показателей других пар.

Слева - ценовой график валютной пары EURUSD, справа - ценовой график валютной пары USDCHF

Данную валютную пару можно без труда разложить на две пары, используя для этого ту валюту, которая “разбавит” выбранный нами инструмент. Для этого мы берем USD, который позволит представить нам EUR/CHF, как EUR/USD*USD/CHF. Действительно, если перемножить две новых долларовых пары, то в результате мы вновь получаем исследуемую нами EUR/CHF. Данное преобразование говорит о том, что обе пары будут коррелировать между собой, так как их произведение будет демонстрировать значения пары EUR/CHF, а они относительно малы, о чем говорили в самом начале примера.

Коэффициент корреляции (Correlation coefficient) - это

Для уверенной торговли необходимо иметь четкое представление не только об особенностях отдельных инструментов торговли, но и об их взаимодействии друг с другом. Существуют целые торговые стратегии, построенные с использованием К. Могут применяться даже наложения одного ценового графика на другой, для выявления аналогий в движениях цены. Коэффициент может периодически рассчитываться заново, учитывая последние изменения в поведении ценовых графиков.

Таблица коэффициентов корреляции между активами

       Коэффициент корреляции в анализе инвестиционного портфеля

Согласно Марковицу, любой инвестор должен основывать свой выбор исключительно на ожидаемой доходности и стандартном отклонении при выборе портфеля. Таким образом, осуществив оценку различных комбинаций портфелей, ондолжен выбрать "лучший", исходя из соотношения ожидаемой доходности и стандартного отклонения этих портфелей. При этом соотношение доходность-риск портфеля остается обычным: чем выше доходность, тем выше риск.

Что такое риск-менеджмент?

Также, прежде чем приступить к формированию портфеля, необходимо дать определение термину "эффективный портфель". Эффективный портфель - это портфель, который обеспечивает: максимальную ожидаемую доходность для некоторого уровня риска, или минимальный уровень риска для некоторой ожидаемой доходности.

В дальнейшем будем находить эффективные портфели в среде Excel в соответствии со вторым принципом - с минимальным уровнем риска для любой ожидаемой доходности. Для нахождения оптимального портфеля необходимо определить допустимое множество соотношений "риск-доход" для инвестора, которое достигается путем построения минимально-дисперсионной границы портфелей, т.е. границы, на которой лежат портфели с минимальным риском при заданной доходности.

Минимально - дисперсионная <a href=граница src="/pictures/investments/img1996892_Minimalno_dispersionnaya_granitsa.gif" style="width: 600px; height: 373px;" title="Минимально - дисперсионная граница" />

На рисунке выше жирной линией отображена "эффективная граница", а большими точками отмечены возможные комбинации портфелей.

Эффективная граница - это граница, которая определяет эффективное множество портфелей. Портфели, лежащие слева от эффективной границы применить нельзя, т.к. они не принадлежат допустимому множеству. Портфели, находящиеся справа (внутренние портфели) и ниже эффективной границы являются неэффективными, т.к. существуют портфели, которые при данном уровне риска обеспечивают более высокую доходность, либо более низкий риск для данного уровня доходности.

Коэффициент корреляции (Correlation coefficient) - это

Для построения минимально-дисперсионной границы и определения "эффективной границы" нам будут необходимы значения ожидаемых доходностей, рисков (стандартных отклонений) и ковариации активов. Имея эти данные можно приступить к нахождению "эффективных портфелей".

Начнем с расчета ожидаемой доходности портфеля по формуле:

Расчет ожидаемой доходности портфеля

где Хi - доля i-ой бумаги в портфеле, E(ri) - ожидаемая доходность i-ой бумаги. А затем определим дисперсию портфеля, в формуле которой используется двойное суммирование:

Определение дисперсии портфеля

Переменные определения дисперсии портфеля

И как следствие найдем стандартное отклонение портфеля, которое является квадратным корнем из дисперсии. Для наглядности приведем пример построения эффективной границы при помощи Microsoft Excel, а точнее при помощи встроенного в него компонента Поиск решения.

Зададим долю каждого актива в нашем первоначальном портфеле пропорционально их количеству. Следовательно, доля каждого актива в портфеле составит 1/3, т.е. 33%. Общая доля должна равняться 1, как для портфелей,в которых разрешены "короткие" позиции, так и для тех, в которых запрещены. Сам Марковиц запрещает открывать "короткие" позиции по активам, входящим в портфель, однако современная портфельная это разрешает. Если "короткие" позиции разрешены, то доля по активу будет отображена как -0.33 и средства, вырученные от его продажи, должны быть вложены в другой актив, таким образом, доля активов в портфеле в любом случае будет равняться 1.

Рассчитаем ожидаемую доходность, дисперсию и стандартное отклонение средневзвешенного портфеля:

Ожидаемую доходность, дисперсию и стандартное отклонение средневзвешенного портфеля - вид с формулами

Как видно из таблицы, для определения дисперсии портфеля нужно просто просуммировать данные в ячейках B19-D19, а квадратный корень из значения ячейки C21 даст нам стандартное отклонение портфеля в ячейке C22. Произведение долей бумаг на их ожидаемую доходность даст нам ожидаемую доходность нашего портфеля, которая отражена в ячейке C23. Окончательный результат средневзвешенного портфеля представлен ниже.

Окончательный результат средневзвешенного портфеля - вид со значениями

Средняя (ожидаемая) месячная доходность средневзвешенного портфеля 0,28% при риске 6,94%. Теперь можноприменить тот самый второй принцип, о котором было написано выше, т.е. обеспечить минимальный риск при заданном уровне доходности. Для этого воспользуемся функцией «Поиск Решений» из меню «Сервис». Если нет, значит надо открыть «Сервис» выбрать «Надстройки» и установить «Поиск решений». Запускаем «Поиск решений», в пункте «Установить указанную ячейку» указываем ячейку С22, которую будем минимизировать за счет изменения долей бумаг в портфеле, т.е. варьированием значений в ячейках A16-A18. Далее надо добавить два условия, а именно:

Составляющие риск-менеджмента

- сумма долей должна равняться 1, т.е. ячейка A19 = 1;

- задать доходность, которая нас интересует, к примеру, доходность 0.28% (ячейка С23), которая получилась при расчете средневзвешенного портфеля.

Так как мы запрещаем наличие "коротких" позиций по бумагам в меню «Параметры» надо установить галочку «Неотрицательные значения». Вот так должно выглядеть:

Окно поиск решения

Окно параметры поиска решений

В результате мы получаем:

Результат при «Поиске решений»

Итак, задав «Поиск решений» найти минимальное стандартное отклонение при заданной ожидаемой доходности в 0,33% мы получили оптимальный портфель, состоящий на 83% из РАО ЕЭС, на 17% из Лукойла и на 0% из Ростелекома. Несмотря на то, что уровень доходности тот же, что и при средневзвешенном портфеле, риск снизился.

       Парный трейдинг и коэффициент корреляции

Понятие корреляция лежит в основе многих прибыльных торговых стратегий валютного рынка. В качестве примера можно привести парный трейдинг, основанный на корреляции валютных пар, позволяющий получить стабильную высокую прибыль на разных коррелирующих инструментах (об этом мы писали в предыдущих статьях) и торгового робота Octopus Arbitrage, его реализующего. В этой статье мы попытаемся просто и доступно объяснить суть корреляции и показать, как это можно применить на практике для парного трейдинга.

Почему было решено посвятить этой теме отдельную статью? Дело вот в чем. Несмотря на то, что корреляция нашла широкое практическое применение, доступное объяснение найти весьма трудно.

Общее понятие парного трейдинга

Как говорил Альберт Эйнштейн «если ты не можешь объяснить шестилетнему ребенку, чем ты занимаешься, значит, ты шарлатан». К сожалению, математики, пишущие учебные материалы этого принципа не придерживаются. Как только открываешь их талмуды, желая понять достаточно простые вещи, например, корреляция, так на тебя злобно смотрят четырехэтажные формулы, тройные интегралы и двухстраничные доказательства с применением огромного количества матерных слов незнакомых терминов. Самые стойкие засыпают через три минуты прочтения. Менее стойкие - через пять секунд созерцания этой «математической гармонии» создают облако пыли от захлопывающегося талмуда или нажимают крестик в правом верхнем углу экрана.

Стратегия парного трейдинга

Корреляция - величина, характеризующая взаимную зависимость двух случайных величин, X и Y, безразлично, определяется ли она некоторой причинной связью или просто случайным совпадением… Итак, что такое корреляция? По сути, корреляция показывает, насколько сильно связаны между собой величины. Если взять две произвольные величины, они могут быть сильно связаны между собой, никак не связаны, или слабо связаны.

Рассмотрим пример. Насколько связаны между собой количество прибыли, которую заработал трейдер за торговую сессию от количества выпитых им чашек кофе за тот же период? Т.е. имеем две величины: количество кружек кофе и прибыль.

Зависимость прибыли трейдера от количества выпитого кофе

Простой и наглядный способ анализа корреляции - загнать эти данные в Microsoft Excel и построить график. Стандартными средствами Excel можно вывести линию тренда, а также коэффициент корреляции R2. Как определяется коэффициент корреляции, поговорим чуть позже, пока лишь скажем, что эта величина изменяется от 0 до 1. При этом 0 - показывает, что связи нет вообще, а 1 - самая сильная связь, какая может быть. Линия тренда при отсутствии связи будет направлена параллельно оси X, при максимально сильной связи - под углом 45 градусов.

Зависимость прибыли трейдера от количества выпитого им кофе

Ну что ж, похоже количество выпитого кофе на получение прибыли трейдером не влияет никак. Коэфициент корреляции R2 всего лишь 0,0289, линия тренда почти горизонтальна. Почему так? Возможно, помимо выпитого кофе существует множество факторов, оказывающих куда более существенное влияния на получение прибыли: факторы рынка, работа ДЦ, особенности выбранной торговой стратегии, личные качества трейдера и т.д.

Теперь разберем другой пример. Рассмотрим связь между валютными парами EUR/USD и GBP / USD. Были взяты скользящие средние дневных цен с 2 по 5 декабря 2013 года. Было взято четыре точки для простоты дальнейшего объяснения расчетов. Как правило, для подобных расчетов, точек нужно брать больше.

Зависимость между валютными парами EURUSD и GBPUSD

Теперь, аналогично, предыдущему примеру на основании этих данных построим график в Excel.

График зависимости между валютными парами EURUSD и GBPUSD

Так, здесь видно, что зависимость гораздо сильнее, так как R2 близко к единице, а линия тренда расположена почти под 45о. Можно сказать, что величины здесь коррелируют. Теперь рассмотрим, как рассчитывается коэффициент R. Здесь, к сожалению, без формул не обойтись. Однако, на самом деле, все заумные формулы можно свести к уровню седьмого класса средней школы. Для начала определимся, что у нас есть две «случайные» величины. Обозначим EURUSD как X, а GBPUSD как Y.

Далее хочу отметить, что большинство понятий, математической статистики базируются на среднем значении выборки. Проще говоря, на среднем арифметическом, т.е. сумма всех элементов, поделенная на их число. Вычислим среднее для величин X и Y.

Вычисление среднего для величин X и Y

Далее, приведем формулу расчета R2. В ней нет ничего сложного, как может показаться на первый взгляд. Здесь просто используются вычисленные нами средние арифметические:

Среднее арифметическое

Сведение всех расчетов в одну таблицу для удобства

Подставив выделенное в формулу получаем:

Расчет среднего арифметического

Таким образом, мы получили, посчитав «вручную», то, что автоматически делает Excel. Коэффициент R2 называется еще «коэффициентом Пирсона». Корреляция по EURUSD и GBPUSD, на самом деле, достаточно сильная, на это конечно есть фундаментальные причины, рассмотрение которых находится за рамками этой статьи.

Данные по парному трейдингу в таблице

Как корреляцию можно использовать для получения прибыли? Ярким примером может послужить стратегия парного трейдинга. Стратегия подразумевает, что большую часть времени выбранные валютные пары двигаются в рынке синхронно, но расхождения в поведении курсов происходят достаточно часто и каждое значительное рассогласование можно использовать для извлечения прибыли. Когда валютные пары расходятся на определенное количество пунктов: открываются две сделки, на одной паре - продажа, на другой - покупка. Когда пары возвращаются «друг к другу», позиции закрываются и прибыль фиксируется на одной или обеих позициях.

При расхождении инструментов открываются встречные позиции, при возвращении корреляции в исходное положение, встречные ордера закрываются, прибыль фиксируется на одной или обеих позициях

Использование стратегии парного трейдинга

Безусловно, в нашей статье, описаны только основные принципы корреляции и парного трейдинга, поняв которые можно четко уяснить суть. Однако, для того, чтобы получать прибыль на FOREX, одних этих знаний недостаточно. Необходимо использовать специальные индикаторы, понимать расхождение каждой из пар и многое другое. Сколько трейдеров уже набили себе шишек на этом пути!

Коэффициент корреляции (Correlation coefficient) - это

Кроме того, необходимо постоянно быть «в рынке», двадцать четыре часа в сутки, семь дней в неделю, чтобы «не проспать», когда разойдется или же наоборот сойдется корреляция. При этом для устойчивого получения прибыли необходимо использовать не две валютные пары, а больше. Трейдер просто физически не сможет этого сделать. Как же здесь быть?

К счастью, есть уникальный торговый советник Octopus Arbitrage. Правильно настроив его и установив на нескольких парах, от трейдера, как правило, больше ничего не требуется. Все остальное сделает робот. Уникальный алгоритм позволит получать достойную прибыль при минимальных просадках, трейдер просто наблюдает за ростом депозита. Как говорится: «Вкалывают роботы - счастлив человек».

Octopus Arbitrage - торговый советник

       Коэффициент корреляции в психологических исследованиях

Коэффициент корреляции является одним из самых востребованых методов математической статистики в психологических и педагогических исследованиях. Формально простой, этот метод позволяет получить массу информации и сделать такое же количество ошибок. В этой статье мы рассмотрим сущность коэффициента корреляции, его свойства и виды. Слово correlation (корреляция) состоит из приставки «co-», которая обозначает совместность происходящего (по аналогии с «координация») и корня «relation», переводится как «отношение» или «связь» (вспомним public relations - связи с общественностью). Дословно correlation переводится как взаимосвязь.

Понятие корреляционного нализа в психологии

Коэффициент корреляции - это мера взаимосвязи измеренных явлений. Коэффициент корреляции (обозначается «r») рассчитывается по специальной формуле и изменяется от -1 до +1. Показатели близкие к +1 говорят о том, что при увеличении значения одной переменной увеличивается значение другой переменной. Показатели близкие к -1 свидетельствуют об обратной связи, т.е. При увеличении значений одной переменной, значения другой уменьшаются.

Пример. На большой выборке был проведён тест FPI. Проанализируем взаимосвязи шкал Общительность, Застенчивость, Депрессивность. Начнем с Застенчивости и Депрессивности. Для наглядности, задаём систему координат, на которой по X будет застенчивость, а по Y - депрессивность. Таким образом, каждый человек из выборки исследования может быть изображен точкой на этой системе координат. В результате расчетов, коэффициент корреляции между ними r=0,6992.

Пример - график зависимости величин застенчивости и депрессивности

Как видим, точки (испытуемые) расположены не хаотично, а выстраиваются вокруг одной линии, причём, глядя на эту линию можно сказать, что чем выше у человека выражена застенчивость, тем больше депрессивность, т. е. эти явления взаимосвязаны. Построим аналогичный график для Застенчивости и Общительности.

Пример - график зависимости величин застенчивости и общительности

Мы видим, что с увеличением застенчивости общительность уменьшается. Их коэффициент корреляции -0,43. Таким образом, коэффициент корреляции больший от 0 до 1 говорит о прямопропорциональной связи (чем больше… тем больше…), а коэффициент от -1 до 0 о обратнопропорциональной (чем больше… тем меньше…). Если бы точки были расположены хаотично, коэффициент корреляции приближался бы к 0.

Коэффициент корреляции отражает степень приближенности точек на графике к прямой. Приведём примеры графиков, отражающих различную степень взаимосвязи (корреляции) переменных исследования. Сильная положительная корреляция:

Пример сильной положительной корреляции

Слабая положительная корреляция:

Пример слабой положительной корреляции

Нулевая корреляция:

Пример нулевой корреляции

В подписи у каждого графика кроме значения r есть значение p. p - это вероятность ошибки, о которой будет рассказано отдельно.

Источники и ссылки

ru.wikipedia.org - свободная энциклопедия Википедия

ru.math.wikia.com - математическая энциклопедия

vocabulary.ru - национальная психологическая энциклопедия

basegroup.ru - технологии анализа данных

investpark.ru - портал инвестора ИнвестПарк

megafx.ru - сайт для начинающих на рынке Форекс

psyfactor.org - центр практической психологии

learnspss.ru - сайт профессиональной обработки даных

exceltip.ru - блог о программе Microsoft Excel

economyreview.ru - информационные системы и технологии в экономике

aup.ru - аминистративно-управленческий портал

math-pr.com - решение задач и примеров по высшей математике

neerc.ifmo.ru - Викиконспекты

exponenta.ru - образовательный математический сайт

edu.jobsmarket.ru - курсы повышения квалификации в России и за рубежом

quans.ru - анализ и исследование рынка

Источник: http://forexaw.com/

Энциклопедия инвестора. 2013.

Игры ⚽ Поможем написать курсовую

Полезное


Смотреть что такое "Коэффициент корреляции" в других словарях:

  • Коэффициент корреляции — Математическое представление о степени связи между двумя сериями измерений. Коэффициент +1 обозначает четкую позитивную корреляцию: высокие показатели по одному параметру (например, рост) точно соотносятся с высокими показателями по другому… …   Большая психологическая энциклопедия

  • КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ — ρ μера силы линейной связи между случайными величинами X и У: , где ЕХ математическое ожидание X; DX дисперсия X, EY математическое ожидание У; DY дисперсия У; 1 ≤ ρ ≤ 1. Если X, Y линейно связаны, то ρ = ± 1. Для… …   Геологическая энциклопедия

  • КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ — англ. coefficient, correlation; нем. Korrelationskoeffizient. Мера тесноты связи двух или более переменных. Antinazi. Энциклопедия социологии, 2009 …   Энциклопедия социологии

  • коэффициент корреляции — — [http://www.dunwoodypress.com/148/PDF/Biotech Eng Rus.pdf] Тематики биотехнологии EN correlation coefficient …   Справочник технического переводчика

  • Коэффициент корреляции — Корреляция статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к… …   Википедия

  • коэффициент корреляции — 1.33. коэффициент корреляции Отношение ковариации двух случайных величин к произведению их стандартных отклонений: Примечания 1. Эта величина всегда будет принимать значения от минус 1 до плюс 1, включая крайние значения. 2. Если две случайные… …   Словарь-справочник терминов нормативно-технической документации

  • КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ — (correlation coefficient) мера ассоциации одной переменной с другой. См. Корреляция; Коэффициент корреляции производного значения Пирсона; Коэффициент ранговой корреляции спирмена …   Большой толковый социологический словарь

  • Коэффициент корреляции — CORRELATION COEFFICIENT Показатель степени линейной зависимости между двумя переменными величинами: Коэффициент корреляции может изменяться в пределах от 1 до 1. Если большим значениям одной величины соответствуют большие значения другой (и… …   Словарь-справочник по экономике

  • коэффициент корреляции — koreliacijos koeficientas statusas T sritis automatika atitikmenys: angl. correlation coefficient vok. Korrelationskoeffizient, m rus. коэффициент корреляции, m pranc. coefficient de corrélation, m …   Automatikos terminų žodynas

  • коэффициент корреляции — koreliacijos koeficientas statusas T sritis fizika atitikmenys: angl. correlation coefficient vok. Korrelationskoeffizient, m rus. коэффициент корреляции, m pranc. coefficient de corrélation, m …   Fizikos terminų žodynas


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»