СТАТИСТИЧЕСКИЕ МЕТОДЫ ИЗУЧЕНИЯ ВЗАИМОСВЯЗЕЙ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ

МЕТОДИЧЕСКИЕ УКАЗАНИЯ С ТИПОВЫМИ ПРИМЕРАМИ

Статистика в современном мире представляет собой систему сбора, обработки и анализа информации. Она призвана обеспечивать количественные оценки и прогноз основных макроэкономических показателей, а также микроэкономических, таких как объемы продаж, степень риска в банковском деле, страховании и производстве, характеристики потребительского поведения населения, демографической и социальной ситуации и т.п.

В условиях рыночной экономики существенно изменились требования управляющих структур к объему, составу, достоверности и оперативности информации. Объективные условия, когда основой экономики становятся не госпредприятия, а миллионы агентов рынка, ведут к переходу от сплошного учета к выборочному по многим системам показателей. На базе выборочных данных и осуществляются статистические построения, позволяющие судить о происходящих в обществе процессах.

В рыночных условиях, когда товаропроизводитель независим и обращение к предприятию, фирме не носит директивный характер, необходимо максимально использовать информационные возможности ограниченных первичных данных для разработки свободной макроэкономической информации. Активное интегрирование экономики России в мировое сообщество потребовало от нее перехода на принятую повсеместно систему учета и статистики, которая позволяет адекватно оценивать социально-экономическое положение страны, говорить с международными партнерами на одном статистическом языке.

Динамизм современной экономики России и регионов требует ежеквартальной, ежемесячной оценки производства и использования валового внутреннего продукта, т.е. анализа итогов деятельности как сферы материального производства, так и секторов экономики - коммерческих банков, страховых компаний, бирж и других элементов рыночной инфраструктуры.

Важное значение приобретают сейчас и технологии сбора, обработки и исследования данных о социально-экономических и демографических процессах, характеризующих экономически активное население, фактическую и скрытую безработицу, уровень жизни и покупательную способность различных слоев населения.

Происходящие в обществе изменения приводят к тому, что наши знания об экономике переходного периода всегда будут отставать от потребностей управления. В связи с этим статистическая деятельность должна содержать прогностическую составляющую, способную заранее сигнализировать о появлении тех или иных «особых» (в том числе и кризисных) ситуаций, если в системе управления не произойдут изменения.

Значительная потребность в экономистах-статистиках сегодня отмечается на микроэкономическом уровне у предприятий, учреждений и фирм различных форм собственности. Следует ожидать, что в этой сфере будет работать большая часть выпускников вузов соот- ветсвующей специальности.

Таким образом, в своей деятельности экономисту-статистику приходится решать вопросы, связанные в той или иной мере со следующими разделами статистической науки:

  • • методологией социально-экономических измерителей, определяющей, что именно, какие показатели необходимо измерять для успешного решения основных задач управления социально-экономическими процессами;
  • • теорией и практикой выборочных статистических обследований, обеспечивающих необходимый инструментарий для правильной организации выборки и научно обоснованных методов ее математического анализа;
  • • методологией современного математико-статистического анализа и прогнозирования социально-экономических данных, обеспечивающей наилучший выбор (в зависимости от поставленных целей) того или иного математико-статистического метода, реализованного в виде проблемно или методоориентированных статистических программных систем.

Все вышесказанное позволяет сформулировать требования к знаниям будущих специалистов. Экономисты-статистики должны получить хорошую гуманитарную, в частности, экономическую, языковую и правовую подготовку, владеть международной методологией статистики, хорошо ориентироваться в методологии экономических, социально-экономических измерений, бухгалтерском учете, быть высококвалифицированными пользователями современных информационных технологий. Они должны владеть методами компьютерных исследований, математико-статистическим инструментарием от элементарных до многомерных статистических методов анализа данных, методами эконометрики и анализа рядов динамики и прогнозирования.

Сегодня нужны специалисты, не только владеющие опытом предыдущих поколений, но и готовые к встрече с новыми постановками задач, обусловленными спецификой России и переходного периода.

В настоящее время экономисты-статистики должны больше внимания уделять совершенствованию и расширению сферы применения статистических методов. Причем их необходимо применять в комплексе с методами математической статистики, моделирования и прогнозирования: это позволяет делать более глубокий анализ явлений и процессов, получать научно обоснованные выводы, более точно определять объективные тенденции и закономерности. Следует отличать статистику как общественную науку от математической статистики, приемы которой применяются при обработке массовых данных как общественных, так и природных явлений. Эти науки имеют много общего. В общественных науках, как и в науках о природе, использование математико-статистических методов предполагает наличие множества факторов или элементов, подвергающихся быстрым изменениям. Отсюда вытекает общность приемов обработки и оценки данных. Различие между ними заключается в том, что математическая статистика как часть математики рассматривает массовые количественные отношения в общем виде, абстраюно, тогда как социально- экономическая статистика изучает их в связи с качеством, конкретными условиями и местом.

В данной теме следует уяснить такие наиболее используемые в экономической практике статистические методы, как корреляционный и регрессионный анализ.

Значительное внимание нужно уделить логическому анализу исходной информации и экономической интерпретации получаемых результатов, а также рассмотрению подробно разработанных типовых примеров, взятых из экономической практики.

Примеры иллюстрируют необходимость комплексного применения многомерных статистических методов. При этом корреляционный анализ используется, с одной стороны, на этапе предварительного анализа для выявления мультиколлинеарности, а с другой стороны — при оценке адекватности регрессионной модели. На окончательном этапе выбора модели рекомендуется применять как экономические, так и статистические критерии. Наряду с точечными оценками рассматриваются методы построения интервальных оценок коэффициентов и уравнений регрессии.

Различают два вида зависимости между экономическими явлениями: функциональную и статистическую. Зависимость между двумя величинами X и У, отображающими два явления, называют функциональной, при этом каждому значению величины X должно соответствовать единственное значение величины У и наоборот. Примером функциональной связи в экономике может служить зависимость производительности труда от объема произведенной продукции и затрат рабочего времени. Следует отметить, что если X— детерминированная, не случайная величина, то и функционально зависящая от нее величина У тоже является детерминированной. Если же X — величина случайная, то и У будет иметь случайный характер.

Однако гораздо чаще в экономике имеет место не функциональная, а статистическая зависимость, когда каждому фиксированному значению независимой переменной X соответствует не одно, а множество значений зависимой переменной У, причем заранее нельзя сказать, какое именно значение примет У. Это связано с тем, что на У, кроме переменной X, влияют и многочисленные неконтролируемые случайные факторы. В этой ситуации У — случайная величина, а переменная X может быть как детерминированной, так и случайной величиной. Частным случаем статистической зависимости является корреляционная, при которой функциональной зависимостью связаны фактор X и среднее значение (математическое ожидание) результативного показателя У.

Статистическая зависимость может быть выявлена лишь по результатам достаточно большого числа наблюдений. Графически статистическая зависимость двух признаков может быть представлена с помощью поля корреляции, при построении которого на оси абсцисс откладывается значение факторного признака X, а по оси ординат — результирующего У.

В качестве примера на рис. 13.1 представлены данные, иллюстрирующие прямую и обратную зависимость между х и у. В случае (а) это прямая зависимость между, к примеру, среднедушевым доходом (л;) и сбережением (у) в семье. В случае (б) речь идет об обратной зависимости. Такова, скажем, зависимость между производительностью труда (х) и себестоимостью единицы продукции (у). На указанном рисунке каждая точка характеризует объект наблюдения со своими значениями X и у.

Поле корреляции

Рис. 13.1. Поле корреляции: а — прямая зависимость между х и у б — обратная

На рисунке 13.1 также представлены прямые линии, линейные уравнения регрессии типа у = р0 + Ргт,, характеризующие функциональную зависимость между независимой переменной х и средним значением результативного показателя у. Таким образом, по уравнению регрессии, зная х, можно восстановить лишь среднее значение у.

Ставя задачу статистического исследования зависимостей, важно хорошо представлять конечную прикладную цель построения моделей статистической зависимости между результативным показателем, с одной стороны, и объясняющими переменными xvx2 .... xh — с другой (до сих пор рассматривалась только одна объясняющая переменная л*). Отметим две основных цели подобных исследований.

Первая из них состоит в установлении самого факта наличия (или отсутствия) статистической значимости связи между Y и X. При такой постановке задачи статистический вывод имеет альтернативную природу — «связь есть» или «связи нет». Он обычно сопровождается лишь численной характеристикой — измерителем степени тесноты исследуемой зависимости. Задача оценки степени тесноты связи между показателями решается методами корреляционного анализа. При этом выбор формы связи между результативными показателем Y

и объясняющими переменными хи дг2,___» хк а также выбор состава последних играет вспомогательную роль, призванную максимизировать характеристику степени тесноты связи.

Вторая цель сводится к прогнозу, восстановлению неизвестных индивидуальных или средних значений результативного показателя Y по заданным значениям объясняющих переменных методами регрессионного анализа. При этом выбор формы и вида зависимости Y от объясняющих переменных хи х2,..., хк нацелен на минимализацию суммарной ошибки, т.е. отклонений наблюдаемых значений Y от значений, полученных по регрессионной модели.

Корреляционный анализ — один из методов статистического анализа взаимозависимости нескольких признаков.

Основная его задача состоит в оценке корреляционной матрицы генеральной совокупности по выборке, которая определяется на основе этой матрицы частных и множественных коэффициентов корреляции и детерминации.

Парный и частный коэффициенты корреляции характеризуют тесноту линейной зависимости между двумя переменными соответственно на фоне действия и при исключении влияния всех остальных показателей, входящих в модель. Они изменяются в пределах от -1 до +1, причем чем ближе коэффициент корреляции по модулю к 1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше нуля, то связь прямая, а если меньше — обратная.

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной (результативной), обусловленной влиянием всех остальных переменных (аргументов), входящих в модель.

Исходной для анализа является матрица

Размерности п х ку /-я строка которой характеризует /-е наблюдение (объект) по всем к показателям (/' = 1,2,..., к).

В корреляционном анализе матрицу X рассматривают как выборку объема п из А-мерной генеральной совокупности, подчиняющейся A-мерному нормальному закону распределения.

По выборке определяют оценки параметров генеральной совокупности, а именно: вектор средний х, вектор средних квадратических отклонений s и корреляционную матрицу R порядка А:

где х~ — значение j-го показателя для /-го наблюдения;

rjf— выборочный парный коэффициент корреляции, характеризующий

тесноту линейной связи между показателями. При этом rjt является оценкой генерального парного коэффициента корреляции pjt.

Матрица R является симметричной и = г;/) и положительно определенной.

Кроме того, находятся точечные оценки частных и множественных коэффициентов корреляции любого порядка (порядок определяется числом фиксированных переменных). Например, частный коэффициент корреляции - 2)-го порядка между переменными х{ и х2 равен:

где Rjt — алгебраическое дополнение элемента корреляционной матрицы R.

При этом Rji = (-1У + ',

где Mj. — минор, т.е. определитель матрицы, получаемой из матрицы R путем вычерчивания у-й строки из 1-го столбца.

Множественный коэффициент корреляции (к - 1)-го порядка результативного признака л;, определяется по формуле

где Щ — определитель матрицы R.

Значимость частных и парных коэффициентов корреляции, т.е. гипотеза Н0 : р = 0, проверяется по / - критерию Стыодеита. Наблюдаемое значение критерия находится по формуле

где г — оценка частного или парного коэффициента корреляции р;

I — порядок частного коэффициента корреляции, т.е. число фиксируемых переменных (для парного коэффициента корреляции / = 0).

Напомним, что проверяемый коэффициент корреляции считается значимым, т.е. гипотеза Н{) : р = 0 отвергается с вероятностью ошибки а, если /набл по модулю будет больше, чем значение /к0, определяемое по таблицам /-распределения для заданного аиу = и- /-2.

При определении с надежностью у доверительного интервала для значимого парного или частного коэффициента корреляции р используют Z-преобразование Фишера и предварительно устанавливают интервальную оценку для Z:

где ty вычисляют по таблице значений интегральной функции Лапласа из условия Ф(/,,) = у,. Значение Z' определяют по таблице Z-npe- образования по найденному значению г. Функция Z'— нечетная, т.е.

Обратный переход от Z к р осуществляется также по таблице Z-преобразования, после использования которой получают интервальную оценку для р с надежностью у.

Таким образом, с вероятностью у гарантируется, что генеральный коэффициент корреляции р будет находиться в интервале (rmjlI, г^).

Значимость множественного коэффициента корреляции (и его квадрата — коэффициента детерминации) проверяется по /^критерию.

Например, для множественного коэффициента корреляции pv2..... *

проверка значимости сводится к проверке гипотезы, что генеральный множественный коэффициент корреляции равен нулю, т.е. Н0 : pxil к = 0, а наблюдаемое значение статистики находится по формуле

Множественный коэффициент корреляции считается значимым, т.е. имеет место линейная статистическая зависимость между л*, и остальными переменными х2,..., хк, если FHa6jI > где Fm определяется по таблице F-распределения для заданных a, v = к - 1, v2 = п - к.

Регрессионный анализ — это статистический метод исследования зависимости результативной величины Y от объясняющих переменных (аргументов) х,- (/ = 1,2, ..., &), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения xf.

Обычно предполагается, что случайная величина Y имеет нормальный закон распределения с условным математическим ожиданием у = Ф(лг„ ..., хк), являющимся функцией от аргументов ..., хк с постоянной, не зависящей от аргументов дисперсией сг.

Для проведения регрессионного анализа из + 1)-мерной генеральной совокупности (у, х л:2, xJy ..., хк) берется выборка объемом и, и каждое /-е наблюдение (объект) характеризуется значениями переменных (yh хл, ДГ/2, xUy ..., xik), где Хц — значениеу-й переменной для y-го наблюдения (/ = 1, 2 ...п), у, — значение результативного признака дляу'-го наблюдения.

Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид

где р? — параметры регрессионной модели;

?г. — случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию а2.

Отметим, что модель справедлива для всех / = 1, 2,..., п линейна относительно неизвестных параметров Ро, Pi,..., Р„ Р* и аргументов.

Как следует из модели, коэффициент регрессии р, показывает, на какую величину в среднем изменится результативный признак у, если переменную xh увеличить на единицу при неизменных значениях остальных аргументов, т.е. является нормативным коэффициентом. В матричной форме регрессионная модель имеет вид

где Y — случайный вектор-столбец размерности (n х 1) наблюдаемых значений результативного признака

X — матрица размерности п х + 1) наблюдаемых значений аргументов, элемент матрицы х& рассматривается как неслучайная величина (/= 1,2,..., = 0, 1.....k;xi0 = 1);

р — вектор-столбец размерности (А + 1) х 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии);

е — случайный вектор-столбец размерности (п х 1) ошибок наблюдений (регрессионных остатков), компоненты вектора е, не зависимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (Л/е, = 0) и неизвестной постоянной дисперсией a2 (De., = а2).

На практике рекомендуется, чтобы значение п превышало к не менее чем в 3 раза.

В матричном виде модель регрессии

В первом столбце матрицы X указываются единицы при наличии свободного члена в модели. Здесь предполагается, что существует переменная лг0, которая во всех наблюдениях принимает значения, равные 1.

Основная задача регрессионного анализа заключается в нахождении по выборке объемом п оценки неизвестных коэффициентов регрессии ро, Pi,..., Ру, ..., р* модели, т.е. вектора р.

Так как в регрессионном анализе х, рассматривается как неслучайные величины, а Me, = 0, то уравнение регрессии имеет вид:

для всех / = 1,2,я, или в матричной форме:

где Y —вектор-столбец с элементами

Для оценки вектора-столбца р наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец Ь, который минимизирует сумму квадратов отклонений наблюдаемых значений yh от модельных значений у,-, т.е. квадратичную форму:

где символом Тобозначена транспонированная матрица.

Наблюдаемые и модельные значения результативного признака у показаны на рис. 13.2.

Наблюдаемые и модельные значения результативного признака у

Рис. 13.2. Наблюдаемые и модельные значения результативного признака у

Дифференцируя квадратичную форму О по и приравнивая частные производные к нулю, получим систему уравнений:

решая которую получим вектор-столбец оценок b, где b = (60, 6„ Ьк)т. Согласно методу наименьших квадратов, вектор-столбец оценок коэффициентов регрессии получается по формуле

где X1 — транспонированная матрица .V;

ГХ)~1 — матрица, обратная матрице ХТХ.

Зная вектор-столбец 6-оценок коэффициентов регрессии, найдем оценку у уравнения регрессии:

или в матричном виде:

где — вектор расчетных значений результативного показателя.

Оценка ковариационной матрицы вектора коэффициентов регрессии определяется выражением:

где s2 — несмещенная оценка остаточной дисперсии о2, равная:

На главной диагонали ковариационной матрицы находятся дисперсии коэффициентов регрессии:

Значимость уравнения регрессии, т.е. гипотеза Я0 : р = О, или что (р0 = Р! = ... = р* = 0), проверяется по F-критерию, наблюдаемое значение которого определяется по формуле

где

По таблице ^-распределения для заданных а и vi = к + 1, уг = л — — к— находятFKp.

Гипотеза Яи отклоняется с вероятностью а, если Янабл > FKp. Из этого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля.

Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотезы Но : р, = 0, где j = 1,2,..., к, используют /-критерий и вычисляют /набл(А) = bj /Sfy. По таблице /-распределения для заданного а и v = п - к - 1 находят /кт.

Гипотеза Я0 отвергается с вероятностью а, если j/Ha6J > t. Из этого следует, что соответствующий коэффициент регрессии р/ значим, т.е. Р/ Ф 0 и переменную х,- следует включить в модель. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. После проверки значимости коэффициентов регрессии реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначительных переменных, которой соответствует минимальное по абсолютной величине значение /на6л После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со всеми значимыми по экономическим и статистическим критериям коэффициентами.

Существуют и другие алгоритмы пошагового регрессионного анализа, например с последовательным включением факторов.

Наряду с точечными оценками bh генеральных коэффициентов регрессии р, регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью у.

Интервальная оценка с доверительной вероятностью у для параметра (Зу имеет вид:

где /а находят по таблице /-распределения при вероятности а = 1 —у и числе степеней свободы v = п-к — 1.

Интервальная оценка показывает, на какую величину в лучшем и худшем случае изменится с доверительной вероятностью у величина у, если х,- увеличить на единицу.

Интервальная оценка для уравнения регрессии у в точке, определяемой вектором-столбцом начальных условий

записывается в виде

Интервал предсказания у„., с доверительной вероятностью у определяется как

где /а определяется по таблице /-распределения при v=l hv = п-к- 1.

По мере удаления вектора начальных условий х° от вектора средних х ширина доверительного интервала при заданном значении у будет увеличиваться (рис. 13.3), где х = (1, ...9хк).

Рис. 13.3. Точечная;" и интервальная [у-5<;~<у+8] оценки уравнения регрессии ;' = р0 + pi .г

Одним из основных препятствий эффективного применения множественного регрессионного анализа является мулътиколлииеар- ность. Она связана с линейной зависимостью между аргументами х2, .... хк. В результате мультиколлинеарности матрица парных коэффициентов корреляции и матрица ХГХ становятся слабообусловлен- ными, т.е. их определители близки к нулю.

Это приводит к неустойчивости оценок коэффициентов регрессии, завышению дисперсии s2h оценок коэффициентов bh так как в их

выражения входит обратная матрица ГХ) Л, получение которой связано с делением на определитель матрицы (Х*Х). Отсюда следуют заниженные значения Кроме того, мультиколлинеарность приводит к завышению значения множественного коэффициента корреляции.

На практике о наличии мультиколлинеарности обычно судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0,8, т.е. f > 0,8, то считают, что имеет место мультиколлинеарность, и в уравнение регрессии следует включать только один из показателей — xt или д

Чтобы избавиться от этого негативного явления, обычно используют алгоритм пошагового регрессионного анализа или строят уравнение регрессии на главных компонентах.

Пример 1. Согласно данным 20 сельскохозяйственных районов (п = 20), требуется построить регрессионную модель урожайности на основе следующих показателей:

у — урожайность зерновых культур (ц/га); т, — число колесных тракторов (приведенной мощ§юсти) на 100 га; х2 — число зерноуборочных комбайнов на 100 га; х3 — число орудий поверхностной обработки почвы на 100 га; х4 — количество удобрений, расходуемых на гектар; х5 — количество химических средств оздоровления растений, расходуемых на гектар.

Исходные данные для анализа приведены в табл. 13.1.

Исходные данные для анализа

Таблица 13.1

№ п/п

У

X,

X.

К

1

9.70

1,59

0,26

2,05

0,32

0,14

2

8.40

0,34

0,28

0,46

0,59

0,66

3

9,00

2,53

0,31

2,46

0,30

0,31

4

9,90

4,63

0,40

6,44

0,43

0,59

5

9,60

2,16

0,26

2,16

0,39

0,16

б

8,60

2,16

0,30

2,69

0,32

0,17

7

12,50

0,68

0,29

0,73

0,42

0,23

8

7,60

0,35

0,26

0,42

0,21

0,08

9

6,90

0,52

0,24

0,49

0,20

0,08

10

13,50

3,42

0,31

3,02

1,37

0,73

11

9,70

1,78

0,30

3,19

0,73

0,17

12

10,70

2,40

0,32

3,30

0,25

0,14

13

12,10

9,36

0,40

11,51

0,39

0,38

14

9,70

1,72

0,28

2,26

0,82

0,17

15

7,00

0,59

0,29

0,60

0,13

0,35

16

7,20

0,28

0,26

0,30

0,09

0,15

17

8,20

1,64

0,29

1,44

0,20

0.08

18

8,40

0,09

0,22

0,05

0,43

0,20

19

13,10

0,08

0,25

0,03

0,73

0,20

20

8,70

1,36

0,26

1,17

0,99

0,42

Решение. С целью предварительного анализа взаимосвязи показателей построена матрица R.

Таблица 13.2

Парные коэффициенты корреляции

У

*2

хч

У

1,00

0,43

0,37

0,40

0,58

0,33

х,

0,43

1,00

0,85

0,98

0,11

0,34

х,

0,37

0,85

1,00

0.88

0,03

0,46

0,40

0.98

0,88

1,00

0,03

0,28

У

*2

*4

0.58

0,11

0,03

0,03

1,00

0,57

X.

0,33

0,34

0,46

0,28

0,57

1,00

Анализ матрицы парных коэффициентов корреляции показывает, что результативный признак наиболее тесно связан с показателем дг4 — количеством удобрений, расходуемых на гектар

В то же время связь между аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (л,,) и числом орудий поверхностной обработки почвы

О наличии мультиколлинеарности свидетельствуют также коэффициенты корреляции:

Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим рассчитанное на ЭВМ регрессионное уравнение урожайности, включив в него все исходные показатели:

В скобках указаны /Навя(Р/) = h— расчетные значения /-критерия для проверки гипотезы о значимости коэффициента регрессии Яи: Р, = О, j = 1, 2, 3, 4, 5. Критическое значение /кп = 1,76 найдено по таблице /-распределения при уровне значимости a = 0,1 и числе степеней свободы v = 14.

Из уравнения следует, что статистически значимым является коэффициент регрессии только при лг4, так как Не

поддаются экономической интерпретации отрицательные значения коэффициентов регрессии при хх и х5, которые свидетельствуют о том, что повышение насыщенности сельского хозяйства колесными тракторами (*,) и химическими средствами оздоровления растений (х5) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии неприемлемо.

После реализации алгоритма пошагового регрессионного анализа с исключением переменных и учетом того, что в уравнение должна войти только одна из трех тесно связанных переменных (л*ь х2 или лг3), получаем окончательное уравнение регрессии:

Уравнение значимо при а = 0,05 , так как FHa6n = 266 > FKO = 3,20, найденного по таблице F-распределения при а = 0,05, v = 3 и v = 17. Значимы и коэффициенты регрессии pi и Р4, так как |/набл| > /„,= 2,1 (при а = 0,05, v = 17). Коэффициент регрессии pi следует признать значимым (Pi ф 0) из экономических соображений; при этом /, = 2,09 лишь незначительно меньше /„, = 2,11. В случае если а = 0,1, /„, = 1,74, и коэффициент регрессии Pi статистически значим.

Из уравнения регрессии следует, что увеличение на единицу числа тракторов на 100 га пашни приводит к росту урожайности зерновых в среднем на 0,345 ц/га (/>, = 0,345).

Коэффициенты эластичности Э| = 0,068 и Э4 = 0,161

показывают, что при увеличении показателей хх и х4

на 1% урожайность зерновых повышается соответственно на 0,068% и 0,161%.

Множественный коэффициент детерминации г2 = 0,469 свидетельствует о том, что только 46,9% вариации урожайности объясняется вошедшими в модель показателями (*, и х4), т.е. насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (*2, х3, х$, погодными условиями и др.). Средняя относительная ошибка аппроксимации 5 = 10,5% свидетельствует об адекватности модели, так же как и величина остаточной дисперсии s2 = 1,97.

Статистические методы прогнозирования

Трендовые модели прогнозирования. Статистические наблюдения в социально-экономических исследованиях обычно проводятся регулярно через равные отрезки времени и представляются в виде временных рядов xt, где t = 1, 2, ..., п. В качестве инструмента статистического прогнозирования временных рядов служат трендовые регрессионные модели, параметры которых оцениваются по имеющейся статистической базе, а затем основные тенденции (тренды) экстраполируются на заданный интервал времени.

Методология статистического прогнозирования предполагает построение и испытание многих моделей для каждого временного ряда, сравнение их на основе статистических критериев и отбор наилучших из них для прогнозирования.

При моделировании сезонных явлений в статистических исследованиях различают два типа колебаний: мультипликативные и аддитивные. В мультипликативном случае размах сезонных колебаний изменяется во времени пропорционально уровню тренда и отражается в статистической модели множителем. При аддитивной сезонности предполагается, что амплитуда сезонных отклонений постоянна и не зависит от уровня тренда, а сами колебания представлены в модели слагаемым.

Основой большинства методов прогнозирования является экстраполяция, связанная с распространением закономерностей, связей и соотношений, действующих в изучаемом периоде, за его пределы или — в более широком смысле слова — это получение представлений о будущем на основе информации, относящейся к прошлому и настоящему.

Наиболее известны и широко применяются трендовые и адаптивные методы прогнозирования. Среди последних можно выделить такие, как методы авторегрессии и скользящего среднего (Бокса—Дженкинса и адаптивной фильтрации), методы экспоненциального сглаживания (модели Хольта, Брауна и экспоненциальной средней) и др.

Для оценки качества исследуемой модели прогноза используется несколько статистических критериев.

Наиболее распространенными критериями являются следующие:

Относительная ошибка аппроксимации:

где е, = х, -х, — ошибка прогноза;

х, — фактическое значение показателя; х( — прогнозируемое значение.

Данный показатель используется в случае сравнения точности прогнозов по нескольким моделям. При этом считают, что точность модели является высокой, когда 8 < 10%, хорошей — при 8 = (10 - 20)% и удовлетворительной — при 8 = (20 - 50)%.

Средняя квадратическая ошибка:

где к — число оцениваемых коэффициентов уравнения.

Наряду с точечным в практике прогнозирования широко используют интервальный прогноз. При этом доверительный интервал чаще всего задается неравенствами

где tu — табличное значение, определяемое по /-распределению Стьюдента при уровне значимости а и числе степеней свободы п - к.

В литературе представлено большое число математико-статистических моделей для адекватного описания разнообразных тенденций временных рядов.

Наиболее распространенными видами трендовых моделей кривых роста, характеризующих монотонное возрастание или убывание исследуемого явления, являются:

Правильно выбранная модель должна соответствовать характеру изменений тенденции исследуемого явления. При этом величина е, должна носить случайный характер с нулевой средней.

Кроме того, ошибки аппроксимации е( должны быть независимыми между собой и подчиняться нормальному закону распределения

ct e N(0, о). Независимость ошибок т.е. отсутствие автокорреляции

остатков, обычно проверяется по критерию Дарбина—Уотсона, основанного на статистике:

где е((х(.

Если отклонения не коррелированны, то величина DW приблизительно равна двум. При наличии положительной автокорреляции 0 < DW < 2 , а отрицательный — 2 < DW < 4 .

О коррелированности остатков можно также судить по коррело- грамме для отклонений от тренда, которая представляет собой графики функции относительно т коэффициента автокорреляции, который вычисляется по формуле

где т = 0,1,2.....

После выбора наиболее подходящей аналитической функции для тренда его используют для прогнозирования на основе экстраполяции на заданное число временных интервалов.

Рассмотрим задачу сглаживания сезонных колебаний, исходя из ряда Vt = xt-xt, где xt — значение исходного временного ряда в момент /,

а л- —оценка соответствующего значения тренда (t= 1,2,...»п).

Так как сезонные колебания представляют собой циклический, повторяющийся во времени процесс, то в качестве сглаживающих функций используется гармонический ряд (ряд Фурье) следующего вида:

Оценки параметров а. и (3, в модели определяют из выражений:

где — максимально допустимое число гармоник;

— угловая частота /-й гармоники (/ = 1,2,...,т).

Пусть т — число гармоник, используемых для сглаживания сезонных колебаний (т<А). Тогда оценка гармонического ряда имеет вид:

а расчетные значения временного ряда исходного показателя определяются по формуле

Адаптивные методы прогнозирования. При использовании трендовых моделей в прогнозировании обычно предполагается, что основные факторы и тенденции прошлого периода сохраняются на период прогноза или что можно обосновать и учесть направление из изменений в перспективе. Однако в настоящее время, когда происходит структурная перестройка экономики, социально-экономические процессы даже на макроуровне становятся очень динамичными. В этой связи исследователь часто имеет дело с новыми явлениями и с короткими временными рядами. При этом устаревшие данные при моделировании часто оказываются бесполезными и даже вредными. Таким образом, возникает необходимость строить модели, опираясь в основном на малое количество самых свежих данных, наделяя модели адаптивными свойствами.

Важную роль в деле совершенствования прогнозирования должны сыграть адаптивные методы, цель которых заключается в построении самонастраивающихся моделей, которые способны учитывать информационную ценность различных членов временного ряда и давать достаточно точные оценки будущих членов данного ряда. Адаптивные модели гибки, однако на их универсальность, пригодность для любого временного ряда рассчитывать не приходится.

При построении конкретных моделей необходимо учитывать наиболее вероятные закономерности развития реального процесса. Исследователь должен закладывать в модель только те адаптивные свойства, которые необходимы для слежения за реальным процессом с заданной точностью.

В основе адаптивного направления лежит простейшая модель экспоненциального сглаживания, обобщение которой привело к появлению целого семейства адаптивных моделей. Простейшая адаптивная модель основывается на вычислении экспоненциально взвешенной скользящей средней.

Экспоненциальное сглаживание исходного временного ряда xt осуществляется по рекуррентной формуле

где S, — значение экспоненциальной средней в момент /;

5,|— в момент/-!;

а — параметр сглаживания, адаптации.

Выражение экспоненциальной средней можно представить в виде:

В этой формуле экспоненциальная средняя в момент t выражена как сумма экспоненциальной средней предшествующего момента 5,_, и доли а отклонения текущего наблюдения xt от экспоненциальной средней момента / - 1.

Последовательно используя рекуррентное соотношение, можно выразить экспоненциальную среднюю S, через все предшествующие значения временного ряда:

где Sa — величина, характеризующая начальные условия для первого применения формулы средней, при /=1.

Так как

Отсюда следует, что

т.е. величина S, оказывается взвешенной суммой всех членов ряда. При этом веса изменяются экспоненциально в зависимости от давности наблюдения, откуда и название St — экспоненциальная средняя.

Из последней формулы следует, что увеличение веса более свежих наблюдений может быть достигнуто повышением а.. В то же время для сглаживания случайных колебаний временного ряда х, величину а нужно уменьшить. Два названных требования находятся в противоречии и на практике при выборе а исходят из компромиссного решения.

Экспоненциальное сглаживание является простейшим видом самообучающейся модели с параметром адаптации а . Разработано несколько вариантов адаптивных моделей, которые используют процедуру экспоненциального сглаживания и позволяют учесть наличие у временного ряда х, тенденций и сезонных колебаний. Рассмотрим некоторые из таких моделей.

Адаптивная полиномиальная модель первого порядка. Рассмотрим алгоритм экспоненциального сглаживания, предполагающий наличие у временного ряда xt линейного тренда. В основе модели лежит гипотеза о том, что прогноз может быть получен по уравнению

где .?.(/) — прогнозируемое значение временного ряда на момент (/ + т);

airxa2( — оценки адаптивных коэффициентов полинома первого порядка в момент /; т — величина упреждения.

Экспоненциальные средние 1-го и 2-го порядка для модели имеют вид

где (5= 1 , а оценка модельного значения ряда с периодом упреждения т равна

Для определения начальных условий первоначально по данным временного ряда находим методом наименьших квадратов оценки линейного тренда:

и принимаем Тогда начальные условия определяются как:

ЗАДАЧИ И УПРАЖНЕНИЯ

1. В таблице 13.3 представлены темпы прироста (%) следующих макроэкономических показателей десяти развитых стран мира: ВНП (*,), промышленного производства (д2), индекса цеп (д3) и доли безработных (д4).

Таблица 13.3

Страна

К

х*

хл

Япония

3.5

4,3

2,1

2,3

США

3,1

4,6

3,9

6,3

Германия

2,2

2,0

3,4

5,1

Франция

2,7

3,1

2,9

9,7

Италия

2,7

3,0

5,6

11,1

Великобритания

1,6

1,4

4,0

9,5

Канада

3,1

3,4

3,0

10,0

Австралия

1,8

2,6

4,0

2,6

Бельгия

2,3

2,6

3,4

8,9

Нидерланды

2,3

2,4

3,5

6,4

Требуется:

  • 1) найти оценку коэффициента корреляции между темпами прироста ВНП (д,) и промышленного производства (д2), при а = 0,05 проверить его значимость, а при у= 0,923 найти его интервальную оценку;
  • 2) оценить тесноту связи между д, и д3, при а = 0,05 проверить значимость коэффициента корреляции между этими показателями, а при у= 0,857 найти интервальную оценку для ри;
  • 3) найти точечную и интервальную оценку коэффициента корреляции д2 по д3, приняв у = 0,95;
  • 4) определить долю дисперсии д2, обусловленную влиянием д4;
  • 5) при а - 0,05 проверить значимость, а при у = 0,888 найти интервальную оценку коэффициента корреляции между д3 и д4.
  • 2. При исследовании взаимосвязи цен на следующие виды продовольственных товаров: говядина (Д|), растительное масло (д2), сахар- песок (д3) и хлеб белый в/с (д4) в п = 22 городах Центрального района России получена матрица парных коэффициентов корреляции:

Для трехмерной совокупностиxl9 х2 истребуется:

  • 1) построить матрицу парных коэффициентов корреляции;
  • 2) при а = 0,1 проверить значимость частного коэффициента корреляции рЩ4) и найти его интервальную оценку при у = 0,954. Сравнить полученные результаты.

Как влияет показатель хА на тесноту связи между х, и х2?

  • 3) при а = 0,05 проверить значимость множественного коэффициента корреляции /?4
  • 3. По данным задачи 1.5 для трехмерной совокупности х2, С? *4 требуется:
  • 1) построить матрицу парных коэффициентов корреляции R;
  • 2) при а = 0,01 проверить значимость частного коэффициента корреляции /э2з<4) и найти его интервальную оценку при у = 0,9. Сравнить полученные результаты. Как влияет показатель х4 на тесноту связи между Л'з и х2?
  • 3) при (У.=0,05 проверить значимость множественного коэффициента корреляции /?2(3 4>. Дайте интерпретацию г,2(34).
  • 4. На основании данных о динамике темпов прироста курса акций за 5 месяцев, приведенных в табл. 13.4.

Таблица 13.4

Месяц (х)

0

1

2

3

4

__

10

8

5

3

4

и предположения, что генеральное уравнение регрессии имеет вид у — Р0 4-Pjjf, требуется:

  • 1) определить оценки Ъ0 и 6, параметров уравнения регрессии и остаточной дисперсии s2;
  • 2) проверить при а = 0,01 значимость коэффициента регрессии, т.е. гипотезы Н0: р, = 0;
  • 3) с надежностью у= 0,95 найти интервальные оценки параметров Ро и р,;
  • 4) с надежностью у = 0,9 установить интервальную оценку условного математического ожидания у при х0 = 4;
  • 5) определить при у = 0,9 доверительный интервал предсказания уп+] в точке х = 5.
  • 5. Себестоимость (у) одного экземпляра книги в зависимости от тиража (х) (тыс. экз.) характеризуется данными, собранными издательством (табл. 13.5). Определить МНК-оценки Ь0 и Ь} параметров уравнения регрессии гиперболического вида у = Р0+Р, —, с надежностью

х

у = 0,9 построить доверительные интервалы для параметров р0 и р,, а также условного математического ожидания у при х = 10.

Таблица 13.5

Тираж (х), тыс. экз.

1

2

3

5

10

20

30

50

Себестоимость (у)

9.10

5,30

4,11

2,83

2,11

1,62

1,41

1,30

6. В таблице 13.6 представлены данные о темпах прироста (%) следующих макроэкономических показателей п = 10 развитых стран мира за 1992 г. : ВНП —х19 промышленного производства —х2, индекса цен —ху

Таблица 13.6

Страна

х

х,

Япония

3,5

4,3

2,1

США

3,1

4,6

3,9

Германия

2,2

2,0

3,4

Франция

2,7

3,1

2,9

Италия

2,7

3,0

5,6

Великобритания

1.6

1,4

4,0

Канада

3,1

3,4

3,0

Австралия

1,8

2,6

4.0

Бельгия

2,3

2,6

3,4

Нидерланды

2,3

2,4

3,5

Примем за объясняемую величину (у) показатель хь а за объясняющую (х) переменную х2 и предположим, что уравнение регрессии имеет вид:

Требуется:

  • 1) определить (с учетом линеаризации уравнения) МНК-оценки Ьо и Ь, параметров уравнения регрессии, оценку s2 остаточной дисперсии;
  • 2) проверить при а = 0,05 значимость коэффициента регрессии, т.е. Н„: р, = 0;
  • 3) с надежностью у = 0,9 найти интервальные оценки р0и р,;
  • 4) найти при у = 0,95 доверительный интервал для у в точке х0 = = xh где / = 5;
  • 5) сравнить статистические характеристики уравнений регрессий: 1, 2 и 3.
  • 7. Задачу 6 решить, приняв за объясняемую величину (у) показатель хь а за объясняющую (х) переменнуюх3.
  • 8. В таблице 13.7 представлены следующие макроэкономические показателя США за 10 лет: ВНП (х,) в млрд дол.; доля безработных (х2) в %; индекс цен (х3) в %; объем экспорта (х4) в млрд дол. и объем импорта (х5) в млрд дол.

Для показателя ВНП (х,) требуется:

1) найти (с учетом линеаризации уравнения) МНК-оценку тренда, который определяется уравнением вида:

  • 2) проверить при а = 0,05 гипотезу Н0: Pi = 0 и дать экономическую интерпретацию коэффициенту регрессии;
  • 3) рассчитать и сравнить статистические характеристики трендов: s2; 8 и DW.

Таблица 13.7

t

х,

х,

X,

х.

1

3724

9,5

120,9

200,3

261,3

2

3974

7,4

126,1

219,9

346,4

3

4205

7,1

130,6

215,9

352,5

4

4497

6,9

133,0

224,0

382,3

t

х.

X,

X,

X,

5

4817

6,1

137,9

250,9

424,4

б

4949

5.4

143,6

319,7

459,5

7

5072

5,2

150,5

360,5

475,3

8

5118

5,4

158,6

389,3

498,0

9

5108

6,6

165,3

405,0

484,0

10

5266

7,3

170,3

443,0

524,0

  • 9. Задачу 8 решить для показателя х2 — доля безработных (в %).
  • 10. Задачу 8 решить для показателя х3 — индекс цеп (в %).
  • 11. Задачу 8 решить для показателя х4 — объем экспорта (в млрд

ДОЛ.).

12. В таблице 13.8 представлены данные по месяцам 2004 г. о числе заключенных в регионе браков х,.

Таблица 13.8

t

1

2

3

4

5

6

7

8

9

10

11

12

181

174

170

164

165

178

176

177

166

165

163

179

Требуется:

1) найти (с учетом линеаризации уравнения) МНК-оценку уравнения регрессии вида

где — угловая частота;

  • б) 0;
  • в) 0,4;
  • г) 1,3?
  • 2. Известно, что х3 усиливает связь между величинами х{ и х2. По результатам наблюдений получен частный коэффициент корреляции г12(3) = -0,45. Какое значение может принять парный коэффициент

корреляции г12:

  • а) 0,4;
  • б) 0,2;
  • в) -0,8;
  • г) 1,2?
  • 3. Множественный коэффициент корреляции г1(23)=0,8. Определите, какой процент дисперсии величины .т, объясняется влиянием
  • *2 и *3:
    • а) 28%;
    • б) 32%;
    • в) 64%;
    • г) 80%.
    • 4. Что минимизируется согласно методу наименьших квадратов:

5. Дана ковариационная матрица вектора

Чему равна оценка дисперсии элемента Ь2 вектора Ь, т.е.

  • а) 5,52;
  • б) 0,04;
  • в) 0,01;
  • г) 2,21?
  • 6. Уравнению регрессии у = 2,88-0,72.v, -1,51л соответствует множественный коэффициент корреляции rv(12) = 0,84. Какая доля

вариации результативного показателя у (в %) объясняется входящими в уравнение регрессии переменными х, и х2:

  • а) 70,6;
  • б) 16,0;
  • в) 84,0;
  • г) 29,4?

КОНТРОЛЬНЫЕ ВОПРОСЫ

  • 1. Что характеризует парный, частный и множественный коэффициенты корреляции? Сформулируйте их основные свойства.
  • 2. Какие задачи решаются методами регрессионного анализа?
  • 3. В чем состоят отрицательные последствия мультиколлинеарности и как можно избавиться от этого негативного явления?
  • 4. Что характеризуют коэффициенты регрессии в линейной и степенной моделях?
  • 5. Как проверяется значимость уравнения регрессии и коэффициентов регрессии?
  • 6. Какие модели прогнозирования вы знаете и каковы их особенности?
  • 7. В чем состоит статистический подход к прогнозированию, моделированию тенденций и сезонных явлений в статистических исследованиях?
  • 8. Какие трендовые модели вам известны и как оценивается их качество?
  • 9. В чем особенность адаптивных методов прогнозирования?
  • 10. Каким образом осуществляется экспоненциальное сглаживание временного ряда?

ЛИТЕРАТУРА

Айвазян С.А. Мхитарян В.С. Прикладная статистика и основы эконометрики : в 2 т. М : ЮНИТИ, 2001

Статистика : учебник / под ред. В.С. Мхитаряна. М. : Экономика, 2003.

Теория статистики : учебник / под ред. Р.А. Шмойловой. М. : Финансы и статистика, 2007.

 
< Пред   СОДЕРЖАНИЕ