Разработка требований и методологических подходов к осуществлению актуарием проверки исходной информации на полноту, внутреннюю непротиворечивость, точность и актуальность

Теоретико-методологические аспекты оценки качества информации

Важным элементом деятельности ПФР является организация и проведение актуарных расчетов. Согласно законодательству, актуарная деятельность заключается в анализе и количественной, финансовой оценке рисков и обусловленных наличием рисков финансовых обязательств, а также разработке и оценке эффективности методов управления финансовыми рисками. Наряду с актуарной моделью и наличием методологического инструментария анализа, наличие качественной информации, является одним из основных условий получения достоверных и востребованных для практики результатов актуарных расчетов. В тоже время следует отличать последствия использования информации низкого качества от последствий применения актуарной модели низкого качества. Если модель не отражает сущность рассматриваемых социально-экономических процессов и имеет низкую прогностическую способность, то значимость результаты актуарных расчетов не может быть повышена только за счет улучшения качества исходной информации.

Зачастую при исследовании вопросов качества информации используют взаимозаменяемые термины «данные» и «информация». Как правило, данные подразумевают собой совокупность зафиксированных определенным образом сведений, пригодных для преобразования и обработки. В результате таких процедур осуществляется преобразование данных в информацию. Информацией являются сведения, возникшие при анализе данных для решения конкретных задач. Таким образом, при проведении актуарного оценивания корректнее говорить о применении исходных данных и исследовании качества данных, которые в результате будут трансформироваться в требуемую для оценивания информацию.

Согласно исследованию GIRO (General Insurance Research Organising Committee), около четверти трудозатрат актуариев занимают вопросы оценки и повышения качества данных [Campbell 2006]. Известный международный эксперт в области организации актуарной деятельности Л.А. Френсис, в своем исследовании отмечает, что порядка

  • 80% трудозатрат в актуарных расчетах по анализу крупномасштабных моделей затрачивается на решение вопросов, связанных с качеством информации [Francis 2005]. В настоящее время выделяют следующие особенности актуарной деятельности по работе с данными:
    • - работа с данными на микроуровне. Согласно исследованию Девида Лайдлера современные возможности вычислительных машин, хранения и обработки данных, а также сбор данных приводят к тому, что актуарии имеют возможность работать с моделями, подразумевающими использование микро-данных (данных по отдельным индивидам), а не абстрактно-агрегированными моделями, предполагающими использование обобщающих характеристик конечных объектов исследования [Laidler 2015];
    • - доступность новых технологий работы информации. Благодаря развитию статистических и эконометрических методов обработки и анализа данных, Автоматизация логических и алгоритмических инструментов анализа данных позволяет сократить трудозатраты на анализ качества данных, сократить вероятность ошибок при актуарном оценивании. Кроме того, совершенствуются способы формирования, хранения и передачи данных;
    • - повышение уровня знаний актуариев. Современные программы подготовки и сертификации актуариев делают упор на высоких требованиях к умению исследования и обработки информации, в том числе продвинутые численные и статистические методы [Frees 2015]. Введенная во многих странах мира обязательная аттестация специалистов, занимающихся актуарными расчетами, позволяет расширить применение лучших стандартов и практик актуарного оценивания.

Данные отражают зафиксированные наблюдения, факты, результаты расчетов в форме, приемлемой для обработки, анализа и интерпретации. Данные могут не соответствовать требованиям потребителя и содержать не соответствующую исходному определению (описанию) информацию или некорректное отражение действительности. Таким образом, качество используемых данных, определяемое как их способность соответствовать требованиям потребителя, может иметь как количественные, так и качественные характеристики. Из-за большого разнообразия возможных взаимосвязей значимости результатов, затрат по формированию и поиску данных, способам организации хранения, индивидуальных особенностей потребностей потребителей в науке и практике не сложилось универсальной категоризации оценок качества данных. В каждом конкретном случае формализация уровня качества данных носит субъективный характер. Как правило, выделяют четыре уровня оценки качества данных:

Высокое (точное) качество - данные содержат сведения, полностью отражающие поведение и характеристики исследуемого объекта, и могут быть использованы без ограничений,

Приемлемое качество - данные содержат сведения, имеющие отклонения и несоответствия, которые, однако, не оказывают критического влияния на результаты решения задач;

Низкое качество - данные содержат сведения, имеющие отклонения и несоответствия, которые оказывают критическое влияние на результаты решения задач, и могут быть использованы только в ограниченных случаях;

Неприемлемое качество - данные содержат сведения, некорректно отражающие поведение и характеристики исследуемого объекта.

Суть проблемы определения качества данных для целей актуарного исследования заключается в том, что на социально- экономические процессы в обществе оказывает влияние множество объективных и субъективных, случайных и неслучайных факторов формального и неформального характера. В их числе:

  • - адекватность используемого определения для отражения того или иного процесса или явления;
  • - возможные искажения в процессе сбора и агрегирования данных;
  • - степень корректности и четкости в запросе потребителя на получение информации определенной тематики и заданного его смыслового содержания;
  • - различные условия и обстоятельства применения полученных данных в разных областях деятельности человека (научной, технической, производственно-технологической, социальной, образовательной и т. п.).

Важное место в иерархии факторов качества информации занимают субъективные фактора, как степень подготовленности потребителя к рациональному использованию полученной информации, его оценка важности, значимости и целесообразности применения данных и величину получаемого эффекта от применения исходных данных.

Для получения значимых результатов актуарные оценки должны производиться с использованием данных высокого качества. Актуарная модель отражает механизм образования и расходования средств страхового фонда. Следствием использования качественной таких данных является точное прогнозирование входящих и исходящих денежных потоков, прогнозируемого уровня доходности инвестирования, а, следовательно, ставки взносов и ожидаемый уровень пенсионного обеспечения. Таким образом, качество используемых в актуарных расчетах данных непосредственно отражается на социально- экономической ситуации в стране и является чувствительным вопросом социальной политики государства.

Между тем, проблема получения данных высокого качества осложняется не только высоким уровнем расходов на их сбор и обработку, но и невозможностью точно оценить причинно-следственные связи и взаимосвязи между различными социально-экономическими показателями в динамике. Однако, незначительные отклонения исходных данных от их фактического значения могут не оказывать значимого влияния на получаемые оценки и такие данные могут использоваться в актуарных расчетах. Как правило, выделяют следующие качественные характеристики информации:

Полнота - информацию можно считать полной, когда она содержит минимальный, но достаточный для принятия правильного решения набор показателей. Как неполная, так и избыточная информация снижает эффективность принимаемых на основании информации решений;

Точность — верность информации, не вызывающая сомнений. Точная информация может быть как объективной, так и субъективной. Причинами недостоверности могут быть: преднамеренное искажение (дезинформация); непреднамеренное искажение субъективного свойства; искажение в результате воздействия помех; ошибки фиксации информации;

Внутренняя непротиворечивость - степень соответствия смысла реально полученной информации его ожидаемому содержимому. Неприемлемость противоречивых данных заключается в невозможности адекватного сопоставления данных объективной картине мира.

Актуальность — соответствие информации рассматриваемому моменту времени и пригодность к использованию для решения поставленной задачи.

В актуарной модели предполагается использование большого набора различных показателей. Большинство из этих данных привлекается извне, а не собирается актуарием вручную и не контролируется этот процесс актуарием. В каждом конкретном разделе работают люди со специфическими навыками. В связи с этим могут отображать неточный смысл. Если еще и разделение труда, то ошибка одного исполнителя может усиливаться ошибкой другого исполнителя, который использовал эти данные.

Можно выделить следующие этапы возникновения ошибок:

  • 1. Требования к данным. На этом этапе актуарием формулируются требования к данным, элементы данных, сущность, которую они отражают. Выбор точности. Соответственно, требования могут привести к некорректному выбору требуемого показателя, спецификация данных, а также несовпадение сроков или других условий
  • 2. Сбор данных. На этапе формируется стратегия сбора данных, объем и характеристики выборки. Его могут выполнять как актуарии, так и привлеченные эксперты. Соответственно, возможна не- репрезентативность выборки, ее несоответствие установленным критериям, а также ошибки ввода данных.
  • 3. Обработка и систематизация данных. Представление данных в требуемой форме и уровне агрегации. Возможны пропущенные значения, дублирующие записи, ошибки расположения
  • 4. Анализ данных. Извлечение необходимой информации из имеющихся данных. Выполняется актуарием. Несоответствие данных модели, цензурирование, ошибки расчетов.
  • 5. Принятие решений. Интерпретация полученных данных, учет ошибок и вероятностных характеристик данных.

В настоящее время разработано большое количество автоматизированных программ оценки качества информации, которые включают в себя мощные возможности анализа, профилирования, разбора и очистки данных, позволяющие осуществлять проверку и стандартизацию данных, улучшать и корректировать любые типы данных. Как правило, программы представляют собой набор вероятностных методов для проведения сравнения данных, опирающийся на фонетические и синтаксические особенности написания. Такие решения позволяют идентифицировать, сравнивать, анализировать и стандартизировать текстовые и числовые данные произвольной формы с помощью легко настраиваемых процедур, что в значительной степени помогает автоматизировать процессы очистки и трансформации данных. В некоторых случаях поиск, сравнение и идентификация осуществляются путем использования «нечеткой» логики. При этом работа по оценке качества данных может осуществляться по запросу, по расписанию или в режиме реального времени.

В международной практике по оценке качества информации выделяются следующие теоретико-методологические концепции:

Data Profiling - Анализ данных на предмет ошибок, несогласованности, избыточностей неполноты информации;

Data Quality - Исправление, стандартизация и верификация данных;

Data Integration - Сопоставление, объединение или связывание данных из разрозненных источников;

Data Enrichment - Обогащение данных с использованием внешних и внутренних источников;

Data Monitoring - Регулярная проверка и контроль целостности данных.

Две стратегии - очистка данных и реинжиниринг. (Первая - исправить, переформатировать, стандартизировать данные. Вторая - выявить причины плохих данных и изменить процесс).

Правила:

  • - данные должны соответствовать назначению;
  • - данные должны браться из проверенных и авторитетных источников;
  • - общие элементы данных должны иметь одинаковое понятие и сущность, измеряемы;
  • - данные должны заводится только один раз и редактироваться на том этапе;
  • - данные должны храниться в отдельной информационной

базе;

- доступ должен быть ограничен к исходному, нельзя вносить изменения;

Важные шаги политики информационного качества;

  • - анализ для выяснения выбросов и объяснения структуры данных;
  • - разработка системы предупреждения ошибок;
  • - измерение уровня ошибок.

Количественными данными являются целые числа или числа с плавающей запятой, позволяющие оценить количество. Количественные данные могут состоять из простых наборов чисел, или сложных массивов данных в нескольких измерениях, охватывающих временные ряды. Количественные данные обычно базируются на единицах измерения, которые должны быть представлены в виде единообразных данных, значимых и имеющих смысл для анализа; выбор единиц измерения (особенно это касается волатильных единиц, таких как валюты) часто может быть затруднительным. Статистические методы для обнаружения выпадающих значений являются основой для способов фильтрации данных в данной области: они пытаются выявить точки, значение функции в которых сильно отличается от значений рассматриваемой функции в близлежащих точках. В последние годы эта область развилась до новейшей области интеллектуального анализа данных, которая относится к развитым статистическим методам, являющимся эффективными при обработке больших массивов данных.

Характеристикой данных являются имена и коды, которые используются для разделения данных на категории или группы. В отличие от количественных признаков, качественные признаки обычно не имеют естественного упорядочения и различий в значениях, которые присущи количественному определению выпадающих значений. Одной из ключевых задач, связанной с фильтрацией качественных значений, является приведение имен, относящихся к различным категориям, к единой области имен: например, «бритва» в одном наборе данных может иметь свое исходное название «бритва», а в другом относиться в расширенной категории «гигиена». Следующая проблема заключается в обнаружении ошибочной категоризации данных, зачастую связанной с взаимосвязью значений с «лексикой» известных категорий и выявлением значений, не входящий в данную группу слов [Raman and Hellers- tein, 2001]. Существует еще одна проблема, которая связана с устранением ошибок при вводе данных (например, грамматические ошибки и опечатки), которые часто возникают в результате текстового кодирования. Существует множество различных методов для исправления ошибок и опечаток, которые часто адаптируют слова с учетом специализированных областей, языков и лексики [Gravano et al., 2003].

Подводя итог анализу теоретико-методологических аспектов оценки качества информации можно отметить следующее:

  • - порядка 80% трудозатрат в актуарных расчетах по анализу крупномасштабных моделей затрачивается на решение вопросов, связанных с качеством информации;
  • - проблема получения данных высокого качества осложняется не только высоким уровнем расходов на их сбор и обработку, но и невозможностью точно оценить причинно-следственные связи и взаимосвязи между различными социально-экономическими показателями в динамике;
  • - большинство используемых в актуарной модели данных привлекается извне, а не собирается актуарием вручную и не контролируется этот процесс актуарием. В каждом конкретном разделе работают люди со специфическими навыками, что влечет за собой возможность отображать неточный смысл данных. В результате ошибка одного исполнителя может усиливаться ошибкой другого исполнителя, который использовал эти данные.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >