Разработка требований и методологических подходов к осуществлению актуарием проверки исходной информации на полноту, внутреннюю непротиворечивость, точность и актуальность
Теоретико-методологические аспекты оценки качества информации
Важным элементом деятельности ПФР является организация и проведение актуарных расчетов. Согласно законодательству, актуарная деятельность заключается в анализе и количественной, финансовой оценке рисков и обусловленных наличием рисков финансовых обязательств, а также разработке и оценке эффективности методов управления финансовыми рисками. Наряду с актуарной моделью и наличием методологического инструментария анализа, наличие качественной информации, является одним из основных условий получения достоверных и востребованных для практики результатов актуарных расчетов. В тоже время следует отличать последствия использования информации низкого качества от последствий применения актуарной модели низкого качества. Если модель не отражает сущность рассматриваемых социально-экономических процессов и имеет низкую прогностическую способность, то значимость результаты актуарных расчетов не может быть повышена только за счет улучшения качества исходной информации.
Зачастую при исследовании вопросов качества информации используют взаимозаменяемые термины «данные» и «информация». Как правило, данные подразумевают собой совокупность зафиксированных определенным образом сведений, пригодных для преобразования и обработки. В результате таких процедур осуществляется преобразование данных в информацию. Информацией являются сведения, возникшие при анализе данных для решения конкретных задач. Таким образом, при проведении актуарного оценивания корректнее говорить о применении исходных данных и исследовании качества данных, которые в результате будут трансформироваться в требуемую для оценивания информацию.
Согласно исследованию GIRO (General Insurance Research Organising Committee), около четверти трудозатрат актуариев занимают вопросы оценки и повышения качества данных [Campbell 2006]. Известный международный эксперт в области организации актуарной деятельности Л.А. Френсис, в своем исследовании отмечает, что порядка
- 80% трудозатрат в актуарных расчетах по анализу крупномасштабных моделей затрачивается на решение вопросов, связанных с качеством информации [Francis 2005]. В настоящее время выделяют следующие особенности актуарной деятельности по работе с данными:
- - работа с данными на микроуровне. Согласно исследованию Девида Лайдлера современные возможности вычислительных машин, хранения и обработки данных, а также сбор данных приводят к тому, что актуарии имеют возможность работать с моделями, подразумевающими использование микро-данных (данных по отдельным индивидам), а не абстрактно-агрегированными моделями, предполагающими использование обобщающих характеристик конечных объектов исследования [Laidler 2015];
- - доступность новых технологий работы информации. Благодаря развитию статистических и эконометрических методов обработки и анализа данных, Автоматизация логических и алгоритмических инструментов анализа данных позволяет сократить трудозатраты на анализ качества данных, сократить вероятность ошибок при актуарном оценивании. Кроме того, совершенствуются способы формирования, хранения и передачи данных;
- - повышение уровня знаний актуариев. Современные программы подготовки и сертификации актуариев делают упор на высоких требованиях к умению исследования и обработки информации, в том числе продвинутые численные и статистические методы [Frees 2015]. Введенная во многих странах мира обязательная аттестация специалистов, занимающихся актуарными расчетами, позволяет расширить применение лучших стандартов и практик актуарного оценивания.
Данные отражают зафиксированные наблюдения, факты, результаты расчетов в форме, приемлемой для обработки, анализа и интерпретации. Данные могут не соответствовать требованиям потребителя и содержать не соответствующую исходному определению (описанию) информацию или некорректное отражение действительности. Таким образом, качество используемых данных, определяемое как их способность соответствовать требованиям потребителя, может иметь как количественные, так и качественные характеристики. Из-за большого разнообразия возможных взаимосвязей значимости результатов, затрат по формированию и поиску данных, способам организации хранения, индивидуальных особенностей потребностей потребителей в науке и практике не сложилось универсальной категоризации оценок качества данных. В каждом конкретном случае формализация уровня качества данных носит субъективный характер. Как правило, выделяют четыре уровня оценки качества данных:
Высокое (точное) качество - данные содержат сведения, полностью отражающие поведение и характеристики исследуемого объекта, и могут быть использованы без ограничений,
Приемлемое качество - данные содержат сведения, имеющие отклонения и несоответствия, которые, однако, не оказывают критического влияния на результаты решения задач;
Низкое качество - данные содержат сведения, имеющие отклонения и несоответствия, которые оказывают критическое влияние на результаты решения задач, и могут быть использованы только в ограниченных случаях;
Неприемлемое качество - данные содержат сведения, некорректно отражающие поведение и характеристики исследуемого объекта.
Суть проблемы определения качества данных для целей актуарного исследования заключается в том, что на социально- экономические процессы в обществе оказывает влияние множество объективных и субъективных, случайных и неслучайных факторов формального и неформального характера. В их числе:
- - адекватность используемого определения для отражения того или иного процесса или явления;
- - возможные искажения в процессе сбора и агрегирования данных;
- - степень корректности и четкости в запросе потребителя на получение информации определенной тематики и заданного его смыслового содержания;
- - различные условия и обстоятельства применения полученных данных в разных областях деятельности человека (научной, технической, производственно-технологической, социальной, образовательной и т. п.).
Важное место в иерархии факторов качества информации занимают субъективные фактора, как степень подготовленности потребителя к рациональному использованию полученной информации, его оценка важности, значимости и целесообразности применения данных и величину получаемого эффекта от применения исходных данных.
Для получения значимых результатов актуарные оценки должны производиться с использованием данных высокого качества. Актуарная модель отражает механизм образования и расходования средств страхового фонда. Следствием использования качественной таких данных является точное прогнозирование входящих и исходящих денежных потоков, прогнозируемого уровня доходности инвестирования, а, следовательно, ставки взносов и ожидаемый уровень пенсионного обеспечения. Таким образом, качество используемых в актуарных расчетах данных непосредственно отражается на социально- экономической ситуации в стране и является чувствительным вопросом социальной политики государства.
Между тем, проблема получения данных высокого качества осложняется не только высоким уровнем расходов на их сбор и обработку, но и невозможностью точно оценить причинно-следственные связи и взаимосвязи между различными социально-экономическими показателями в динамике. Однако, незначительные отклонения исходных данных от их фактического значения могут не оказывать значимого влияния на получаемые оценки и такие данные могут использоваться в актуарных расчетах. Как правило, выделяют следующие качественные характеристики информации:
Полнота - информацию можно считать полной, когда она содержит минимальный, но достаточный для принятия правильного решения набор показателей. Как неполная, так и избыточная информация снижает эффективность принимаемых на основании информации решений;
Точность — верность информации, не вызывающая сомнений. Точная информация может быть как объективной, так и субъективной. Причинами недостоверности могут быть: преднамеренное искажение (дезинформация); непреднамеренное искажение субъективного свойства; искажение в результате воздействия помех; ошибки фиксации информации;
Внутренняя непротиворечивость - степень соответствия смысла реально полученной информации его ожидаемому содержимому. Неприемлемость противоречивых данных заключается в невозможности адекватного сопоставления данных объективной картине мира.
Актуальность — соответствие информации рассматриваемому моменту времени и пригодность к использованию для решения поставленной задачи.
В актуарной модели предполагается использование большого набора различных показателей. Большинство из этих данных привлекается извне, а не собирается актуарием вручную и не контролируется этот процесс актуарием. В каждом конкретном разделе работают люди со специфическими навыками. В связи с этим могут отображать неточный смысл. Если еще и разделение труда, то ошибка одного исполнителя может усиливаться ошибкой другого исполнителя, который использовал эти данные.
Можно выделить следующие этапы возникновения ошибок:
- 1. Требования к данным. На этом этапе актуарием формулируются требования к данным, элементы данных, сущность, которую они отражают. Выбор точности. Соответственно, требования могут привести к некорректному выбору требуемого показателя, спецификация данных, а также несовпадение сроков или других условий
- 2. Сбор данных. На этапе формируется стратегия сбора данных, объем и характеристики выборки. Его могут выполнять как актуарии, так и привлеченные эксперты. Соответственно, возможна не- репрезентативность выборки, ее несоответствие установленным критериям, а также ошибки ввода данных.
- 3. Обработка и систематизация данных. Представление данных в требуемой форме и уровне агрегации. Возможны пропущенные значения, дублирующие записи, ошибки расположения
- 4. Анализ данных. Извлечение необходимой информации из имеющихся данных. Выполняется актуарием. Несоответствие данных модели, цензурирование, ошибки расчетов.
- 5. Принятие решений. Интерпретация полученных данных, учет ошибок и вероятностных характеристик данных.
В настоящее время разработано большое количество автоматизированных программ оценки качества информации, которые включают в себя мощные возможности анализа, профилирования, разбора и очистки данных, позволяющие осуществлять проверку и стандартизацию данных, улучшать и корректировать любые типы данных. Как правило, программы представляют собой набор вероятностных методов для проведения сравнения данных, опирающийся на фонетические и синтаксические особенности написания. Такие решения позволяют идентифицировать, сравнивать, анализировать и стандартизировать текстовые и числовые данные произвольной формы с помощью легко настраиваемых процедур, что в значительной степени помогает автоматизировать процессы очистки и трансформации данных. В некоторых случаях поиск, сравнение и идентификация осуществляются путем использования «нечеткой» логики. При этом работа по оценке качества данных может осуществляться по запросу, по расписанию или в режиме реального времени.
В международной практике по оценке качества информации выделяются следующие теоретико-методологические концепции:
Data Profiling - Анализ данных на предмет ошибок, несогласованности, избыточностей неполноты информации;
Data Quality - Исправление, стандартизация и верификация данных;
Data Integration - Сопоставление, объединение или связывание данных из разрозненных источников;
Data Enrichment - Обогащение данных с использованием внешних и внутренних источников;
Data Monitoring - Регулярная проверка и контроль целостности данных.
Две стратегии - очистка данных и реинжиниринг. (Первая - исправить, переформатировать, стандартизировать данные. Вторая - выявить причины плохих данных и изменить процесс).
Правила:
- - данные должны соответствовать назначению;
- - данные должны браться из проверенных и авторитетных источников;
- - общие элементы данных должны иметь одинаковое понятие и сущность, измеряемы;
- - данные должны заводится только один раз и редактироваться на том этапе;
- - данные должны храниться в отдельной информационной
базе;
- доступ должен быть ограничен к исходному, нельзя вносить изменения;
Важные шаги политики информационного качества;
- - анализ для выяснения выбросов и объяснения структуры данных;
- - разработка системы предупреждения ошибок;
- - измерение уровня ошибок.
Количественными данными являются целые числа или числа с плавающей запятой, позволяющие оценить количество. Количественные данные могут состоять из простых наборов чисел, или сложных массивов данных в нескольких измерениях, охватывающих временные ряды. Количественные данные обычно базируются на единицах измерения, которые должны быть представлены в виде единообразных данных, значимых и имеющих смысл для анализа; выбор единиц измерения (особенно это касается волатильных единиц, таких как валюты) часто может быть затруднительным. Статистические методы для обнаружения выпадающих значений являются основой для способов фильтрации данных в данной области: они пытаются выявить точки, значение функции в которых сильно отличается от значений рассматриваемой функции в близлежащих точках. В последние годы эта область развилась до новейшей области интеллектуального анализа данных, которая относится к развитым статистическим методам, являющимся эффективными при обработке больших массивов данных.
Характеристикой данных являются имена и коды, которые используются для разделения данных на категории или группы. В отличие от количественных признаков, качественные признаки обычно не имеют естественного упорядочения и различий в значениях, которые присущи количественному определению выпадающих значений. Одной из ключевых задач, связанной с фильтрацией качественных значений, является приведение имен, относящихся к различным категориям, к единой области имен: например, «бритва» в одном наборе данных может иметь свое исходное название «бритва», а в другом относиться в расширенной категории «гигиена». Следующая проблема заключается в обнаружении ошибочной категоризации данных, зачастую связанной с взаимосвязью значений с «лексикой» известных категорий и выявлением значений, не входящий в данную группу слов [Raman and Hellers- tein, 2001]. Существует еще одна проблема, которая связана с устранением ошибок при вводе данных (например, грамматические ошибки и опечатки), которые часто возникают в результате текстового кодирования. Существует множество различных методов для исправления ошибок и опечаток, которые часто адаптируют слова с учетом специализированных областей, языков и лексики [Gravano et al., 2003].
Подводя итог анализу теоретико-методологических аспектов оценки качества информации можно отметить следующее:
- - порядка 80% трудозатрат в актуарных расчетах по анализу крупномасштабных моделей затрачивается на решение вопросов, связанных с качеством информации;
- - проблема получения данных высокого качества осложняется не только высоким уровнем расходов на их сбор и обработку, но и невозможностью точно оценить причинно-следственные связи и взаимосвязи между различными социально-экономическими показателями в динамике;
- - большинство используемых в актуарной модели данных привлекается извне, а не собирается актуарием вручную и не контролируется этот процесс актуарием. В каждом конкретном разделе работают люди со специфическими навыками, что влечет за собой возможность отображать неточный смысл данных. В результате ошибка одного исполнителя может усиливаться ошибкой другого исполнителя, который использовал эти данные.