Оценивание кредитных рисков

скачать (16671.9 kb.)

1   2   3   4   5   6   7

4


Data Mining
Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining.

В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.Mining - это процесс обнаружения в сырых данных:

· ранее неизвестных

· нетривиальных

· практически полезных

· и доступных интерпретации знаний

· необходимых для принятия решений в различных сферах

Основной задачей кредитного аналитика является генерация гипотез, которую он проверяет, основываясь на своих знаниях и опыте.

Однако знания есть не только у человека, но и у накопленных данных, которые подвергаются анализу. Такие знания содержатся в огромном объеме информации, которую человек не в силах исследовать самостоятельно. В связи с этим существует вероятность пропустить гипотезы, которые могут принести значительную выгоду.

Для обнаружения «скрытых» знаний применяется специальные методы автоматического анализа Data Mining.

Методы Data Mining помогают решить многие задачи, с которыми сталкивается аналитик.

Для обнаружения скрытых знаний в данных недостаточно просто применить методы Data Mining, хотя, безусловно, этот этап является основным в процессе интеллектуального анализа. Весь процесс состоит из нескольких этапов:

· понимание и формулировка задачи анализа; На этом этапе происходит осмысление поставленной задачи и уточнение целей, которые должны быть достигнуты методами Data Mining. Правильно сформулированные цели и адекватно выбранные для их достижения методы в значительной степени определяют эффективность всего процесса;

· подготовка данных для автоматизированного анализа; то есть приведение данных к форме, пригодной для применения конкретных выбранных методов Data Mining, применение методов Data Mining и построение моделей;

· сценарии применения могут быть самыми различными и включать сложную комбинацию разных методов, особенно если используемые методы позволяют проанализировать данные с разных точек зрения;

· проверка построенных моделей; что дает судить об адекватности построенной модели;

· интерпретация моделей человеком с целью их использования для принятия решений, добавления полученных правил и зависимостей в базы знаний.

Этим этапом и завершается цикл Data Mining в строгом смысле слова.

5


Формирование базы и системы поддержки знаний
У нас в распоряжении имеется обширная база данных клиентов кредитной организации, о которых уже известно, хорошими заемщиками они себя зарекомендовали или нет.

Исходными данными для интеллектуального анализа является выборка из базы данных о клиентах. Подразделим выборку на две группы: ”хорошие” кредиты и “плохие”. Это оправдано тем, что кредитный специалист при принятии решения о кредитовании на первом этапе выбирает из двух вариантов: давать кредит или нет.

Приведем фрагменты, выбранные из базы знаний, которые будут приняты за эталонные матрицы при выполнении процедуры обучения с экспертом:

Хорошие” кредиты:

1 18 4 2 1049 1 2 4 2 1 4 2 21 3 1 1 3 1 1

1 9 4 0 2799 1 3 2 3 1 2 1 36 3 1 2 3 2 1

2 12 2 9 841 2 4 2 2 1 4 1 23 3 1 1 2 1 1

4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

Плохие” кредиты:

20 4 0 2235 1 3 4 4 3 2 2 33 1 1 2 3 1 1

1 12 4 0 2171 1 3 4 3 1 4 2 38 1 2 2 2 1 1

1 10 4 0 2241 1 2 1 3 1 3 1 48 3 1 2 2 2 1

1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1

Для выполнения процедуры самообучения взята следующая матрица, состоящая вперемешку из “плохих” и “хороших кредитов”:

1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1

4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

1 11 4 0 3905 1 3 2 3 1 2 1 36 3 1 2 3 2 1

Для формирования индексов оценки кредитных рисков, были взяты следующие показатели кредитов из базы данных:

1 18 4 2 1049 1 2 4 2 1 4 2 21 3 1 1 3 1 1

1 9 4 0 2799 1 3 2 3 1 2 1 36 3 1 2 3 2 1

2 12 2 9 841 2 4 2 2 1 4 1 23 3 1 1 2 1 1

4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

1 12 4 0 2122 1 3 3 3 1 2 1 39 3 1 2 2 2 1

1 12 4 0 2171 1 3 4 3 1 4 2 38 1 2 2 2 1 1

1 10 4 0 2241 1 2 1 3 1 3 1 48 3 1 2 2 2 1

1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1

На основе этой выбранной базы знаний будет реализована система распознавания кредитов с среде разработки Matlab.
1   2   3   4   5   6   7



Рефераты Практические задания Лекции
Учебный контент

© ref.rushkolnik.ru
При копировании укажите ссылку.
обратиться к администрации