Построение скоринговых моделей

⇐ ПредыдущаяСтр 4 из 5Следующая ⇒

Для построения скоринговых моделей (причем независимо от выбранного математического подхода) берется репрезентативная выборка из предыдущих заявителей. Для каждой компании из выборки извлекается полная информация из опыта прошлый лет. Затем принимается экспертное решение, какую историю считать приемлемой, т.е. является ли компания "хорошей" или "плохой". Чаще всего "плохой" считается компания, не выполнившая всех условий контракта 9как пример если лизинг годовой, то например, в середине года компания повысила процентную ставку. Хотя это не было зафиксировано или указано в договоре). Всегда оказывается некоторое число компаний, которые нельзя отнести ни к "хорошим", ни к "плохим", поскольку они недостаточно давно находятся на данном рынке. Как правило, такие "промежуточные" компании исключаются из выборки.

Эмпирические требования к базе данных, используемых для построения скоринговой модели:

- размер выборки - не менее 1500 всего, не менее 500 плохих;

- четкое определение критерия "плохой"/"хороший".

- стабильность состава клиентской группы

- неявное, но обязательное требование: стабильность экономических, политических, социальных и прочих условий.

При построении моделей существенным является выбор временного горизонта - отрезка времени между подачей заявления и классификацией "плохой"/"хороший". Фактически используются два единовременных среза (в начале и в конце временного горизонта) для создания модели, которая стабильна по времени (за пределами начального временного отрезка). Это и диктует выбор длины временного отрезка - временного горизонта при моделировании.

Другим чрезвычайно важным и дискутируемым вопросом остается соотношение "хороших" и "плохих" в выборке.

Далее построение скоринговой модели превращается в классификационную проблему, где входными характеристиками (или параметрами) являются параметры (или данные), получаемые в результате проверок из различных организаций,а выходными характеристиками - искомым результатом - является разделение компаний на "хороших" и плохих" согласно имеющимся историям, сопоставленным по этим входным характеристикам.

Собственно рейтинговая таблица (scorecard) - это система придания численных баллов (счета) характеристикам (или параметрам) для получения искомого числового значения, которое отражает, с какой вероятностью у компании по отношению к другой компании произойдет некое событие или она совершит определенное действие.

Рейтинговая таблица, например, не показывает, какой уровень риска следует ожидать, вместо этого она показывает, как данный лизинг, скорее всего, будет вести себя по отношению к другим лизингам.

Большинство рейтинговых таблиц построены с помощью расчета регрессионной модели - статистической модели, которая проверяет, как отдельный параметр (характеристика) влияет на другой параметр или (чаще всего) на целый набор других параметров.

Регрессионная модель дает в результате своего применения набор коэффициентов (factors), называемых регрессионными, которые можно интерпретировать как корреляцию между искомыми параметрами (которые необходимо определить) и объясняющими параметрами, сохраняя неизменными все остальные воздействия на искомые параметры. Эти коэффициенты превращаются в веса баллов (point weights) в рейтинговой таблице.

Самый часто используемый метод построения рейтинговых таблиц

Чаще всего для построения рейтинговых таблиц используется статистический метод логистической регрессии. Однако для объяснения этого подхода стоит начать с простой линейной регрессии, а потом перейти к логистической - как особого случая линейной.

В простейшем случае линейная регрессия пытается найти линейную связь между двумя переменными: X и К Переменная Y, которую пытаются спрогнозировать, определяется как зависимая (поскольку она зависит от X). Переменная X является объясняющей, поскольку она "объясняет", почему У меняется от одного индивидуума к другому.

С помощью линейной регрессии пытаются выяснить следующее: если меняется X, то насколько вероятно, что в результате этого также изменится и К Для того чтобы это сделать, необходим набор данных, в котором можно наблюдать множество пар X и соответствующих ему К Когда они будут отложены на плоскости XY и будет получено некое множество, может оказаться, что оно ложится на некую прямую, т.е. есть определенная связь между X и Y, которую можно попытаться аппроксимировать с помощью уравнения:

Y = B_0 + B_1 x X_1

где

B_0 - это величина Y, когда X = 0;

B_1 - наклон прямой линии.

Эти В. являются коэффициентами регрессии. На практике, скорее всего, окажется несколько объясняющих переменных:

Y = B_0 + B_1 x X_1 + B_2 x X_2 + ... + B_n x X_n.

Также для более детального и точного анализа мы будем применять симплекс метод, который также поможет найти оптимальную схему для лизинга, но уже это будет касаться финансовой стороны вопроса, у нас есть несколько схем лизинга, мы будем выбирать наиболее удобную.

Симплекс метод

Симплекс-метод — алгоритм решения оптимизационной задачи линейного программирования путём перебора вершин выпуклого многогранника в многомерном пространстве. Метод был разработан американским математиком Джорджем Данцигом (George Dantzig) в 1947 году.

Описание

Задача линейного программирования состоит в том, что необходимо максимизировать или минимизировать некоторый линейный функционал на многомерном пространстве при заданных линейных ограничениях.

Заметим, что каждое из линейных неравенств на переменные ограничивает полупространство в соответствующем линейном пространстве. В результате все неравенства ограничивают некоторый многогранник (возможно, бесконечный), называемый также полиэдральным конусом. Уравнение W(x) = c, где W(x) — максимизируемый (или минимизируемый) линейный функционал, порождает гиперплоскость L(c). Зависимость от c порождает семейство параллельных гиперплоскостей. Тогда экстремальная задача приобретает следующую формулировку — требуется найти такое наибольшее c, что гиперплоскость L(c) пересекает многогранник хотя бы в одной точке. Заметим, что пересечение оптимальной гиперплоскости и многогранника будет содержать хотя бы одну вершину, причём, их будет более одной, если пересечение содержит ребро или k-мерную грань. Поэтому максимум функционала можно искать в вершинах многогранника. Принцип симплекс-метода состоит в том, что выбирается одна из вершин многогранника, после чего начинается движение по его рёбрам от вершины к вершине в сторону увеличения значения функционала. Когда переход по ребру из текущей вершины в другую вершину с более высоким значением функционала невозможен, считается, что оптимальное значение c найдено.

Последовательность вычислений симплекс-методом можно разделить на две основные фазы:

1. нахождение исходной вершины множества допустимых решений,

2. последовательный переход от одной вершины к другой, ведущий к оптимизации значения целевой функции.

При этом в некоторых случаях исходное решение очевидно или его определение не требует сложных вычислений, например, когда все ограничения представлены неравенствами вида «меньше или равно» (тогда нулевой вектор совершенно точно является допустимым решением, хотя и, скорее всего, далеко не самым оптимальным). В таких задачах первую фазу симплекс-метода можно вообще не проводить. Симплекс-метод, соответственно, делится на однофазный и двухфазный.

Алгоритм симплекс-метода

Усиленная постановка задачи

Рассмотрим следующую задачу линейного программирования:

Теперь поставим эту задачу в эквивалентной усиленной форме. Необходимо максимизировать Z, где:

Здесь x — переменные из исходного линейного функционала, xs — новые переменные, дополняющие старые таким образом, что неравенство переходит в равенство, c — коэффициенты исходного линейного функционала, Z — переменная, которую необходимо максимизировать. Полупространства и в пересечении образуют многогранник, представляющий множество допустимых решений. Разница между числом переменных и уравнений даёт нам число степеней свободы. Проще говоря, если мы рассматриваем вершину многогранника, то это число рёбер, по которым мы можем продолжать движение. Тогда мы можем присвоить этому числу переменных значение 0 и назвать их «непростыми». Остальные переменные при этом будут вычисляться однозначно и называться «простыми». Полученная точка будет вершиной в пересечении соответствующих непростым переменным гиперплоскостей. Для того, чтобы найти т. н. начальное допустимое решение (вершину, из которой мы начнём движение), присвоим всем изначальным переменным x значение 0 и будем их считать непростыми, а все новые будем считать простыми. При этом начальное допустимое решение вычисляется однозначно :

Алгоритм

Теперь приведём шаги алгоритма. На каждом шаге мы будем менять множества простых и непростых векторов (двигаться по рёбрам), и матрица будет иметь следующий вид:

где cB — коэффициенты вектора c соответствующие простым переменным (переменным xs соответствуют 0), B — столбцы , соответствующие простым переменным. Матрицу, образованную оставшимися столбцами обозначим D. Почему матрица будет иметь такой вид поясним в описании шагов алгоритма.

Первый шаг.

Выбираем начальное допустимое значение, как указано выше. На первом шаге B — единичная матрица, так как простыми переменными являются xs. cB — нулевой вектор по тем же причинам.

Второй шаг

Покажем, что в выражении только непростые переменные имеют ненулевой коэффициент. Заметим, что из выражения Ax+xs=b простые переменные однозначно выражаются через непростые, так как число простых переменных равно числу уравнений. Пусть x ' — простые, а x ' ' — непростые переменные на данной итерации. Уравнение Ax+xs=b можно переписать, как Bx '+Dx ' '=b. Умножим его на B − 1 слева: x' + B − 1Dx'' = B − 1b. Таким образом мы выразили простые переменные через непростые, и в выражении B − 1Ax + B − 1xs, эквивалентному левой части равенства, все простые переменные имеют единичные коэффициенты. Поэтому, если прибавить к равенству Z − cTx = 0 равенство , то в полученном равенстве все простые переменные будут иметь нулевой коэффициент — все простые переменные вида x сократятся, а простые переменные вида xs не войдут в выражение .

Выберем ребро, по которому мы будем перемещаться. Поскольку мы хотим максимизировать Z, то необходимо выбрать переменную, которая будет более всех уменьшать выражение

Для этого выберем переменную, которая имеет наибольший по модулю отрицательный коэффициент. Если таких переменных нет, то есть все коэффициенты этого выражения неотрицательны, то мы пришли в искомую вершину и нашли оптимальное решение. В противном случае начнём увеличивать эту непростую переменную, то есть перемещаться по соответствующему ей ребру. Эту переменную назовём входящей.

Третий шаг

Теперь необходимо понять, какая простая переменная первой обратится в ноль по мере увеличения входящей переменной. Для этого достаточно рассмотреть систему:

При фиксированных значениях непростых переменных система однозначно разрешима относительно простых, поэтому мы можем определить, какая из простых переменных первой достигнет нуля при увеличении входящей. Эту переменную назовем выходящей. Это будет означать, что мы натолкнулись на новую вершину. Теперь входящую и выходящую переменную поменяем местами — входящая «войдёт» в простую, а выходящая из них «выйдет» в непростые. Теперь перепишем матрицу B и вектор cB в соответствии с новыми наборами простых и непростых переменных, после чего вернёмся ко второму шагу. x''

Поскольку число вершин конечно, то алгоритм однажды закончится. Найденная вершина будет являться оптимальным решением.

Двухфазный симплекс-метод

Причины использования

Если в условии задачи линейного программирования не все ограничения представлены неравенствами типа «≤», то далеко не всегда нулевой вектор будет допустимым решением. Однако каждая итерация симплекс-метода является переходом от одной вершины к другой, и если неизвестно ни одной вершины, алгоритм вообще не может быть начат.

Процесс нахождения исходной вершины не сильно отличается от однофазного симплекс-метода, однако может в итоге оказаться сложнее, чем дальнейшая оптимизация. Из изложенного выше не прозвучало отчетливо почему если ограничения отличается от <= не всякий 0-вектор будет допустимым решением. В самом деле пусть i - уравнение имеет вид Ai1X1+...AinXn >=Bi но просто можно изменить знаки записав -Ai1X1- ... AinXn<=-Bi и тем самым привести все неравенства к канонической форме. Это было бы нельзя сделать если бы на вектор B было наложено условие неотрицательности Bi>=0 Но в формулировке выше ограничения вектор B отсутствуют. (это очевидная неточность для теоретической статьи в энциклопедии, где все предпосылки должны формулироваться полно) Если бы все было так просто и легко, непонятно зачем изобретали двухфазный метод... Кроме того по этой же причине классический симплекс метод не годится для решения задачи Min F (точнее не годится в случае положительности всех коэфф целевой функции, т.к. тогда метод не сделает ни одной итерации)

Модификация ограничений

Все ограничения задачи модифицируются согласно следующим правилам:

ограничения типа «≤» переводятся на равенства созданием дополнительной переменной с коэффициентом «+1». Эта модификация проводится и в однофазном симплекс-методе, дополнительные переменные в дальнейшем используются как исходный базис.

ограничения типа «≥» дополняются одной переменной с коэффициентом «−1». Поскольку такая переменная из-за отрицательного коэффициента не может быть использована в исходном базисе, необходимо создать ещё одну, вспомогательную, переменную. Вспомогательные переменные всегда создаются с коэффициентом «+1».

ограничения типа «=» дополняются одной вспомогательной переменной.

Соответственно, будет создано некоторое количество дополнительных и вспомогательных переменных. В исходный базис выбираются дополнительные переменные с коэффициентом «+1» и все вспомогательные. Осторожно: решение, которому соответствует этот базис, не является допустимым.

Различия между дополнительными и вспомогательными переменными

Несмотря на то, что и дополнительные, и вспомогательные переменные создаются искусственно и используются для создания исходного базиса, их значения в решении сильно отличаются:

дополнительные переменные сообщают, насколько соответствующее им ограничение «недоиспользовано». Значение дополнительной переменной равное нулю соответствует равенству значений правых и левых частей ограничения.

вспомогательные переменные сообщают, насколько данное условие далеко от допустимого (относительно конкретного ограничения). Если значение вспомогательной переменной больше нуля, то данное решение не выполняет определённое ограничение, а значит не является допустимым.

То есть ненулевое значение дополнительной переменной может (но не должно) сигнализировать о неоптимальности решения. Ненулевое значение вспомогательной переменной сигнализирует о недопустимости решения.

Фазы решения

После того, как было модифицировано условие, создаётся вспомогательная целевая функция. Если вспомогательные переменные были обозначены, как yi, i∈{1, .., k}, то вспомогательную функцию определим, как

После этого проводится обыкновенный симплекс-метод относительно вспомогательной целевой функции. Поскольку все вспомогательные переменные увеличивают значение z', в ходе алгоритма они будут поочерёдно выводится из базиса, при этом после каждого перехода новое решение будет всё ближе к множеству допустимых решений.

Когда будет найдено оптимальное значение вспомогательной целевой функции, могут возникнуть две ситуации:

1. оптимальное значение z' больше нуля. Это значит, что как минимум одна из вспомогательных переменных осталась в базисе. В таком случае можно сделать вывод, что допустимых решений данной задачи линейного программирования не существует.

2. оптимальное значение z' равно нулю. Это означает, что все вспомогательные переменные были выведены из базиса, и текущее решение является допустимым.

Во втором случае мы имеем допустимый базис, или, иначе говоря, исходное допустимое решение. Можно проводить дальнейшую оптимизацию с учётом исходной целевой функции, при этом уже не обращая внимания на вспомогательные переменные. Это и является второй фазой решения.

Проделав все эти вычисления мы получим оптимальный план лизинга.

⇐ Предыдущая 1 2 345 Следующая ⇒

Последнее изменение этой страницы: 2019-04-10; Просмотров: 530; Нарушение авторского права страницы