Какие данные используются при реализации проектов дата-майнинга?

7мая 2015
Дата-майнинг позволяет получить результаты, которые служат основой для принятия различных бизнес-решений.

Чтобы повысить их обоснованность и увеличить прибыль компании, проводится сбор и анализ широкого диапазона информации. В первую очередь, это конфиденциальные данные о клиентах, которые в процессе деятельности накапливает любая компания (возраст и семейный статус человека, предпочтение тем или иным товарам, частота покупок, участие в различных акциях и другие параметры). Обрабатывая историческую информацию о похожих покупателях, компания может оценить риски и спрогнозировать жизненные ценности потенциальных клиентов, по которым не имеется никаких данных. Причем факторы влияния и результирующие показатели могут иметь как очевидные, так и скрытые связи.
 

Действие очевидной связи можно рассмотреть на примере банковского сектора.

Сегодня практически все взрослые люди имеют пластиковые карты, привязанные к счету в банке. Многие имеют две таких карточки: одну для зарплаты, вторую – для заемных средств с ограниченным кредитным лимитом. Всем известно, что такое максимальный лимит, но не каждый понимает, каким образом производится его расчет.

В большинстве случаев величина максимальной суммы займа зависит от общей кредитной истории клиента. Рассчитывать на повышение кредитного лимита можно при выполнении установленных банком условий. Для этого необходимо:

  • предъявить справку о доходах;

  • иметь в банке отдельный счет для перечисления зарплаты;

  • регулярно и своевременно возвращать заемные средства.

При выдаче первой кредитной карты многие банки пользуются двумя инструментами: официальным подтверждением доходов и кредитной историей. Обычно, при отсутствии справки о доходах и кредитной истории, заемщик может рассчитывать на одобрение однотипного минимального кредитного лимита, ведь в этом случае невозможно спрогнозировать возникновение вероятных проблем. Некоторые банки для оценки платежеспособности клиента дополнительно используют данные о семейном положении, трудовом стаже, наличии транспортного средства и т. д. Но все же эти показатели стабильности заемщика не позволяют банкирам без рисков произвести увеличение кредитного лимита. Поэтому банки пользуются таким способом сбора и анализа информации, как аналитика больших данных, которая позволяет выявлять потенциально неблагонадежных заемщиков.

Понятие кредитной оценки банковских клиентов еще в середине прошлого столетия разработала софтверная компания Fair Isaac Company (США). Несколько лет назад специалисты этой же фирмы предложили метод оценки приверженности лечению, который выявляет, с какой вероятностью разные пациенты будут соблюдать предписания фармакологического курса. Это направление находится в стадии развития, но уже дает хорошие результаты.

Например, было выявлено, что вероятность выполнения врачебных предписаний увеличивается, если пациент имеет автомобиль и семью, редко меняет место жительства. Такие данные позволяют медицинским сотрудникам с большой вероятностью выявлять пациентов, которые прислушаются к рекомендациям врача и сдадут назначенные анализы. Естественно, систематический прием лекарственных препаратов не имеет причинно-следственной связи с наличием автомобиля, но высокий корреляционный показатель исторических данных дает возможность делать высокоточные прогнозы. А анализ информации с учетом вероятности болезни или летального исхода помогает рассчитать стоимость страховки пациента (или повысить для заемщика кредитный лимит).

Большое значение для проектов дата-майнинга имеют открытые данные, такие как пользовательские аккаунты в крупных социальных сетях. И это полностью обосновано – например, в прошлом году Facebook насчитывал более 850 млн активных пользователей (десятую часть населения всего земного шара), которые образовали более 100 миллиардов связей. В итоге анализ информации из наиболее значимых социальных интернет-площадок позволяет получить практически любые данные.

Чтобы оценить благонадежность потенциальных заемщиков, компания Fair Isaac Company использует пятнадцать переменных из сети Facebook. Анонимный стартап прогнозирует вероятность того, что заемщик выплатит кредит, основываясь на поведении его друзей в различных ситуациях. Такой анализ основывается на актуальных данных и проводится в online-режиме, так что банковский специалист может воспользоваться полученной информацией для увеличения кредитного лимита.

В плане получения необходимых данных социальная сеть Twitter также представляет большой интерес. Компании Grip и DataSift, сотрудничая с Twitter, получают доступ к информации о 100 миллионах человек, которые отправляют около 250 миллионов твитов (коротких сообщений, зачастую не имеющих между собой никакой связи). Хотя доступ к твитам может получить каждый, но систематизация информации и организация ее совокупной продажи под силу лишь специализированным компаниям. Они могут выполнить комплексный сбор и анализ данных, обобщить отзывы потребителей о товарах или услугах и сделать реальную оценку эффективности той или иной рекламной кампании.

Но есть и другая сторона медали – конфиденциальность. Практически вся информация, которую граждане передают коммерческим или некоммерческим компаниям, защищается государственными законами, нормативными актами, договорными обязательствами. Именно поэтому законным способом получить дополнительные данные о конкретном человеке очень сложно, а чаще всего вообще невозможно.

В то же время у информации в социальных сетях нет подобной защиты. В результате анализа профайла человека с помощью определенных алгоритмов можно получить прогноз невыполнения обязательств по возврату долгов, потери здоровья или даже совершения преступления. В этом случае наиболее вероятным будет отказ по кредиту или медицинской страховке. По сути оказывается, что человек получает негативную оценку за несовершенные поступки, что является нарушением презумпции невиновности. Здесь и возникает проблема: что важнее – ориентироваться на клиента или защититься от возможного риска?

Однозначно ответить на поставленный вопрос невозможно. Но можно точно сказать, что в эпоху больших данных необходимо ввести эффективные правовые нормы, которые позволят обрабатывать и защищать информацию на абсолютно законных основаниях. Подобная ситуация возникала и в прошлом, когда из-за распространения печатных станков пришлось принять законы об ограничении свободы печати (хотя до массового появления газет и журналов такой проблемы просто не существовало).

Смотрите также:

16.02.2015 Производительность труда – от абстрактных цифр к эффективным решениям
Производительность труда - это один из важнейших показателей эффективности деятельности.
13.03.2015 Как украсть миллион
Наиболее запутанный и изощренный вид преступлений – мошенничество. С появлением товарно-денежных отношений одна часть людей накапливает ценности, а другая пытается их отобрать.
24.06.2015 Как увеличить прибыль с помощью сопутствующих товаров?
Любой бизнес не может работать без прибыли, и вполне естественно, что цель всех коммерческих компаний – повышение дохода. Способов увеличить выручку достаточно много.
11.06.2015 Какая CRM лучше всего подходит для вашего бизнеса?
Для автоматизации работы с клиентами современные компании эффективно применяют специальное программное обеспечение – CRM-системы.
09.07.2015 CRM-система для турагентств
Рост рынка туристических услуг в России целиком закономерен. Спрос на путешествия как по стране, так и за ее пределами не снижается даже во время кризиса.
×
DataSense