Научный фундамент скоринга

Полное описание методологии: 3 классических фреймворка, 5 источников данных, эмпирическая валидация на 873 точках МСП РФ за 2020–2022 годы. Документ для тех, кто хочет проверить научную базу перед покупкой.

Версия методологии: 1.5 · Апрель 2026Random seed: 42 (воспроизводимо)

1. Три фреймворка стратегического анализа

Porter Five Forces (Porter, 1979)

Анализ структуры отрасли через 5 конкурентных сил: соперничество существующих игроков, угроза новых входящих, угроза товаров-заменителей, рыночная сила поставщиков, рыночная сила покупателей. Опубликован в Harvard Business Review, стал стандартом стратегического анализа в HBS, McKinsey, BCG, Bain.

Применение в нашей модели: блок «Конкурентная среда» (вес 20%) в AHP-расчёте. Сигнал «количество точек той же ОКВЭД-группы на 10 000 жителей» из 2ГИС-каталога моделирует силу конкуренции.

Оригинал статьи в HBR →

PEST Analysis (Aguilar, 1967)

Анализ макросреды по четырём измерениям: Political (политические), Economic (экономические), Social (социальные), Technological (технологические). Введён Фрэнсисом Агуиларом в книге «Scanning the Business Environment».

Применение: блок «Макросреда» (вес 5%) в AHP-расчёте. Использует индикаторы Росстата по региональному ВРП, потребительским расходам домохозяйств, демографии. Адаптирован под российский контекст МСП.

AHP — Analytic Hierarchy Process (Saaty, 1980)

Метод аналитической иерархии Томаса Саати — формализованный подход к многокритериальной оценке. Веса критериев получаются через попарные сравнения с проверкой консистентности (Consistency Ratio < 0.1). Используется в принятии решений в правительствах, корпорациях, армии.

Применение: итоговый балл 0–100 рассчитывается как взвешенная сумма 5 нормализованных метрик с весами:

· Потенциал рынка — 25%
· Финансы — 35%
· Конкуренция — 20%
· Барьеры входа — 15%
· Макросреда — 5%

2. Адаптация классических фреймворков под МСП РФ

Porter Five Forces изначально разрабатывался для крупных корпораций и был критикован Минцбергом и Кимом/Моборном для малого бизнеса. Мы митигируем эти ограничения через:

Региональная гранулярность. Анализ ведётся не на уровне отрасли в целом, а на уровне «ниша × город», что точнее отражает реальность МСП.
Эмпирическая калибровка весов. Веса AHP не взяты из теории, а откалиброваны на исторических данных МСП РФ (бэктест на 873 точках).
Финансы как доминирующий сигнал. Вес финансового блока 35% — отражает реальность что для МСП экономика конкретной точки важнее структуры отрасли.

3. Пять источников данных

Wordstat API

Реальный объём поисковых запросов по фразе «{ниша} {город}» через официальный OAuth API Яндекса. Возвращает количество показов в месяц с региональной affinity.

Документация →

Росстат opendata

Структура потребительских расходов домохозяйств по 85 регионам РФ + 8 ФО за 2022–2025 годы (для агрегатов). 62 453 строки данных. Используется для расчёта YoY и потенциала рынка.

Документация →

ФНС opendata (Прозрачный бизнес)

Финансовая отчётность юридических лиц по ОКВЭД. Дедупликация по ИНН + sanity caps по сегменту (общепит до 30М, гостиницы до 40М) + каскадный делитель для multi-profile юрлиц (/2 → /4 → /8).

Документация →

СберИндекс

Динамика оборотов по карточным транзакциям 46 категорий за 2023–2026 годы + индикатор Trend. Используется как опережающий сигнал — Сбер видит обороты раньше Росстата.

Документация →

2ГИС catalog API

Каталог точек бизнеса: количество, адреса, ОКВЭД, рейтинги. Используется для расчёта плотности конкуренции (точек той же ОКВЭД-группы на 10К жителей).

Документация →

4. Bottom-up расчёт CAPEX

В отличие от франшизных каталогов (которые усредняют известные бренды), мы считаем CAPEX из 8 компонентов snapshot-цен в России 2025/2026:

1. Оборудование — конкретные позиции (например, эспрессо-машина 200–500К, кофемолка 50–150К)
2. Ремонт — м² × тариф ремонта по уровню (эконом 4–8К/м², стандарт 8–15К/м², премиум 15–25К/м²)
3. Аренда-депозит — 2 месячные ставки аренды по городу
4. Стартовый инвентарь — расходники и материалы на первый месяц
5. Регистрация ИП/ООО — пошлины, нотариус, печать
6. Маркетинг старта — вывеска, реклама, SMM на 1–2 месяца
7. Лицензии — алкогольная, медицинская и т.д. где применимо
8. Резерв на ramp-up — операционные расходы первых 1–3 месяцев

5. Эмпирическая валидация

Модель проверена на ретроспективных данных 873 точек МСП в 5 регионах × 4 сегментах, открывшихся в 2020–2022 годах:

0.682

Pearson r на market-level

0.551

Spearman r на ranking

0.71

AUC на бинарной классификации

873

точек в когорте

Ablation study (что вносит каждый сигнал)

· Полная модель (5 сигналов): AUC = 0.71
· Без Wordstat (3 сигнала): AUC = 0.68 (Δ = −0.03)
· Без финансов (4 сигнала): AUC = 0.46 (Δ = −0.25) — критический

Честные ограничения модели

Survivorship bias. Закрытые точки сложнее обнаружить в открытых источниках. Митигировано через DaData state.status (832 LIQUIDATED ИНН добавлены в когорту), но не полностью устранено.
Look-ahead bias по Wordstat. Wordstat возвращает данные за последние ~24 месяца. Для точек открытых в 2020–2022 используется экстраполяция назад через СберИндекс YoY. Документировано в отчёте.
Региональная гранулярность Росстата. Ряд показателей доступен только по федеральным округам, не по конкретным городам. Используем региональные индикаторы и popular density.
Сезонность. Модель не учитывает явно — для сезонных бизнесов (гостиницы) рекомендуется делать скоринг отдельно для high/low season.

6. Continuous learning loop

Каждый клиент после получения отчёта получает follow-up письма через 90, 180 и 365 дней с короткими вопросами: «Открыли ли бизнес?», «Жив ли через год?». Ответы пишутся в outcomes-таблицу и используются для квартальной перекалибровки модели. Публичные метрики точности будут опубликованы после накопления 30+ outcomes.

7. Воспроизводимость

Модель детерминирована при фиксированных входных данных. Параметры:

· random.seed = 42 (везде где используется sampling)
· Версия движка: scoring/score_engine.py @ v1.5+ (Phase 3)
· Версии библиотек: scikit-learn 1.7.x, scipy 1.16.x, numpy 2.3.x

Готовы заказать скоринг?

Перейти к калькулятору