Исследования · данные · агрегация

Парадокс Симпсона

Тренд, который виден в каждой группе по отдельности, может развернуться в обратную сторону, когда группы складывают вместе. Одни и те же числа поддерживают разные выводы — всё решает разрез данных.

простыми словами

Объясняем на пальцах

Лекарство A помогает чаще, чем B, и в лёгких случаях, и в тяжёлых. Кажется, вывод очевиден: A лучше. Но если сложить всех пациентов вместе, лучше вдруг выглядит B.

Причина в том, кому что давали: B чаще назначали лёгким случаям, где и так легче выздороветь, а A — тяжёлым. Скрытая разница в группах переворачивает общую картину.

01 / агрегация

Сумма может врать

Объединять группы кажется безопасным, но при разном размере и составе групп общее среднее может указывать в сторону, противоположную каждой группе.

02 / скрытая переменная

Виноват скрытый фактор

За разворотом стоит спрятанная причина: тяжесть случая, размер группы, канал отбора или другой фактор, который не видно в общей цифре.

03 / для AI

Срез решает вывод

Дашборд, A/B-тест и оценка качества модели зависят от того, как нарезаны данные. Перед доверием к тренду нужно проверить разбивку.

// успех лечения A vs B лёгкие случаи: A выигрывает

лекарство A — успех:

лекарство B — успех:

Здесь A лучше B. Посмотри обе группы, потом нажми «Все вместе» — появится разворот.

Зачем это в лаборатории

Перед тем как верить графику — спроси про разбивку

Это рабочая дисциплина аналитики и AI: агрегат без разреза легко обманывает. Один и тот же тренд разворачивается сменой группировки, поэтому важно знать скрытые переменные и не строить вывод на «среднем по больнице».

факт

Эффект описал Эдвард Симпсон в 1951 году; раньше похожие идеи встречались у Пирсона и Юла. Известный реальный пример — анализ приёма в Беркли в 1973 году: общая цифра выглядела как смещение, но по факультетам картина менялась.

Одни и те же числа могут поддержать противоположные выводы — всё решает, как вы их разбили.

— статистическая мораль

Чтобы понять, какой вывод верен, нужна не только статистика, но и причинная схема.

— инженерная поправка
Связано: «метрика обманывает» — как у закона Гудхарта; «корреляция ≠ причина» — как у нелокальности; «выборка решает вывод» — как у ошибки выжившего.