Медиана — это центральная характеристика: в статистике — значение, которое делит упорядоченное множество наблюдений или распределение на две равные по численности части (половина значений не меньше медианы и половина не больше); в геометрии — отрезок в треугольнике, соединяющий вершину с серединой противоположной стороны; в многомерных задачах — точка, минимизирующая сумму расстояний до набора точек (геометрическая медиана).
Основные определения 📊
В выборке с нечетным числом элементов медианой является центральный элемент после сортировки. При четном числе — общепринято брать среднее двух центральных элементов (полусумма двух середних значений). Для теоретического распределения медиана — это любое значение m, для которого F(m) ≥ 0.5 и F(m−) ≤ 0.5, где F — функция распределения. В геометрии медиана треугольника — отрезок, идущий из вершины к середине противоположной стороны; все три медианы пересекаются в центроиде.
Контексты употребления и способы получения
Контекст | Значение термина | Как вычислить/построить | Свойства и применение | Пример |
---|---|---|---|---|
Статистика (нечетная выборка) | Центральное значение | Отсортировать; взять элемент с индексом (n+1)/2 | Устойчива к выбросам, 50% breakdown point | [2, 3, 5] → 3 |
Статистика (четная выборка) | Среднее двух центральных | Отсортировать; взять среднее элементов n/2 и n/2+1 | Неприменима линейность, но сохраняет робастность | [1, 4, 5, 100] → (4+5)/2 = 4.5 |
Теоретическое распределение | Точка, где F(m) ≈ 0.5 | Решить F(m)=0.5 (если F непрерывна и строго возрастает) | Инвариантна к строго монотонным преобразованиям | Экспоненциальное с λ: m = ln 2 / λ |
Робастная статистика | Мера центра | Как выше; для разброса используют MAD | Устойчива к выбросам; совместима с MAD | MAD = median(|Xi − median(X)|) |
Потоковые данные | Приближённая медиана | Алгоритмы P², Greenwald–Khanna | Нужны гарантии ошибки и памяти | Квантиль 0.5 в реальном времени |
Геометрия треугольника 🔺 | Отрезок к середине стороны | Отметить середину стороны; соединить с вершиной | Делит площадь пополам; участвует в центроиде | Медиана из A к середине BC |
Геометрическая медиана | Точка, минимизирующая сумму расстояний | Итерационные методы (Weiszfeld) | Устойчива к выбросам в пространстве | Центр «наименьших расстояний» для набора точек |
Формулы и точные правила 📐
Выборочная медиана: пусть x(1) ≤ x(2) ≤ … ≤ x(n).
- Если n нечетно: Me = x((n+1)/2).
- Если n четно: Me = 0.5 · [x(n/2) + x(n/2 + 1)].
Для треугольника с сторонами a, b, c длина медианы к стороне a: m_a = 0.5 · sqrt(2b² + 2c² − a²).
Три медианы треугольника пересекаются в одной точке — центроиде G, который делит каждую медиану в отношении 2:1, считая от вершины (AG:GM = 2:1).
Алгоритмы и вычисление
- Сортировка (O(n log n)): простой и надежный способ для малых/средних наборов.
- Выбор k-й порядковой статистики: Quickselect (среднее O(n)), медиана медиан (детерминированно O(n)).
- Потоковые/ограниченная память: приближенные квантильные структуры (P², t-деграммы, GK-резюме) с контролируемой погрешностью.
Свойства и применение 📈
- Робастность: одиночные и даже многочисленные выбросы не сдвигают медиану так сильно, как среднее.
- Эквивариантность: для строго возрастающей функции g верно median(g(X)) = g(median(X)).
- Использование: доходы и цены, время ответа систем, медианная зарплата, устойчивые агрегаты в A/B-тестах, сводки центров кластеров.
- В геометрии: медианы делят треугольник на шесть равных по площади малых треугольников; центроид — центр масс однородного треугольника.
Когда предпочтительна медиана
- Скошенные распределения (правосторонние хвосты: доходы, время ожидания).
- Наличие выбросов или тяжёлых хвостов.
- Показатели «типичного» значения, когда интерпретируемость важнее линейных свойств среднего.
Распространённые ошибки и ловушки
- Игнорирование веса наблюдений: для взвешенной медианы требуется учитывать веса и квантили по накопленным весам.
- Неправильная интерполяция в дискретных шкалах: иногда медиана может быть не наблюдаемым значением (например, шкалы Лайкерта) — стоит явно указывать правило.
- Смешение понятий: медиана как статистическая мера и медиана треугольника — разные сущности; контекст обязателен.
- Неверный вывод о «типичности» при мультимодальности: медиана не отражает наличие нескольких кластеров.
Краткие числовые примеры 🧮
Пример 1: [2, 3, 3, 9, 50] → медиана = 3, среднее ≈ 13.4. Видно, что одиночный выброс 50 почти не влияет на медиану.
Пример 2: [1, 2, 5, 100] → медиана = (2+5)/2 = 3.5; среднее = 27.0. Для отчета о «типичном» значении лучше подойдет медиана.
Пример 3 (взвешенная): значения {10, 20, 30} с весами {1, 2, 7}. Накопленные веса: 1, 3, 10. Половина суммы весов = 5. Медиана — 30, поскольку кумулятивный вес впервые достигает 5 на третьем значении.
Связанные понятия и расширения
- Квантили: квартиль Q2 совпадает с медианой; перцентили (P50).
- Робастные меры разброса: MAD, межквартильный размах (IQR).
- Усеченное и винзоризованное средние как компромисс между средним и медианой.
- Геометрическая медиана vs центр масс: первая минимизирует сумму расстояний L1, второй — сумму квадратов расстояний L2.