медиана

Медиана — это центральная характеристика: в статистике — значение, которое делит упорядоченное множество наблюдений или распределение на две равные по численности части (половина значений не меньше медианы и половина не больше); в геометрии — отрезок в треугольнике, соединяющий вершину с серединой противоположной стороны; в многомерных задачах — точка, минимизирующая сумму расстояний до набора точек (геометрическая медиана).

Основные определения 📊

В выборке с нечетным числом элементов медианой является центральный элемент после сортировки. При четном числе — общепринято брать среднее двух центральных элементов (полусумма двух середних значений). Для теоретического распределения медиана — это любое значение m, для которого F(m) ≥ 0.5 и F(m−) ≤ 0.5, где F — функция распределения. В геометрии медиана треугольника — отрезок, идущий из вершины к середине противоположной стороны; все три медианы пересекаются в центроиде.

Контексты употребления и способы получения

Контекст Значение термина Как вычислить/построить Свойства и применение Пример
Статистика (нечетная выборка) Центральное значение Отсортировать; взять элемент с индексом (n+1)/2 Устойчива к выбросам, 50% breakdown point [2, 3, 5] → 3
Статистика (четная выборка) Среднее двух центральных Отсортировать; взять среднее элементов n/2 и n/2+1 Неприменима линейность, но сохраняет робастность [1, 4, 5, 100] → (4+5)/2 = 4.5
Теоретическое распределение Точка, где F(m) ≈ 0.5 Решить F(m)=0.5 (если F непрерывна и строго возрастает) Инвариантна к строго монотонным преобразованиям Экспоненциальное с λ: m = ln 2 / λ
Робастная статистика Мера центра Как выше; для разброса используют MAD Устойчива к выбросам; совместима с MAD MAD = median(|Xi − median(X)|)
Потоковые данные Приближённая медиана Алгоритмы P², Greenwald–Khanna Нужны гарантии ошибки и памяти Квантиль 0.5 в реальном времени
Геометрия треугольника 🔺 Отрезок к середине стороны Отметить середину стороны; соединить с вершиной Делит площадь пополам; участвует в центроиде Медиана из A к середине BC
Геометрическая медиана Точка, минимизирующая сумму расстояний Итерационные методы (Weiszfeld) Устойчива к выбросам в пространстве Центр «наименьших расстояний» для набора точек

Формулы и точные правила 📐

Выборочная медиана: пусть x(1) ≤ x(2) ≤ … ≤ x(n).

  • Если n нечетно: Me = x((n+1)/2).
  • Если n четно: Me = 0.5 · [x(n/2) + x(n/2 + 1)].

Для треугольника с сторонами a, b, c длина медианы к стороне a: m_a = 0.5 · sqrt(2b² + 2c² − a²).

Три медианы треугольника пересекаются в одной точке — центроиде G, который делит каждую медиану в отношении 2:1, считая от вершины (AG:GM = 2:1).

Алгоритмы и вычисление

  1. Сортировка (O(n log n)): простой и надежный способ для малых/средних наборов.
  2. Выбор k-й порядковой статистики: Quickselect (среднее O(n)), медиана медиан (детерминированно O(n)).
  3. Потоковые/ограниченная память: приближенные квантильные структуры (P², t-деграммы, GK-резюме) с контролируемой погрешностью.

Свойства и применение 📈

  • Робастность: одиночные и даже многочисленные выбросы не сдвигают медиану так сильно, как среднее.
  • Эквивариантность: для строго возрастающей функции g верно median(g(X)) = g(median(X)).
  • Использование: доходы и цены, время ответа систем, медианная зарплата, устойчивые агрегаты в A/B-тестах, сводки центров кластеров.
  • В геометрии: медианы делят треугольник на шесть равных по площади малых треугольников; центроид — центр масс однородного треугольника.

Когда предпочтительна медиана

  • Скошенные распределения (правосторонние хвосты: доходы, время ожидания).
  • Наличие выбросов или тяжёлых хвостов.
  • Показатели «типичного» значения, когда интерпретируемость важнее линейных свойств среднего.

Распространённые ошибки и ловушки

  • Игнорирование веса наблюдений: для взвешенной медианы требуется учитывать веса и квантили по накопленным весам.
  • Неправильная интерполяция в дискретных шкалах: иногда медиана может быть не наблюдаемым значением (например, шкалы Лайкерта) — стоит явно указывать правило.
  • Смешение понятий: медиана как статистическая мера и медиана треугольника — разные сущности; контекст обязателен.
  • Неверный вывод о «типичности» при мультимодальности: медиана не отражает наличие нескольких кластеров.

Краткие числовые примеры 🧮

Пример 1: [2, 3, 3, 9, 50] → медиана = 3, среднее ≈ 13.4. Видно, что одиночный выброс 50 почти не влияет на медиану.

Пример 2: [1, 2, 5, 100] → медиана = (2+5)/2 = 3.5; среднее = 27.0. Для отчета о «типичном» значении лучше подойдет медиана.

Пример 3 (взвешенная): значения {10, 20, 30} с весами {1, 2, 7}. Накопленные веса: 1, 3, 10. Половина суммы весов = 5. Медиана — 30, поскольку кумулятивный вес впервые достигает 5 на третьем значении.

Связанные понятия и расширения

  • Квантили: квартиль Q2 совпадает с медианой; перцентили (P50).
  • Робастные меры разброса: MAD, межквартильный размах (IQR).
  • Усеченное и винзоризованное средние как компромисс между средним и медианой.
  • Геометрическая медиана vs центр масс: первая минимизирует сумму расстояний L1, второй — сумму квадратов расстояний L2.
Оцените:
( Пока оценок нет )
Фотофайл - лучшие картинки и фото
0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии
0
Теперь напиши комментарий!x