Медиана (в статистике)

14.09.2009

Помня старую шутку про среднюю температуру по больнице, я задумался, каким образом правильно вычислять средние значения CTR для статистики в рекламном движке Daos? Естественно, оказалось, что всё уже придумано, и продумано замечательно.

Из Википедии

Предположим, что в одной комнате оказалось 19 бедняков и один миллиардер. Каждый кладет на стол деньги из своего кармана. По пять долларов кладет каждый бедняк, а миллиардер — $1 млрд. В сумме получается $1 000 000 095. Если мы разделим деньги равными долями на 20 человек, то получим $50 000 004,75. Это будет среднее арифметическое значение суммы наличных, которая была у всех 20 человек в этой комнате.

Медиана в этом случае будет равна $5 (полусумма десятого и одиннадцатого, срединных значений ранжированного ряда). Можно интерпретировать это следующим образом. Разделив нашу компанию на две равные группы по 10 человек, мы можем утверждать, что в первой группе каждый положил на стол не больше $5, во второй же не меньше $5. В общем случае можно сказать, что медиана это то, сколько принес с собой средний человек. Наоборот, среднее арифметическое же совершенно неподходящая характеристика в нашем случае, поскольку выходит, что каждый, будь то бедняк или миллиардер, имел приблизительно $50 000 004,75.

Подозреваю, что радостные чиновники, рапортующие о средних з/п в наших регионах знают про медиану, но пользуются средним арифметическим :)

А вот в Daos средние значения CTR будут рассчитываться по медиане (квантилю 0,5). Зачем? Чтобы когда объявление уходит из ротации, отправлять рекламодателю разный текст в зависимости от результатов. Хорошие значения — похвалить, плохие — рекомендовать в следующий раз хорошенько подумать над текстом. Правильно ведь? По-моему, это правильно.

P.S. Написал примитивную PHP-функцию для вычисления медианы массива чисел, которая замечательно подходит для большинства случаев (в том числе и для Daos). Пользуйтесь, если надо, исходники тут — http://pastie.org/615897.

Комментарии

  1. # Бутылкус

    Мда… Скоро как в армии – будем «смыкать ряды»! =)
    Тормоз, тебя понесло в статистику?
    Я для своих расчетов пользуюсь ООо.Кальком, хватает заглаза. Ну и медиану считает дай дорогу. И графики строит… Пока оооочень линейные =)

  2. #  Тормоз: 

    ну, самое то в PHP-скриптах статистику подсчитывать через OOo. В целом вообще не понял твой комментарий. Скорей всего потому что ты не понял, про что заметка :)

  3. # Fewal

    Полусумма, это x+y/2=результат
    x – десятый, y – одиннадцатый. А разве на дессятом месте не может стоять бедняк, а на одиннадцатом богач !? Тогда получится совсем другой результат… Почему это именно два бедняка рядом о_О

  4. #  Тормоз: 

    потому что массив сортируется, так что соседние значения в его середине почти никогда не будут сильно отличаться.

    Для упрощения можно было бы даже не делить на два а тупо брать значение n1 или n2.

  5. # Denis Fayruzov

    В этом плане мне очень понравилась статья в блоге betterexplained: http://betterexplained.com/articles/how-to-analyze-data-using-the-average/

    Вообще прикольный малый, пишет о математике красиво и просто — читать приятно.

  6. # Бутылкус

    Ну я действительно не догнал – нафиг в пыхе придумывать, когда можно можно объектную вставку стелать в кальк и тянуть данные из любой формы =)

    А вообще для такой большой разницы лучше подойдёт не медиана, а среднее взвешенное (частный случай и есть медиана) – более репрезентативный результат. Дисперсия, так сказать, уменьшается =)

  7. #  Тормоз: 

    как раз для среднего CTR в рекламной системе лучше подходит медиана. Получается CTR среднестатистического рекламодателя.

  8. # MikeR: 

    Вообще хороший показатель – среднеквадратичное отклонение. В идеале вообще смотреть на график распределения. По поводу http://betterexplained.com/articles/how-to-analyze-data-using-the-average/ – там нет самого главного – применимости анализа по средним данным.

  9. # Бодро-желатель

    http://betterexplained.com/wp-content/uploads/average/geometric_mean.png
    зырь в корень йопт ;)

Комментирование этой статьи закрыто.

Интересное Покупки ТехникаРазное Отдых Статьи Строительство Услуги Общество Хобби Культура Советы Уют