[identity profile] ebanat-kaliya.livejournal.com posting in [community profile] useful_faq
Задачу ставлю абстрактно, но суть должна быть ясна.
Итак, есть 2 группы людей по 10 человек, которые, скажем, работают в своих отделах продаж и приносят прибыль своей компании.
Первая группа дает результаты(в тысячах рублей):

20
15
3
2
1
2
1
2
2
2
В среднем - 5 тыс.р на человека.

Вторая группа:
5
5
4
5
6
5
7
3
5
5
В среднем: тоже 5 тыс рублей на человека.

Однако, и ежу понятно, что если исключить из первой группы двух "звезд", то средние результаты резко упадут (и, соответственно при исключении "лузеров" - возрастут). А вот при исключении любого человека из второй команды средний результат на человека останется примерно на том же уровне.

Вопрос: как математически сравнивают подобные наборы данных?
Т.е. определяют состоит ли группа из "крепких середнячков", либо из "звезд" и "лузеров".

UPD: мне еще посоветовали пользоваться медианой
по идее получается адекватно
есть мнения по этому поводу?
http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0%D0%BD%D0%B0_%28%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0%29
UPD2: решил, скажем так, уточнить задачу
короче, нужно получить некую характеристику, которая показывает насколько легко выбиться в тройку лидеров в каждой из команд

т.е. если я попадаю в первую команду, то мне для попадания в тройку нужно приносить прибыли 4 тыс.р, а если во вторую - то 6 тыс.р
соответственно в первой команде легче стать "одним из лучших"
что используется для такой постановки задачи?
хочу отметить, что если бы единственной целью было попадание в тройку лидеров - можно было бы просто ранжировать все значения и определить "сколько надо"
но важно общее решение для любого места, т.е. фактически - "крутизна графика" от низших к высшим

Date: 2011-06-11 11:22 am (UTC)
From: [identity profile] porcospino.livejournal.com
в статистике есть понятие "меры разброса".

Date: 2011-06-11 11:25 am (UTC)
From: [identity profile] skvoznik.livejournal.com
Думаю, копать надо в сторону дисперсии, среднеквадратичных отклонений, средневзвешенных индексов. Подзодов много, но вы должны сначала точно поставить задачу: что именно хотите описать - перепад макс-мин, градиент, и т.п.

Date: 2011-06-11 11:31 am (UTC)
From: [identity profile] skvoznik.livejournal.com
> Т.е. определяют состоит ли группа из "крепких середнячков", либо из "звезд" и "лузеров".

Думаю, при таком вопросе скорее уместно определять некое совокупное отклонение - которое в идеальном случае (20 сотрудников по 5000 руб) будет равно 0, в других случаях - больше 0. Теоретически, этой величиной может быть тупо сумма модулей всех отклонений от нормы, но, в зависимости от других важных _вам_ факторов, эти отклонения может оказывать нелинейное влияние на общий результат. То есть, отклонение на 10% от 5000 в реальности может приносить вам проблем на 20% или даже на 100% (если кроме целевой средней цифры в 5000 вас что-то интересует). Эту "чувствительность" вам нужно определять самим :)



Date: 2011-06-11 11:42 am (UTC)
From: [identity profile] skvoznik.livejournal.com
Извиняюсь за флуд, но прочитал ваш апдейт. Еще раз скажу: задача поставлена неточно, поэтому вариантов ее решения - куча. Чтобы определить степень отклонения от нормы, достаточно алгоритма в моем предыдущем каменте - вы всегда сможете точно понять, идеален ли состав фирмы. Но вас, вероятно, больше интересует, _насколько_ он неиделален и _как_ это отражается на производственном процессе. Для этого нужно вводить чувствительность и нелинейные алгоритмы. Введите все переменные в задачу, и станет яснее.

Date: 2011-06-11 11:45 am (UTC)
From: [identity profile] mikser.livejournal.com
Среднее отклонение от середины/медианы. Простенько, но в большинстве случаев достаточно.

(!) Дык… правило парето…

Date: 2011-06-11 11:46 am (UTC)
From: [identity profile] baatr.livejournal.com
зачем усложнять жизнь…

Date: 2011-06-11 12:11 pm (UTC)
From: [identity profile] nicka-startcev.livejournal.com
Больше всего инфы дает распределение сотрудников по доходам.
В первом случае будет горб в районе 15-20 тыр и горб в районе 2 тыр. То есть, распределение двугорбое, то есть, явно есть два сильно разных набора сотрудников.

Во втором случае будет один горб в районе 5 тыр.

Это еще более адекватно чем медиана, но требует больше слов для описания и больше знаний для понимания.

Date: 2011-06-11 12:32 pm (UTC)
From: [identity profile] koshovske.livejournal.com
еще есть такая тема
http://ru.wikipedia.org/wiki/%D0%A1%D1%80%D0%B5%D0%B4%D0%BD%D0%B5%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5
среднеквадратическое отклонение.

Date: 2011-06-11 07:59 pm (UTC)
From: [identity profile] karpion.livejournal.com
Как тут уже сказали, кроме "среднего арифметического" (которое тут "5 тыс рублей на человека" в обоих случаях) есть "среднеквадратичное отклонение". Считается оно так:
сумма по всем i ( (X[i]-X_среднее)^2 )
что можно привести к
сумма по всем i ( X[i]^2 ) - X_среднее^2
(т.е. в программировании считается за один проход, за один цикл).

Для более подробного анализа (применимого при большом числе данных - 10 человек маловато будет) используют гистограммы - делят весь интервал значений на части и анализируют распределение значений, в какой интервал сколько попало.

И наконец, часто делают гипотезу о распределении значений. Например, мы можем предположить, что люди составляют две группы, и в каждой группе гауссово распределение. Подбираем параметры распределения для двух групп (центр распределения, разброс, амплитуда). Если нам не удалось подобрать параметры, которые хорошо ложатся на наши данные - то гипотеза провалилась, надо искать новую (например, исследовать вариант с тремя группами).

Date: 2011-06-13 05:09 pm (UTC)
From: [identity profile] kray-zemli.livejournal.com
Статистика -- лженаука (есть ложь, есть наглая ложь...)

Плясать в любом случае надо вокруг отсортированного списка. Например. Сперва отсортировать список. Есть два способа: по убыванию и по возрастанию значений. Потом нужно разделить все значения на их сумму. Потом к каждому значению прибавить все, которые в списке выше него. "Нулевое" (перед первым) значение суммы будет ноль, последнее в списке -- единица. Номера мест в списке тоже следует поделить на количество мест. По данным построить график. По оси X будут места от 0 до 1, по Y будет сумма, от 0 до 1. Эдакая дуга, соединяющая два противоположных угла.

Вот с этой дугой, с этим графиком, и надо дальше работать. Только придётся проявисть фантазию. Например, можно сапроксимировать её степенной функцией (в этом случае обычно удобнее сортировать список по убыванию), и работать с показателем степени.

Date: 2011-06-13 05:19 pm (UTC)
From: [identity profile] kray-zemli.livejournal.com
Ещё, например, можно найти точку, в которой разница высот между полученной дугой и прямой линией (0,0)-(1,1) будет максимальна. Расположение этой точки приблизительно характеризует границу между "виннерами" и "лузерами". Чем ближе к концу (если массив сортировался по убыванию), тем больше "виннеров".

Date: 2011-06-18 10:01 am (UTC)
From: [identity profile] boltatel.livejournal.com
Подумайте на тему "коэффициент Джини".