Знатокам математики
Jun. 11th, 2011 03:16 pmЗадачу ставлю абстрактно, но суть должна быть ясна.
Итак, есть 2 группы людей по 10 человек, которые, скажем, работают в своих отделах продаж и приносят прибыль своей компании.
Первая группа дает результаты(в тысячах рублей):
20
15
3
2
1
2
1
2
2
2
В среднем - 5 тыс.р на человека.
Вторая группа:
5
5
4
5
6
5
7
3
5
5
В среднем: тоже 5 тыс рублей на человека.
Однако, и ежу понятно, что если исключить из первой группы двух "звезд", то средние результаты резко упадут (и, соответственно при исключении "лузеров" - возрастут). А вот при исключении любого человека из второй команды средний результат на человека останется примерно на том же уровне.
Вопрос: как математически сравнивают подобные наборы данных?
Т.е. определяют состоит ли группа из "крепких середнячков", либо из "звезд" и "лузеров".
UPD: мне еще посоветовали пользоваться медианой
по идее получается адекватно
есть мнения по этому поводу?
http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0%D0%BD%D0%B0_%28%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0%29
UPD2: решил, скажем так, уточнить задачу
короче, нужно получить некую характеристику, которая показывает насколько легко выбиться в тройку лидеров в каждой из команд
т.е. если я попадаю в первую команду, то мне для попадания в тройку нужно приносить прибыли 4 тыс.р, а если во вторую - то 6 тыс.р
соответственно в первой команде легче стать "одним из лучших"
что используется для такой постановки задачи?
хочу отметить, что если бы единственной целью было попадание в тройку лидеров - можно было бы просто ранжировать все значения и определить "сколько надо"
но важно общее решение для любого места, т.е. фактически - "крутизна графика" от низших к высшим
Итак, есть 2 группы людей по 10 человек, которые, скажем, работают в своих отделах продаж и приносят прибыль своей компании.
Первая группа дает результаты(в тысячах рублей):
20
15
3
2
1
2
1
2
2
2
В среднем - 5 тыс.р на человека.
Вторая группа:
5
5
4
5
6
5
7
3
5
5
В среднем: тоже 5 тыс рублей на человека.
Однако, и ежу понятно, что если исключить из первой группы двух "звезд", то средние результаты резко упадут (и, соответственно при исключении "лузеров" - возрастут). А вот при исключении любого человека из второй команды средний результат на человека останется примерно на том же уровне.
Вопрос: как математически сравнивают подобные наборы данных?
Т.е. определяют состоит ли группа из "крепких середнячков", либо из "звезд" и "лузеров".
UPD: мне еще посоветовали пользоваться медианой
по идее получается адекватно
есть мнения по этому поводу?
http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0%D0%BD%D0%B0_%28%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0%29
UPD2: решил, скажем так, уточнить задачу
короче, нужно получить некую характеристику, которая показывает насколько легко выбиться в тройку лидеров в каждой из команд
т.е. если я попадаю в первую команду, то мне для попадания в тройку нужно приносить прибыли 4 тыс.р, а если во вторую - то 6 тыс.р
соответственно в первой команде легче стать "одним из лучших"
что используется для такой постановки задачи?
хочу отметить, что если бы единственной целью было попадание в тройку лидеров - можно было бы просто ранжировать все значения и определить "сколько надо"
но важно общее решение для любого места, т.е. фактически - "крутизна графика" от низших к высшим
no subject
Date: 2011-06-11 11:22 am (UTC)no subject
Date: 2011-06-11 11:25 am (UTC)no subject
Date: 2011-06-11 11:31 am (UTC)Думаю, при таком вопросе скорее уместно определять некое совокупное отклонение - которое в идеальном случае (20 сотрудников по 5000 руб) будет равно 0, в других случаях - больше 0. Теоретически, этой величиной может быть тупо сумма модулей всех отклонений от нормы, но, в зависимости от других важных _вам_ факторов, эти отклонения может оказывать нелинейное влияние на общий результат. То есть, отклонение на 10% от 5000 в реальности может приносить вам проблем на 20% или даже на 100% (если кроме целевой средней цифры в 5000 вас что-то интересует). Эту "чувствительность" вам нужно определять самим :)
no subject
Date: 2011-06-11 11:42 am (UTC)no subject
Date: 2011-06-11 11:45 am (UTC)(!) Дык… правило парето…
Date: 2011-06-11 11:46 am (UTC)no subject
Date: 2011-06-11 12:11 pm (UTC)В первом случае будет горб в районе 15-20 тыр и горб в районе 2 тыр. То есть, распределение двугорбое, то есть, явно есть два сильно разных набора сотрудников.
Во втором случае будет один горб в районе 5 тыр.
Это еще более адекватно чем медиана, но требует больше слов для описания и больше знаний для понимания.
no subject
Date: 2011-06-11 12:32 pm (UTC)http://ru.wikipedia.org/wiki/%D0%A1%D1%80%D0%B5%D0%B4%D0%BD%D0%B5%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5
среднеквадратическое отклонение.
no subject
Date: 2011-06-11 07:59 pm (UTC)Для более подробного анализа (применимого при большом числе данных - 10 человек маловато будет) используют гистограммы - делят весь интервал значений на части и анализируют распределение значений, в какой интервал сколько попало.
И наконец, часто делают гипотезу о распределении значений. Например, мы можем предположить, что люди составляют две группы, и в каждой группе гауссово распределение. Подбираем параметры распределения для двух групп (центр распределения, разброс, амплитуда). Если нам не удалось подобрать параметры, которые хорошо ложатся на наши данные - то гипотеза провалилась, надо искать новую (например, исследовать вариант с тремя группами).
no subject
Date: 2011-06-13 05:09 pm (UTC)Плясать в любом случае надо вокруг отсортированного списка. Например. Сперва отсортировать список. Есть два способа: по убыванию и по возрастанию значений. Потом нужно разделить все значения на их сумму. Потом к каждому значению прибавить все, которые в списке выше него. "Нулевое" (перед первым) значение суммы будет ноль, последнее в списке -- единица. Номера мест в списке тоже следует поделить на количество мест. По данным построить график. По оси X будут места от 0 до 1, по Y будет сумма, от 0 до 1. Эдакая дуга, соединяющая два противоположных угла.
Вот с этой дугой, с этим графиком, и надо дальше работать. Только придётся проявисть фантазию. Например, можно сапроксимировать её степенной функцией (в этом случае обычно удобнее сортировать список по убыванию), и работать с показателем степени.
no subject
Date: 2011-06-13 05:19 pm (UTC)no subject
Date: 2011-06-18 10:01 am (UTC)