[identity profile] free-as-freedom.livejournal.com posting in [community profile] useful_faq
Расскажите, знающие люди, как проходят статистические опросы? Читал, что институт Гэллапа в США проводит опросы для 1,5-2 тысяч человек, получая достоверные результаты с низкой погрешностью. А как распределяются опрашиваемые по регионам? Например, в одном штате живут 2% от всего населения, а в другом 4%. Значит ли это, что во втором штате опрашивают в два раза больше людей, или во всех одинаковое количество?

Date: 2015-12-25 11:39 am (UTC)
From: [identity profile] olivia-burton.livejournal.com
для этого исаользуются специальные статистические методы, они изложены в учебниках по статистике

Date: 2015-12-25 12:14 pm (UTC)
From: [identity profile] olivia-burton.livejournal.com


взвешенные выборки

Date: 2015-12-25 11:53 am (UTC)
From: [identity profile] dims12.livejournal.com
Есть всякие технологии построения выборок.

В вашем случае можно использовать т.н. "пропорциональную выборку", то есть, брать из каждого штата столько представителей, сколько пропорционально их доле в общей численности населения.

Date: 2015-12-25 12:14 pm (UTC)
From: [identity profile] dims12.livejournal.com
Нет, не обязательно. Тут дело в технологии. Вы же можете не знать, из какого региона опрашиваемые. И вообще, регион -- это только пример группы. Вы можете не знать, возраст, пол, партийную принадлежность и многое другое. Поэтому, в разных случаях используются разные методы, чтобы выборка получилась "хорошей" или "репрезентативной", то есть, такой, по которой можно было бы судить о "генеральной совокупности", то есть, обо всём исследуемом множестве.

Date: 2015-12-25 11:56 am (UTC)
From: [identity profile] i-shmool.livejournal.com
Равномерность опрашиваемых соблюдается по полу, возрасту и географии. Берется выборка, копирующая генеральную совокупность по этим параметрам максимально точно. Соблюдение общей равномерности опросов, чтобы результаты не кособочило от субъективных факторов — это уже задача полевиков (тех, кто администрирует работу в поле) и здесь очень много нюансов и хитростей.

Date: 2015-12-25 12:12 pm (UTC)
From: [identity profile] i-shmool.livejournal.com
В общем, довольно простая методика, и довольно эффективная. Нужно понимать только, что точные результаты достигаются только для простых и недвусмысленных вопросов. Например, спросив «Есть ли в вашей семье гараж?», получите знание об обеспеченности домохозяйств гаражами с погрешностью процента полтора, то есть очень достоверные. А вот результаты ответов на вопрос «Используете ли вы страпон в сексуальных играх?» — это вообще мусор, не говорящий ни о чем, кроме числа шутников и фриков в выборке, да и то косвенно.
А неангажированные и профессиональные опросы очень достоверны, многократно проверено на выборах.

Date: 2015-12-25 02:15 pm (UTC)
From: [identity profile] leshiy-1978.livejournal.com
Во всей опросах ВЦИОМа мелькает число 1,6 тыс. опрошенных.
Но ведь 1600 опрошенных вчера и 1600 опрошенных завтра будут отличаться по социальному, возрастному, половому, религиозному и прочим срезам.
Почему оба исследования будут обладать статистической погрешностью около 1%?
Спасибо за ответ.

Date: 2015-12-25 02:22 pm (UTC)
From: [identity profile] i-shmool.livejournal.com
Вы невнимательно прочитали мои предыдущие комменты: по половозрастному параметру выборка как соответствовала генеральной совокупности, так и будет. Плюс география и еще много-много уже технологических тонкостей (скажем, чтобы интервьюер одну девятиэтажку-военное общежитие, например, не мог опросить, или коттеджный поселок). Это строгое соблюдение выборки по трем параметрам (именно строгое, а не абы как) и дает стабильный результат.

Date: 2015-12-25 03:08 pm (UTC)
From: [identity profile] leshiy-1978.livejournal.com
Интервьюеры хватают на улице первых попавшихся - вчера и завтра это по сто человек, но вчера это 15 пенсионеров, а завтра 25, вчера 10 бомжей, а завтра ни одного, вчера 45 женщин, а завтра 60
Опрашивает не один человек, а десятки по всей стране и они не могут в режиме реального времени уточнять кого надо опрашивать, а кого нет.

Date: 2015-12-25 03:13 pm (UTC)
From: [identity profile] i-shmool.livejournal.com
На улице никого не хватают, опрос поквартирный.

Date: 2015-12-25 03:29 pm (UTC)
From: [identity profile] leshiy-1978.livejournal.com
Меня хватали в 2012. То ли Левада, то ли ВЦИОМ, то ли ФОМ.
Хотя, если поквартирный, то это всё объясняет.

Date: 2015-12-25 03:43 pm (UTC)
From: [identity profile] i-shmool.livejournal.com
Если мы говорим об отражении мнения всего населения (избирателей) с названной погрешностью, то это только опрос по месту жительства. Второй по точности, но самый оперативный и недорогой (первый космически дорог по понятным причинам) — телефонный. При нынешней телефонизации населения он уже вплотную конкурирует с квартирниками, которые в большинстве случаев просто чрезмерны. Уличник годен только для очень специфических целей, когда изучается, например, мнение обитателей конкретно этой улицы или района. Может быть еще что-то, но обязательно очень специальное.

Date: 2015-12-25 04:21 pm (UTC)
From: [identity profile] leshiy-1978.livejournal.com
Справедливости ради, опрос на который я попал был после митинга. И вопросы были соответствующие. Видать изучали социальный срез митингующий.

Date: 2015-12-25 04:28 pm (UTC)
From: [identity profile] i-shmool.livejournal.com
Да, тогда все абсолютно корректно. Генеральной совокупностью были участники митинга и кроме как ловить на улице их практически и не изучить. А вот всякие там «86 процентов» и прочие цифры из новостей получаются именно квартирниками.

Date: 2015-12-25 04:32 pm (UTC)
From: [identity profile] leshiy-1978.livejournal.com
Я просто всегда думал, что опросы проводят на улицах.
Благодарю за ликбез.

Date: 2015-12-25 04:40 pm (UTC)
From: [identity profile] i-shmool.livejournal.com
Да мне тоже казалось, что это какое-то наебалово, пока сам не поработал в теме. Оказалось, что вся хитрость — только в очень трудоемкой процедуре и больше никаких принципиально значимых хитростей нет.

Date: 2015-12-26 09:04 am (UTC)
From: [identity profile] djdance.livejournal.com
ну раз проработали, то подтвердите или опровергните моё впечатление, что ДО сита берется отнюдь не 1600 человек на всю страну. Вот вопрос - сколько? Я имею в виду после полевых работа, не до. То есть, сколько выкидываем из результатов из=за нерепрезентативности, перевзвесу, вот это всё?

Date: 2015-12-26 09:12 am (UTC)
From: [identity profile] i-shmool.livejournal.com
Нисколько. 1600 респондентов (возьмем эту цифру как наиболее распространенную) определенных методикой параметров — это уже итог работы полевиков, которые, да, берут некоторый запас обычно на отбраковку, но главное — настраивают свою технологию так, чтобы все вышло как надо, плюс разруливают процесс в реальном времени. В этом и состоит трудоемкость, здесь масса подводных камней и хитростей.

Date: 2015-12-26 09:19 am (UTC)
From: [identity profile] djdance.livejournal.com
нене, вы просто термины заменили, я про полевиков и говорю. А знаете почему спрашиваю? потому что вся страна ржёт с этих 1600. Ну, любая домохозяйка понимает, что где миллионное население и где 1600, смешно же. Ну вы понимаете. Так вот. Я считаю, что озвучивать надо не 1600, а всё до сита, до поля, до весов, прям всю базу. Тогда поверят. Вопрос в том, какова база, сколько бракуется.

Date: 2015-12-26 09:40 am (UTC)
From: [identity profile] djdance.livejournal.com
ну откуда я знаю, я что, клинический психолог? :) наверное потому что дилетант доверяет бытовой эмпирике, а она говорит что 500000 голосов в "активном гражданине" - репрезентативны, а 300 бомжей вциома - нет. Что вциом и его pr лыка не вяжет, - это отдельный разговор. Но чисто технически размер базы до отсева мне очень интересен. Он мог бы побить любые большие числа. Надеюсь.

Date: 2015-12-26 12:38 pm (UTC)
From: [identity profile] djdance.livejournal.com
я считаю? я не считаю.

Date: 2015-12-26 01:56 pm (UTC)
From: [identity profile] djdance.livejournal.com
на ваш вопрос есть два ответа, пожалуйста, рассматривайте их как от двух разных меня, ок?

1. слюшый дарагой, если в моем районе будут проводить опрос, и 500000 человек из моего района скажут да, я поверю. А если я прочитаю в газете, что вциом опросил (сколько там на 1/10 мск? около 30-60 чел?) с погрешностью 3% - я рассмеюсь тому в лицо и ни за что не поверю. Пусть хоть они будут 100% представлять домохозяйства и соцдем (а черт, это уже я-2)

2. Я не говорил что АГ репрезентативен (по крайней мере, я этого не знаю, там вроде делают аналитику и итпа отсев, а не просто валят в кучу людей и коней). Я лишь говорил, что в глазах народа большие числа выглядят убедительнее, чем узкая ФГ. Я и с ними согласен, хотя маткухню знаю. Так вот вопрос, почему вциомы этого не понимают?

Date: 2015-12-26 03:01 pm (UTC)
From: [identity profile] djdance.livejournal.com
по закону толпы - поверит. И верит. АГ не зря сделан. И этот, инициатива про 100 тыщ подписей

Date: 2015-12-26 03:21 pm (UTC)
From: [identity profile] djdance.livejournal.com
почему сразу подтасовано? вот уж не об этом речь. Скорее, в доверии. А еще в том, что каждый рано или поздно попадает в ту или иную фокусгруппу. И все мы знаем, как и что там происходит. А потом на этой схоластике с тараканами и плохой памятью у нас строится результат х10^5? гыгы, скажу я.

Date: 2015-12-26 09:36 am (UTC)
From: [identity profile] i-shmool.livejournal.com
Все избиратели — это не какая-то там монструозная база данных. Это — генеральная совокупность, то есть объект изучения. 1600 дает нужную точность как абсолютная цифра в силу достаточного снижения веса каждого отдельного респондента в распределении результатов, а не как относительная от общего числа этой генеральной совокупности. Можно и сикстиллиард людей измерить по этим 1600 точкам — главное, чтобы они максимально корректно моделировали этот сикстиллиард по трем названным параметрам. Повторюсь: все дело только в чрезвычайно сложной технологии. Поленился проконтролировать интервьюера, который поленился прочесать населенный пункт с нужным шагом — и результаты исказятся. Уж не говоря о том, что анкету можно даже не «нарисовать», а «дорисовать», что никакой полевой контроль не выявит: позвонишь респонденту «Приходили, опрашивали?» — «Да». А то, что интервьюер от лени несколько длинных вопросов не стал задавать и сам ответы придумал, уже только на этапе анализа опытный исследователь может определить. И такого — море. Где-то недосмотришь — и в мусор можно выбрасывать всю титаническую работу. Ну, или лапшу на уши вешать заказчику, объясняя пики и провалы в сравнении с прошлыми замерами. Как-то так.

Date: 2015-12-26 09:46 am (UTC)
From: [identity profile] djdance.livejournal.com
это я все знаю, извините.
хотя читателям жж будет полезно перечитать.

но все-таки с pr-позиции мой вопрос остается субъективно актуальным.
а если говорить нормальным научным языком, то на малой базе девиации по модели будут за гранью разумного. И тем более там нет застывшего соцдема. А значит есть динамика, и у неё есть вольюм. Вопрос - какой? И почему его не озвучивают?

Date: 2015-12-26 09:57 am (UTC)
From: [identity profile] i-shmool.livejournal.com
А вот это уже тонкости технологии, которые мало кому интересны. Научно мыслящий человек сам докопается, «Фома неверующий» попросту не поймет (да и разбираться не станет), а обыватель в своем большинстве по крайней мере воспримет, а там и актуализирует услышанные результаты опроса в разговоре с кем-то другим. И как это нет застывшего соцдема? Инерция его крайне велика вообще-то в периоды без катаклизмов. Какая может быть динамика в генеральной совокупности «избиратели Красноярского края», например, за исключением естественных убыли/пополнения, легко учитываемых и даже рассчитываемых?

Date: 2015-12-26 12:42 pm (UTC)
From: [identity profile] djdance.livejournal.com
эт мы перешли на обсуждение моей идеи, что вциому стоит публиковать базу а не выборку? а как же мой вопрос про её объем? видимо, вы не знаете, ну ладно. Давайте порассуждаем про pr. Моя точка зрения озвучена выше, и заключается в тотальном недоверии к результатам. По двум причинам: низы не разбираются в социологии (да даже простой математике), а верхи делают в сноске сто человек на город. Обе стороны сами себе буратины, имхо

Date: 2015-12-26 12:58 pm (UTC)
From: [identity profile] i-shmool.livejournal.com
Мы в терминах расходимся, я вас не понимаю. Выборка — это методика отбора и количество респондентов, в узком смысле те же 1600 человек. Что вы подразумеваете под базой, не понимаю, под объемом тоже.
А насчет тотального недоверия совершенно не согласен. Про 86 процентов вы часто, наверное, слышите. Использование этих данных разве не является для вас свидетельством доверия к ним? Зачем людям разбираться в чем-то, чтобы доверять этому? Это совершенно не связанные друг с другом состояния.

Date: 2015-12-26 01:18 pm (UTC)
From: [identity profile] djdance.livejournal.com
отбор из чего? из базы.

конечно не является.

Date: 2015-12-26 01:27 pm (UTC)
From: [identity profile] i-shmool.livejournal.com
При квартирниках никакой базы нет и быть не может. Да и при телефонных по большому счету тоже. Это было бы грубейшим нарушением методики.
Относительно недоверия к социологии в таком случае ваше слово становится против моего, что вообще лишает дискуссию смысла. Считайте, что не доверяют, на здоровье.

Date: 2015-12-26 01:42 pm (UTC)
From: [identity profile] djdance.livejournal.com
при квартирниках нет отбора? :)

Date: 2015-12-26 01:49 pm (UTC)
From: [identity profile] djdance.livejournal.com
в данной ветке мы используем мое переопределение базы, чуть выше мы определились с этим, что база - это все потенциальные интервьюеры. Дефиниция требует уточнения, но можно и так лясы поточить. Меня интересует лишь относительная цифра

скажем, как пример: москва, опрошено 300 человек. могло быть опрошено 30000.

Date: 2015-12-26 01:58 pm (UTC)
From: [identity profile] i-shmool.livejournal.com
Ваш дополнительный термин вообще никакого смысла не имеет и даже вреден в случае попытки реализации такого подхода. Есть генеральная совокупность: она и может быть опрошена, вся. 3 миллиона — так 3 миллиона. Нет никакой «базы», нет никакого сужения этого массива, иначе бы это моментально и обязательно исказило результаты. Откуда вы вообще взяли эти свои представления о каких-то «базах»?

Date: 2015-12-26 02:01 pm (UTC)
From: [identity profile] djdance.livejournal.com
так нет сужения или есть отбор? )
ладно, это риторика.
окей, обозначим предмет вопроса генеральной совокупностью.
три миллиона говорите?
остановимся на этом.

и приходим к сути моего любопытства: а почему не пишут в сноске именно эту цифру?

Date: 2015-12-26 02:08 pm (UTC)
From: [identity profile] i-shmool.livejournal.com
А что она вам скажет? К тому же, пишут.

Date: 2015-12-26 02:16 pm (UTC)
From: [identity profile] djdance.livejournal.com
как и все сноски, зарегулированные законами, она мне не позволит ввестись в заблуждение. Под "мне" я подразумеваю читателей новостей про результаты.

пишут - ок, посмотрю внимательнее.
пока единственную такую "честность" я видел у одной известной, но неофициальной когорты, да и то перед выборами. И не факт что то манипулирование белее потенциального наличествующего, евпочя.

Date: 2015-12-25 01:54 pm (UTC)
From: [identity profile] sevabashirov.livejournal.com
Пропорционально населению и другим параметрам, причем полный их набор зависит от конкретного вопроса.