Windows 10
Dec. 19th, 2015 02:24 pm![[identity profile]](https://www.dreamwidth.org/img/silk/identity/openid.png)
![[community profile]](https://www.dreamwidth.org/img/silk/identity/community.png)
У меня каждый день выскакивает предложение обновиться до Windows 10. Стоит ли заглатывать эту наживку? У меня сейчас стоит Windows 7 - расширенная версия, за которую я платил из собственного кармана. Какие могут быть подвохи?
no subject
Date: 2015-12-19 04:20 pm (UTC)Монетизация большей части всей IT сейчас идет за счет рекламы. Причем не абы какой рекламы, а таргетированной на конкретного пользователя. Если сайт заставит вас что-нибудь купить, процент от стоимости покупки достанется сайту. У Microsoft есть очень серьезные системы, работающие исключительно на рекламе, например, Bing. Впрочем, eBay тоже под их же контролем. В общем, конечной целью является манипуляция пользователем, "программирование" человека на покупку тех или иных ненужных вещей. Жизнь в advertisement-driven-режиме.
Так вот, в IT для этого есть возможность, которой нет у телевидения и модных журналов: есть обратная связь. Можно подстроить рекламу под конкретного человека с учетом его личных психологических особенностей и слабостей. Причем современные самообучающиеся системы справляются с этой задачей намного лучше профессиональных психологов, почти идеально. В этой игре машина выигрывает у человека. Нужно только собрать достаточно подробную информацию о человеке, о его интересах и привычках.
Обычно сбор информации делался просто по публичной активности пользователя. Например, по тому, что человек ищет в поисковой системе, можно с хорошей точностью определить его возраст, пол, образование, хобби и т.д. Крупные супермаркеты умеют делать то же самое по спискам покупок, если платить карточкой (т.е. если машина может определить, что разные покупки делал один и тот же человек), и умеют присылать рекламу товаров для ремонта тем, кто недавно переехал, или детских вещей тем, кто ждет ребенка. Так вот, Microsoft сейчас пошла намного дальше. Их система теперь умеет следить за человеком ежесекундно. Совершенно не удивлюсь, если они научатся определять, когда человек чуть-чуть выпил, чтобы именно в этот момент провоцировать его на ненужные покупки, или еще что-нибудь в этом роде.
no subject
Date: 2015-12-19 04:21 pm (UTC)У меня это полностью устраивает.
Таргетная реклама мне более интересна.
Так что пускай анализируют.
no subject
Date: 2015-12-19 04:25 pm (UTC)no subject
Date: 2015-12-19 04:28 pm (UTC)Не надо отбирать хлеб у правительства РФ
no subject
Date: 2015-12-19 04:33 pm (UTC)no subject
Date: 2015-12-22 05:04 am (UTC)это вы сами придумали? потому как user behavioral trageting не так чтоб выдающееся достижение. Но лучше чем рандомно картинки показывать.
>Нужно только собрать достаточно подробную информацию о человеке, о его интересах и привычках.
не получается. во первых больше месяца смысла не имеет хранить, - сканировать в риалтайме не уже получается. Даже месяц это много, надо городить ряды хадупов.
во вторых оно по закону анонимизировано (ну хоть как то). во третьих все про привычки, сводится к тому - мальчикам показывать машинки и гаечные ключи, девочкам тряпочки и барби. Ну и разумеется последнее искомое в интернете и тип сайта чтоб соответствовать.
>Крупные супермаркеты умеют делать то же самое по спискам покупок, если платить карточкой
в штатах - нельзя. поэтому всякие мембершипы и вводят.
no subject
Date: 2015-12-22 01:01 pm (UTC)User behavioral trageting - это очень растяжимое понятие. Зависит от того, какие факторы из поведения пользователя извлекать и как ими ползоваться. Если просто захардкодить, это одно, и это то, что во всех учебниках описано. А если на этих данных обучить формулу факторов, пользуясь объемами продаж в качестве данных для обучения, это уже совсем-совсем другое. И вот второе делать научились относительно недавно. Не потому, что не знали как (давным-давно знали), а потому, что придумали, как эффективно данные в базе хранить, как не писать сырые логи.
no subject
Date: 2015-12-22 07:25 pm (UTC)речь про преаггрегированную. Но когда вы имеете дело с ~80% всех интернетюзеров и где то 10-20 миллиардов показов в день, и времени реакции приблизительно от 2ms до максимум 20ms - все меняется.
>Это в пределах нескольких килобайт на юзера, какие хадупы, вы что?
речь о нескольких терабайтах в риалтайме и где то сотне (и запросто до двух в пике) связанных одновременно ад-серверов.
Ну так, если отойти от игрушек. У MS все похуже, но у них и ресурсов больше.
>А если на этих данных обучить формулу факторов, пользуясь объемами продаж в качестве данных для обучения, это уже совсем-совсем другое.
Этого нет ни у кого. Если мы ведем речь о двух-трех крупных магазинах (а больше их в природе и нет), и где то на пике 60 миллионов визиторов в час даже несколько больше. Все остальное, таргеты там, бест баи мейсисы -это детский сад и трепыхания.
>а потому, что придумали, как эффективно данные в базе хранить,
это вообще не проблема. Хранить.
no subject
Date: 2015-12-23 02:28 pm (UTC)То, чего "нет ни у кого" - это как раз то, что есть. У нас. И есть основания полагать, что до нее додумались не только мы. Но в открытой печати я ее пока не видел.
Где-то до сотни терабайтов со временем отклика 50 миллисекунд обрабатывать умеем.
no subject
Date: 2015-12-23 07:01 pm (UTC)в смысле? полно стартапов в долине которые пытаются что то делать в этой области.
В первом и втором по размере магазинах этого нет, в описываемом вами виде.
>То, чего "нет ни у кого" - это как раз то, что есть. У нас.
"Вы" хотя бы полмиллиарда продаж в долларах сделали за последние праздники, вот эти несколько дней?
И, скажем за год, миллиард набегает?
>Где-то до сотни терабайтов со временем отклика 50 миллисекунд обрабатывать умеем.
это очень интересно. Не расскажете кто это такое умеет и что за технологии используются?
особенно "сотни терабайтов" . А то мне известное - единицы терабайт уже существенная проблема (для компаний размера гугла и майкрософта, точнее их рекламных подразделений).
И 50 миллисекунд - это много. нужно бы меньше 10, иногда - уложиться в 2ms, с учетом всей латенси на трансакцию (и плюс 200 миллисекунд между побережьями, плюс реакция кэшей акамая, плюс отклик серверов и требования площадок). Но все равно очень интересно.
no subject
Date: 2015-12-24 12:21 pm (UTC)Да.
no subject
Date: 2015-12-24 10:40 pm (UTC)no subject
Date: 2015-12-25 11:24 am (UTC)Ну в общих чертах, конечно, разделяй и властвуй и немного статистики. Данные используются неравномерно. Делаем на каждой ноде дисковый кеш размером почти с ОЗУ. Если ОЗУ много, а данных на диске ноды не очень много, мы таким образом поднимаем в ОЗУ все нужные данные. (AFAIK, все поисковики так работают - вся полезная часть индекса всегда в ОЗУ). Как организовать хранение - это другой вопрос. Вы наверное знаете, но на всякий случай в качестве примера - как классические поисковики работают. (Если вдруг каким-то чудом не знаете, книга "Введение в информационный поиск"). Там инвертированный индекс, по каждому слову сортированный список номеров документов с дополнительными индексами для быстрого поиска. Пересечение таких вещей в худшем случае O(n), но в реальных запросах близко к O(1), как у хэш-таблицы. Для других задач алгоритмы отличаются, но тут я уже не знаю, что можно рассказывать, а что нельзя. Дальше нам надо чисто статистически определить, сколько можно хранить на одной машине, не выходя за допустимое время ответа. Обычно это что-то порядка 100 гигабайт.
Ну и дальше понятно - просто наращиваем объем кластера. 1000 машин - 100 терабайт. Ну еще реплики, разумеется, так что реально машин надо раза в три больше. Собрать данные со всех машин можно за логарифмическое время.
У всех таких технологий недостаток один: они не универсальны, под каждую задачу надо все разрабатывать заново. Они очень сильно завязаны на реальную статистику распределения данных, потому что короткое время ответа получается статистически. Основано на том, что у любого реального распределения данных есть длинный хвост, большинство распределений имеют характер Ципфа. Поэтому всегда удается сделать очень эффективное кеширование.
no subject
Date: 2015-12-26 01:06 am (UTC)так что можно ссылку на магазин, или провайдера рекламы, чтоб упростить. Вы не стеснятесь, название компании под nda не подпадает.
no subject
Date: 2015-12-26 12:03 pm (UTC)