Windows 10

Dec. 19th, 2015 02:24 pm
[identity profile] piglet-the-4th.livejournal.com posting in [community profile] useful_faq
У меня каждый день выскакивает предложение обновиться до Windows 10. Стоит ли заглатывать эту наживку? У меня сейчас стоит Windows 7 - расширенная версия, за которую я платил из собственного кармана. Какие могут быть подвохи?

Date: 2015-12-22 05:04 am (UTC)
From: [identity profile] chapai67.livejournal.com
>ричем современные самообучающиеся системы справляются с этой задачей намного лучше профессиональных психологов, почти идеально.

это вы сами придумали? потому как user behavioral trageting не так чтоб выдающееся достижение. Но лучше чем рандомно картинки показывать.

>Нужно только собрать достаточно подробную информацию о человеке, о его интересах и привычках.

не получается. во первых больше месяца смысла не имеет хранить, - сканировать в риалтайме не уже получается. Даже месяц это много, надо городить ряды хадупов.
во вторых оно по закону анонимизировано (ну хоть как то). во третьих все про привычки, сводится к тому - мальчикам показывать машинки и гаечные ключи, девочкам тряпочки и барби. Ну и разумеется последнее искомое в интернете и тип сайта чтоб соответствовать.

>Крупные супермаркеты умеют делать то же самое по спискам покупок, если платить карточкой
в штатах - нельзя. поэтому всякие мембершипы и вводят.


Date: 2015-12-22 01:01 pm (UTC)
From: [identity profile] agalakhov.livejournal.com
А зачем хранить сырую информацию? На каждого пользователя достаточно одной записи константного размера с набором факторов, которые в реальном времени корректируются. Это в пределах нескольких килобайт на юзера, какие хадупы, вы что? Динамическое программирование еще никто не отменял.

User behavioral trageting - это очень растяжимое понятие. Зависит от того, какие факторы из поведения пользователя извлекать и как ими ползоваться. Если просто захардкодить, это одно, и это то, что во всех учебниках описано. А если на этих данных обучить формулу факторов, пользуясь объемами продаж в качестве данных для обучения, это уже совсем-совсем другое. И вот второе делать научились относительно недавно. Не потому, что не знали как (давным-давно знали), а потому, что придумали, как эффективно данные в базе хранить, как не писать сырые логи.

Date: 2015-12-22 07:25 pm (UTC)
From: [identity profile] chapai67.livejournal.com
>А зачем хранить сырую информацию?
речь про преаггрегированную. Но когда вы имеете дело с ~80% всех интернетюзеров и где то 10-20 миллиардов показов в день, и времени реакции приблизительно от 2ms до максимум 20ms - все меняется.

>Это в пределах нескольких килобайт на юзера, какие хадупы, вы что?
речь о нескольких терабайтах в риалтайме и где то сотне (и запросто до двух в пике) связанных одновременно ад-серверов.
Ну так, если отойти от игрушек. У MS все похуже, но у них и ресурсов больше.

>А если на этих данных обучить формулу факторов, пользуясь объемами продаж в качестве данных для обучения, это уже совсем-совсем другое.

Этого нет ни у кого. Если мы ведем речь о двух-трех крупных магазинах (а больше их в природе и нет), и где то на пике 60 миллионов визиторов в час даже несколько больше. Все остальное, таргеты там, бест баи мейсисы -это детский сад и трепыхания.

>а потому, что придумали, как эффективно данные в базе хранить,
это вообще не проблема. Хранить.


Date: 2015-12-23 02:28 pm (UTC)
From: [identity profile] agalakhov.livejournal.com
Понятно. Значит, информация о технологии пока еще остается закрытой, как я и предполагал.

То, чего "нет ни у кого" - это как раз то, что есть. У нас. И есть основания полагать, что до нее додумались не только мы. Но в открытой печати я ее пока не видел.

Где-то до сотни терабайтов со временем отклика 50 миллисекунд обрабатывать умеем.

Date: 2015-12-23 07:01 pm (UTC)
From: [identity profile] chapai67.livejournal.com
>. Значит, информация о технологии пока еще остается закрытой, как я и предполагал.

в смысле? полно стартапов в долине которые пытаются что то делать в этой области.
В первом и втором по размере магазинах этого нет, в описываемом вами виде.

>То, чего "нет ни у кого" - это как раз то, что есть. У нас.
"Вы" хотя бы полмиллиарда продаж в долларах сделали за последние праздники, вот эти несколько дней?
И, скажем за год, миллиард набегает?

>Где-то до сотни терабайтов со временем отклика 50 миллисекунд обрабатывать умеем.
это очень интересно. Не расскажете кто это такое умеет и что за технологии используются?
особенно "сотни терабайтов" . А то мне известное - единицы терабайт уже существенная проблема (для компаний размера гугла и майкрософта, точнее их рекламных подразделений).
И 50 миллисекунд - это много. нужно бы меньше 10, иногда - уложиться в 2ms, с учетом всей латенси на трансакцию (и плюс 200 миллисекунд между побережьями, плюс реакция кэшей акамая, плюс отклик серверов и требования площадок). Но все равно очень интересно.


Date: 2015-12-24 12:21 pm (UTC)
From: [identity profile] agalakhov.livejournal.com
> И, скажем за год, миллиард набегает?

Да.

Date: 2015-12-24 10:40 pm (UTC)
From: [identity profile] chapai67.livejournal.com
а можно ссылочку? и чуть подробнее про технологии сотен терабайт. я вполне серьезно, интересно же что бывает на рынке.

Date: 2015-12-25 11:24 am (UTC)
From: [identity profile] agalakhov.livejournal.com
Компанию вы наверняка знаете, а подробнее я рассказывать боюсь, NDA подписывал. Технология представляет собой очень неочевидную комбинацию довольно известных алгоритмов, и даже если я просто перечислю алгоритмы, этого для посвященных может быть достаточно, чтобы воспроизвести все.

Ну в общих чертах, конечно, разделяй и властвуй и немного статистики. Данные используются неравномерно. Делаем на каждой ноде дисковый кеш размером почти с ОЗУ. Если ОЗУ много, а данных на диске ноды не очень много, мы таким образом поднимаем в ОЗУ все нужные данные. (AFAIK, все поисковики так работают - вся полезная часть индекса всегда в ОЗУ). Как организовать хранение - это другой вопрос. Вы наверное знаете, но на всякий случай в качестве примера - как классические поисковики работают. (Если вдруг каким-то чудом не знаете, книга "Введение в информационный поиск"). Там инвертированный индекс, по каждому слову сортированный список номеров документов с дополнительными индексами для быстрого поиска. Пересечение таких вещей в худшем случае O(n), но в реальных запросах близко к O(1), как у хэш-таблицы. Для других задач алгоритмы отличаются, но тут я уже не знаю, что можно рассказывать, а что нельзя. Дальше нам надо чисто статистически определить, сколько можно хранить на одной машине, не выходя за допустимое время ответа. Обычно это что-то порядка 100 гигабайт.

Ну и дальше понятно - просто наращиваем объем кластера. 1000 машин - 100 терабайт. Ну еще реплики, разумеется, так что реально машин надо раза в три больше. Собрать данные со всех машин можно за логарифмическое время.

У всех таких технологий недостаток один: они не универсальны, под каждую задачу надо все разрабатывать заново. Они очень сильно завязаны на реальную статистику распределения данных, потому что короткое время ответа получается статистически. Основано на том, что у любого реального распределения данных есть длинный хвост, большинство распределений имеют характер Ципфа. Поэтому всегда удается сделать очень эффективное кеширование.
Edited Date: 2015-12-25 11:24 am (UTC)

Date: 2015-12-26 01:06 am (UTC)
From: [identity profile] chapai67.livejournal.com
нескольких тысяч серверов в топовой конфигурации под behaviour targeting в рекламе или e-commerce нет ни у кого. И поисковики здесь никаким боком, там другая латенси и задачи.

так что можно ссылку на магазин, или провайдера рекламы, чтоб упростить. Вы не стеснятесь, название компании под nda не подпадает.

Date: 2015-12-26 12:03 pm (UTC)
From: [identity profile] agalakhov.livejournal.com
Есть, просто они параллельно решают совершенно другие задачи. И это не магазин. Когда УЖЕ ЕСТЬ кластеры для облачных вычислений, одной задачей больше, одной меньше - по фигу. Нагрузка все равно идет волнами в зависимости от того, в какой стране сейчас люди спят. На минимуме нагрузки запускаются всякие фоновые задачи вроде подсчета статистики пользователей.