useful_faq | Windows 10

piglet-the-4th.livejournal.com posting in

У меня каждый день выскакивает предложение обновиться до Windows 10. Стоит ли заглатывать эту наживку? У меня сейчас стоит Windows 7 - расширенная версия, за которую я платил из собственного кармана. Какие могут быть подвохи?

Flat | Top-Level Comments Only

From:

chapai67.livejournal.com

а можно ссылочку? и чуть подробнее про технологии сотен терабайт. я вполне серьезно, интересно же что бывает на рынке.

From:

agalakhov.livejournal.com

Компанию вы наверняка знаете, а подробнее я рассказывать боюсь, NDA подписывал. Технология представляет собой очень неочевидную комбинацию довольно известных алгоритмов, и даже если я просто перечислю алгоритмы, этого для посвященных может быть достаточно, чтобы воспроизвести все.

Ну в общих чертах, конечно, разделяй и властвуй и немного статистики. Данные используются неравномерно. Делаем на каждой ноде дисковый кеш размером почти с ОЗУ. Если ОЗУ много, а данных на диске ноды не очень много, мы таким образом поднимаем в ОЗУ все нужные данные. (AFAIK, все поисковики так работают - вся полезная часть индекса всегда в ОЗУ). Как организовать хранение - это другой вопрос. Вы наверное знаете, но на всякий случай в качестве примера - как классические поисковики работают. (Если вдруг каким-то чудом не знаете, книга "Введение в информационный поиск"). Там инвертированный индекс, по каждому слову сортированный список номеров документов с дополнительными индексами для быстрого поиска. Пересечение таких вещей в худшем случае O(n), но в реальных запросах близко к O(1), как у хэш-таблицы. Для других задач алгоритмы отличаются, но тут я уже не знаю, что можно рассказывать, а что нельзя. Дальше нам надо чисто статистически определить, сколько можно хранить на одной машине, не выходя за допустимое время ответа. Обычно это что-то порядка 100 гигабайт.

Ну и дальше понятно - просто наращиваем объем кластера. 1000 машин - 100 терабайт. Ну еще реплики, разумеется, так что реально машин надо раза в три больше. Собрать данные со всех машин можно за логарифмическое время.

У всех таких технологий недостаток один: они не универсальны, под каждую задачу надо все разрабатывать заново. Они очень сильно завязаны на реальную статистику распределения данных, потому что короткое время ответа получается статистически. Основано на том, что у любого реального распределения данных есть длинный хвост, большинство распределений имеют характер Ципфа. Поэтому всегда удается сделать очень эффективное кеширование.

Edited Date: 2015-12-25 11:24 am (UTC)

From:

chapai67.livejournal.com

нескольких тысяч серверов в топовой конфигурации под behaviour targeting в рекламе или e-commerce нет ни у кого. И поисковики здесь никаким боком, там другая латенси и задачи.

так что можно ссылку на магазин, или провайдера рекламы, чтоб упростить. Вы не стеснятесь, название компании под nda не подпадает.

From:

agalakhov.livejournal.com

Есть, просто они параллельно решают совершенно другие задачи. И это не магазин. Когда УЖЕ ЕСТЬ кластеры для облачных вычислений, одной задачей больше, одной меньше - по фигу. Нагрузка все равно идет волнами в зависимости от того, в какой стране сейчас люди спят. На минимуме нагрузки запускаются всякие фоновые задачи вроде подсчета статистики пользователей.

Flat | Top-Level Comments Only

Полезные вопросы

Windows 10

Windows 10

no subject

no subject

no subject

no subject