Category: литература

Category was added automatically. Read all entries about "литература".

просто и ясно ...

Оригинал взят у nektosteen в однако.. впечатлило.
Оригинал взят у gera544 в однако.. впечатлило.
Автор: nalivay

тиснуто у verner

— Итак, дети, — сказал учитель, закрывая книгу, — кто скажет, хорошая это была сказка или плохая?
— Хорошая, хорошая, — вразнобой завопили дети.
— А кто объяснит, почему? Да, вот ты, отвечай.
— Потому что принц женился на принцессе, — без тени сомнения ответил ребёнок.
— Близко. Но не совсем так.
Учитель заложил руки за спину и принялся расхаживать перед детьми.
— Сказка, которую мы только что прочитали, добрая и хорошая, потому что главный герой в ней — принц. Для него действительно наступил хэппи-энд. В отличие от остальных персонажей, над судьбой которых мы не задумываемся. Принц украл принцессу прямо из-под венца — а кто-нибудь спрашивал, хочет она того или нет? Может, её прежний жених нравился ей больше — а он, кстати, был очень достойный молодой человек. Два государства оказались втянуты в войну, тысячи солдат сложили головы, но кому это интересно? Каждый убитый был чьим-то сыном, мужем или отцом, но их судьба и горе их семей остаются за гранью повествования, сказка не о них. Сказка о принце, который добился своего. Увидел красивую девушку, захотел её, получил, фактически вынудил выйти за себя замуж, и жил потом долго и счастливо, правя королевством её убитого отца. Но поскольку сказка всё-таки о принце, а не о короле, принцессе или любом из безымянных солдат — это хорошая сказка со счастливым концом.
Учитель остановился, повернулся лицом к детям и поднял палец.
— Запомните, детки. Чтобы одна-единственная сказка для кого-то сложилась хорошо, множество других сказок должны закончиться плохо. Но в расчёт принимаются только судьбы принцев. Только они!


Big Data

Прочитал
Big Data: Principles and best practices of scalable realtime data systems
http://goo.gl/7jDS4Z

Книжка оказалась очень полезной, в ней много здравых идей и описание их реализации.
Например:
1) работа с множественными файлами в hdfs их представление и объединение, для этого автор сделал небольшую либу.
Реальная проблема если данных грузится много но небольшими кусками.
2) cascalog и jcascalog как библиотека для организации join операций над данными в hdfs
очень красиво DSL для определения джойнов сделан
и оказалось что на джойнах многоие задачи решаются элементарно
например есть у тебя связанные списки в таблицах и хочется найти только цепочки удовлетворяющие определенным критериям
один из самых простых способов заджойнить таблицу нужное количество раз саму с собой.
3) узнал о преимуществах бд которой не нужно делать случайную запись по сравнению с обычной субд
4) отлично расписана идея как можно хранить данные рассчитывая итоги с разлитной степенью агрегации
год , месяц, неделя, день, час с вычислением самого короткого пути чтобы вычислить показатели на заданное дату время
причем как вперед так и назад
типа надо знать на предпоследнее число месяца итоги
считаем агрегированные итоги помесячные и потом вычитаем из них итоги за последнее сичло месяца
эта идея мне раньше в голову не приходила
5) офигенно расписано чем отличается последовательная обработка событий от параллельной и самое главное как при этом гарантировать единственность выполнения операций при сбоях и повторах рассчетов, это важно например если ты какие нибудь финансовые данные обрабатываеш , там должно быть точно
6) узнал профишку storm когда при процессинге событий требуется либо накопить определенное число (чтобы работать батчами ) либо таймаут определенный выждать
оказывается в шторме эта логика реализуется в одном и томже алгоритме
7) хорошо описана методика рассчета оптимальности кластера, причем трудозатраты изменяются во времени, при этом получаются очень простые и наглядные формулы
это нужно чтобы оценить а сколько тебе машин в кластере надо а что будет если ты увеличиш кластер , а какое количество машин оптимально и дальнейшее увеличение это просто трата ресурсов
8) офигенно расписана идея использования hyperloglog set для подсчета уникальности
9) узнал что есть три модели пересчета данных
каждый раз все пересчитываем
инкрементально пересчитываем
бъем на партиции и пересчитываем только те партиции корые затронуты обновленными данными
вот этот третий вариант, я пронего не знал, но он очень просто решает задачи когда
требуется пересчитать данные по каким либо избранным значениям (типа для конкретных абонентов)
10) как я и предсказывал, нихрена не описано как объединять результаты запроса когда запрос затрагивает speed layer и serving layer
тут походу автор выдохся и нужно ждать второй серии