Метка: Hadoop

Аналитика в реальном времени от Facebook

24 Март 2011 3 Comments by Иван Блинков
facebook analytics

HBase в Facebook завоевывает все более и более крепкие позиции, в прошлый раз я рассказывал о применении HBase в роли системы хранения данных для их новой системы обмена сообщений. Вторым продуктом, который теперь полноценно использует данную технологию, является система сбора и обработки статистики в реальном времени под названием Insights. Социальные кнопки (см. слева от поста) [...]

Читать далее »

Архитектура Twitter. Два года спустя.

5 Март 2011 60 Comments by Иван Блинков
Twitter

В далеком 2008м я уже публиковал статью про архитектуру Twitter, но время летит стремительно и она уже абсолютно устарела. За это время аудитория Twitter росла просто фантастическими темпами и многое поменялось и с технической точки зрения. Интересно что новенького у одного из самых популярных социальных интернет-проектов?

Читать далее »

Новое поколение MapReduce в Apache Hadoop

19 Февраль 2011 2 Comments by Иван Блинков

В большом бизнесе использование нескольких больших кластеров с финансовой точки зрения более эффективно, чем много маленьких. Чем больше машин в кластере, тем большими наборами данных он может оперировать, больше задач могут выполняться одновременно. Реализация MapReduce в Apache Hadoop столкнулась с потолком масштабируемости на уровне около 4000 машин в кластере. Разрабатывается следующее поколение Apaсhe Hadoop MapReduce,  в [...]

Читать далее »

Еще раз про HBase

27 Август 2008 13 Comments by Иван Блинков

Некоторое время назад Neuronus в одном из комментариев к посту «Hadoop возвращается» не согласился с моим кратким определением HBase как «нереляционная база данных» (позаимствованным, собственно говоря, откуда-то с официального портала продукта). Этот факт подтолкнул меня попытаться найти более корректное определение в англоязычных источниках информации, получилось вполне успешно. Хочется прочитать более детально что к чему? Вперед!

Читать далее »

Hadoop возвращается

17 Август 2008 8 Comments by Иван Блинков

Если Вы являетесь постоянным читателем моего блога, то вполне вероятно, что Вы помните мой старый пост об этом замечательном проекте от Apache Foundation. С тех пор он развивался невероятными темпами и очень многое успело измениться, об этом я и хотел бы сегодня поделиться своими впечатлениями. В дополнение к этому планируется небольшая инструкция по развертыванию Hadoop [...]

Читать далее »

Hypertable

5 Апрель 2008 2 Comments by Иван Блинков

Hypertable является еще одним opensource проектом, направленным на воспроизведение функционала BigTable от Google. Поставленная перед проектом цель заключается в реализации системы хранения данных на базе распределенной файловой системы, позволяющей перейти на новый уровень производительности при работе с гигантскими объемами данных.

Читать далее »

Файлы в космосе

30 Март 2008 2 Comments by Иван Блинков

…или Kosmos Distributed File System Сегодня речь пойдет об еще одной распределенной файловой системе — KosmosFS. У русских людей название этого проекта определенно вызывает ассоциации с космосом, но изначально все же свою лепту в него внес изначальный разработчик — Kosmix.

Читать далее »

Hadoop для разработчика

26 Февраль 2008 21 Comments by Иван Блинков

Для разработки приложений, работающих с использованием Hadoop, или же алгоритмов для MapReduce framework’а совсем не нужен полномасштабный кластер. На самом же деле для запуска всей системы, описанной мной в одном из предыдущих постов, вполне достаточно одного компьютера и буквально минут 15 свободного времени, как потратить их для решения этой задачи я Вам и поведаю.

Читать далее »

Hadoop

22 Февраль 2008 13 Comments by Иван Блинков

Hadoop представляет собой платформу для построения приложений, способных обрабатывать огромные объемы данных. Система основывается на распределенном подходе к вычислениям и хранению информации, основными ее особенностями являются: Масштабируемость: с помощью Hadoop возможно надежное хранение и обработка огромных объемов данных, которые могут измеряться петабайтами; Экономичность: информация и вычисления распределяются по кластеру, построенному на самом обыкновенном оборудовании. Такой [...]

Читать далее »