Метка: кластер

Новое поколение MapReduce в Apache Hadoop

19 Февраль 2011 2 Comments by Иван Блинков

В большом бизнесе использование нескольких больших кластеров с финансовой точки зрения более эффективно, чем много маленьких. Чем больше машин в кластере, тем большими наборами данных он может оперировать, больше задач могут выполняться одновременно. Реализация MapReduce в Apache Hadoop столкнулась с потолком масштабируемости на уровне около 4000 машин в кластере. Разрабатывается следующее поколение Apaсhe Hadoop MapReduce,  в [...]

Читать далее »

Еще раз про HBase

27 Август 2008 13 Comments by Иван Блинков

Некоторое время назад Neuronus в одном из комментариев к посту «Hadoop возвращается» не согласился с моим кратким определением HBase как «нереляционная база данных» (позаимствованным, собственно говоря, откуда-то с официального портала продукта). Этот факт подтолкнул меня попытаться найти более корректное определение в англоязычных источниках информации, получилось вполне успешно. Хочется прочитать более детально что к чему? Вперед!

Читать далее »

GlusterFS

18 Май 2008 6 Comments by Иван Блинков

GlusterFS представляет собой кластерную файловую систему, способную масштабироваться для хранения далеко не одного петабайта данных. Как и многие другие кластерные файловые системы, GlusterFS аггрегирует дисковое пространство большого количества машин в одну общую параллельную сетевую файловую систему через Infiniband RDMA или TCP/IP соединение. Обычно в качестве аппаратной основы для этой файловой системы используется ничем не выдающееся [...]

Читать далее »

Файлы в космосе

30 Март 2008 2 Comments by Иван Блинков

…или Kosmos Distributed File System Сегодня речь пойдет об еще одной распределенной файловой системе — KosmosFS. У русских людей название этого проекта определенно вызывает ассоциации с космосом, но изначально все же свою лепту в него внес изначальный разработчик — Kosmix.

Читать далее »

Lustre

21 Март 2008 10 Comments by Иван Блинков

Lustre представляет собой кластерную файловую систему, основными особенностями которой являются превосходные надежность и масштабируемость. Производительность также более чем высока — скорость передачи данных может достигать сотен гигабит в секунду, а теоретический максимум доступного дискового пространства измеряется петабайтами. Эта файловая система может использоваться как на скромных рабочих группах из нескольких компьютеров, так и на огромных кластерах, [...]

Читать далее »

Hadoop

22 Февраль 2008 13 Comments by Иван Блинков

Hadoop представляет собой платформу для построения приложений, способных обрабатывать огромные объемы данных. Система основывается на распределенном подходе к вычислениям и хранению информации, основными ее особенностями являются: Масштабируемость: с помощью Hadoop возможно надежное хранение и обработка огромных объемов данных, которые могут измеряться петабайтами; Экономичность: информация и вычисления распределяются по кластеру, построенному на самом обыкновенном оборудовании. Такой [...]

Читать далее »

Архитектура Flickr

8 Февраль 2008 41 Comments by Иван Блинков

Flickr является мировым лидером среди сайтов размещения фотографий. Перед Flickr стоит впечатляющая задача, они должны контролировать обширное море ежесекундно обновляющегося контента, непрерывно пополняющиеся легионы пользователей, постоянный поток новых предоставляемых пользователям возможностей, а делается все это при постоянной поддержке отличной производительности. Как же они это делают?

Читать далее »

Архитектура Google

31 Январь 2008 48 Comments by Иван Блинков

Эта статья датируется 2008 годом, новая версия: Архитектура Google 2011 Google — Король масштабируемости. Каждый хоть раз слышал о Google благодаря их всеобъемлющему, «умному» и быстрому поисковому сервису, но ни для кого не секрет, что они не ограничиваются только им. Их платформа для построения масштабируемых приложений позволяет выпускать множество удивительно конкурентноспособных интернет-приложений, работающих на уровне [...]

Читать далее »