Emprant el sistema de fitxers de Google en el nostre ordinador

Compartir

La companyia Cloudera ha llançat una utilitat per a GNU/Linux que permet utilitzar en el nostre ordinador el mateix sistema de fitxers distribuït que utilitzen grans de la informàtica com Google o Yahoo! en els seus centres de dades.

Guillem Alsina (guillem@imatica.org) – Malgrat que els interessos i necessitats d’una gran empresa amb milions de dades per tractar, difereixen notablement dels que pugui tenir un usuari particular o una petita empresa, és obvi que ambdós perfils buscaran productes robusts, fiables i provats. I també és obvi que normalment, allò que té aquestes característiques i és vàlid per a la gran empresa ho serà també per a la petita tot i que emprat a una escala menor. Aquest pot ser el cas de Hadoop, un sistema de fitxers distribuït emprat en els centres de procés de dades de companyies de la talla de Google, IBM, Last.fm, Facebook o Yahoo! i que ara ens és més proper mercès a la iniciativa de Cloudera.

Un sistema de fitxers distribuït consisteix en poques paraules en un mecanisme de programari que permet gestionar els fitxers emmagatzemats en diversos suports informàtics (sistema de fitxers) amb la particularitat que facilita el tractament dels sistemes d’emmagatzemament remots com si fossin locals (d’aquí la paraula distribuït). Per exemple, si en un sistema operatiu que empri un sistema de fitxers convencional volem fer-li visible a l’usuari una unitat de disc situada en una altra ciutat, l’haurem de “muntar” d’alguna manera en el sistema, indicant-li que és una unitat remota, fet que la dotarà d’algunes particularitats.

En un sistema de fitxers distribuït, la localització és indiferent a l’usuari, que veu a totes les unitats com si estiguessin físicament connectades a l’ordinador, essent transparent el fet de si estan al costat de la màquina o en un altre continent i s’accedeix a elles a través d’Internet. Això pot ser així gràcies a la filosofia Unix de muntatge de sistemes de fitxers en directoris (mentre que Windows els assigna una lletra a cada un), però al mateix temps superant les seves limitacions tècniques.

Hadoop és un projecte llançat per la fundació Apache i basat en l’esquema MapReduce desenvolupat per Google per als seus centres de dades. Escrit en Java, pot instal·lar-se en sistemes GNU/Linux per treballar amb ell.

És precisament aquesta possibilitat la què ha aprofitat Cloudera (el nom de la qual sembla inspirar-se clarament en la filosofia del Cloud Computing) per a crear uns distribució de Hadoop que es pot configurar i descarregar lliure i gratuïtament des del seu lloc web per a instal·lar-se sobre un sistema GNU/Linux existent.

De moment, i segons informen a la seva pàgina web, aquesta distribució de Hadoop ha estat provada reeixidament en diversos derivats de Red Hat, com poden ser Fedora Core 8, CentOS 5 o RHEL 5.

La distribució consisteix en un paquet RPM que es descarrega des del lloc web de Cloudera després d’haver seguit un procés de configuració en línia, tot i que també es pot descarregar directament i configurar-se a mà.

Hadoop no és un producte nou, sinó un que ja porta temps en el mercat i s’ha guanyat la confiança de grans companyies per la seva fiabilitat i robustesa. Per tant, no estarem fent “experiments amb gasosa” si ens decidim a provar-lo i a introduir-lo en els nostres servidors. Cloudera, la companyia que ofereix aquest producte, és jove, havent iniciat la seva activitat a finals de l’any passat oferint consultoria i formació sobre Hadoop.

Copyleft 2009 www.imatica.org
Aquesta obra es troba subjecta a la següent llicència:
La difusió, reproducció i traducció d’aquest text es permet lliurement en qualsevol mitjà o suport amb les úniques obligacions de mantenir la present llicència i incloure un enllaç o referència a la pàgina en què es troba l’original dins del servidor www.imatica.org . En mitjans audiovisuals es requereix la cita al mitjà www.imatica.org

Guillem Alsina