Sunday, April 27, 2014

Tutorial: Utilizando o Hadoop com o Eclipse no Ubuntu 14.04

Passo-a-passo:
  1. Instale a JDK com o seguinte comando no terminal:
    sudo apt-get install openjdk-7-jdk
  2. Baixar o Hadoop de http://ftp.unicamp.br/pub/apache/hadoop/common/current/hadoop-2.4.0.tar.gz
  3. Extraia para a pasta home
  4. Edite o arquivo ~/.bashrc e adicione as seguintes linhas ao início do arquivo:
    (edite a linha se o caminho do Hadoop for diferente)
    export PATH=$PATH:/home/seu-nome-de-usuario/hadoop-2.4.0/bin/
    export JAVA_HOME=/usr/lib/jvm/default-java/
  5. Faça logout, e depois faça login novamente
  6. O Hadoop está pronto para uso!
Usando com o Eclipse:
JARs que necessitam ser adicionadas a um projeto MR no Eclipse
  1. Crie um novo Projeto Java;
  2. Entre nas propriedades do novo projeto criado;
  3. Na seção "Java Build Path", na aba "Libraries", clique em "Add external JARs..." e adicione os JARs. Para usar o MapReduce por exemplo, veja a figura acima. Todos estão na pasta do hadoop, em share/hadoop/*
  4. Nem todos of JARs são úteis ou relevantes ao seu projeto, mas não faz mal adicionar todos se quiser;
  5. Pode começar a programar. A compilação ocorre automaticamente e a saída é na pasta bin/ da raiz do projeto. 
Para executar seu projeto, vá até a pasta dele através do terminal e execute:
HADOOP_CLASSPATH=bin hadoop [caminho.para.a.classe.Main] [entrada] [saída] 
Exemplo:
HADOOP_CLASSPATH=bin hadoop org.camargo.hadoop.wc.WcMain ./data/teste.txt ./out

Aviso: é necessário apagar a pasta de saída entre as execuções, o Hadoop geralmente se recusa a escrever para uma pasta existente.