Kā instalēt Hadoop ar soli pa solim konfigurāciju Ubuntu

Satura rādītājs:

Anonim

Šajā apmācībā mēs veiksim soli pa solim, lai instalētu Apache Hadoop Linux lodziņā (Ubuntu). Tas ir 2 daļu process

  • 1. daļa) Lejupielādējiet un instalējiet Hadoop
  • 2. daļa) Konfigurējiet Hadoop

Ir 2 priekšnosacījumi

  • Jums jābūt instalētam un darbināmam Ubuntu
  • Jums jābūt instalētai Java.

1. daļa) Lejupielādējiet un instalējiet Hadoop

1. solis. Pievienojiet Hadoop sistēmas lietotāju, izmantojot komandu zemāk

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Ievadiet savu paroli, vārdu un citu informāciju.

PIEZĪME . Šajā iestatīšanas un instalēšanas procesā ir iespējama zemāk minētā kļūda.

"hduser nav sudoers failā. Par šo incidentu tiks ziņots."

Šo kļūdu var novērst, piesakoties kā root lietotājam

Izpildiet komandu

sudo adduser hduser_ sudo

Re-login as hduser_

2. darbība. Konfigurējiet SSH

Lai pārvaldītu mezglus klasterī, Hadoop nepieciešama SSH piekļuve

Vispirms pārslēdziet lietotāju, ievadiet šādu komandu

su - hduser_

Šī komanda izveidos jaunu atslēgu.

ssh-keygen -t rsa -P ""

Iespējojiet SSH piekļuvi vietējai mašīnai, izmantojot šo taustiņu.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Tagad pārbaudiet SSH iestatīšanu, izveidojot savienojumu ar localhost kā “hduser” lietotāju.

ssh localhost

Piezīme: Lūdzu, ņemiet vērā, ja zemāk redzat kļūdu, atbildot uz “ssh localhost”, pastāv iespēja, ka SSH šajā sistēmā nav pieejams-

Lai to atrisinātu,

Notīriet SSH, izmantojot

sudo apt-get purge openssh-server

Laba prakse ir tīrīšana pirms instalēšanas sākuma

Instalējiet SSH, izmantojot komandu

sudo apt-get install openssh-server

3. solis. Nākamais solis ir Hadoop lejupielāde

Atlasiet Stabils

Atlasiet failu tar.gz (nevis failu ar src)

Kad lejupielāde ir pabeigta, dodieties uz direktoriju, kurā ir darvas fails

Ievadiet,

sudo tar xzf hadoop-2.2.0.tar.gz

Tagad pārdēvējiet hadoop-2.2.0 par hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

2. daļa) Konfigurējiet Hadoop

1. darbība. Modificējiet failu ~ / .bashrc

Pievienojiet šādas rindiņas faila beigām ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Tagad iegūstiet šo vides konfigurāciju, izmantojot komandu zemāk

. ~/.bashrc

2. solis) Ar HDFS saistītas konfigurācijas

Iestatiet JAVA_HOME failā $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Ar

Ir divi parametri $ HADOOP_HOME / etc / Hadoop / core site.xml kam jābūt komplektā-

1. 'hadoop.tmp.dir' - tiek izmantots, lai norādītu direktoriju, kuru Hadoop izmantos savu datu failu glabāšanai.

2. 'fs.default.name' - norāda noklusējuma failu sistēmu.

Lai iestatītu šos parametrus, atveriet core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Kopējiet zem līnijas starp tagiem

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Pārejiet uz direktoriju $ HADOOP_HOME / etc / Hadoop

Tagad izveidojiet direktoriju, kas minēts core-site.xml

sudo mkdir -p 

Piešķiriet direktorijai atļaujas

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

3. solis. Karte samazina konfigurāciju

Pirms sākat šīs konfigurācijas, ļauj iestatīt ceļu HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Un Enter

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Nākamais ievadiet

sudo chmod +x /etc/profile.d/hadoop.sh

Izejiet no termināļa un restartējiet vēlreiz

Ierakstiet echo $ HADOOP_HOME. Lai pārbaudītu ceļu

Tagad kopējiet failus

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Atveriet failu mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Pievienojiet zem iestatījumu rindām starp tagiem un

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Atveriet $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, kā norādīts tālāk,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Pievienojiet zem iestatījumu rindām starp tagiem un

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Izveidojiet direktoriju, kas norādīta iepriekš iestatījumā-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

4. solis. Pirms sākam Hadoop pirmo reizi, formatējiet HDFS, izmantojot komandu zemāk

$HADOOP_HOME/bin/hdfs namenode -format

5. solis. Sāciet Hadoop viena mezgla kopu, izmantojot komandu zemāk

$HADOOP_HOME/sbin/start-dfs.sh

Virs komandas izeja

$HADOOP_HOME/sbin/start-yarn.sh

Izmantojot rīku / komandu 'jps' , pārbaudiet, vai visi ar Hadoop saistītie procesi darbojas vai nē.

Ja Hadoop ir veiksmīgi sācies, tad jps izvadē jāparāda NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

6. solis) Hadoop apturēšana

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh