大数据培训课程WordCount案例实操
创始人
2024-03-12 04:33:47
0

WordCount案例实操

1.需求

在给定的文本文件中统计输出每一个单词出现的总次数

(1)输入数据

(2)期望输出数据

atguigu   2

banzhang 1

cls   2

hadoop   1

jiao  1

ss    2

xue  1

2.需求分析

按照MapReduce编程规范,分别编写Mapper,Reducer,Driver,如图4-2所示。

图4-2 需求分析

3.环境准备

(1)创建maven工程

(2)在pom.xml文件中添加如下依赖

     

         junit

         junit

         RELEASE

     

     

         org.apache.logging.log4j

         log4j-core

         2.8.2

     

     

         org.apache.hadoop

         hadoop-common

         2.7.2

     

     

         org.apache.hadoop

         hadoop-client

         2.7.2

     

     

         org.apache.hadoop

         hadoop-hdfs

         2.7.2

     

(2)在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”,在文件中填入。

log4j.rootLogger=INFO, stdout log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] – %m%n log4j.appender.logfile=org.apache.log4j.FileAppender log4j.appender.logfile.File=target/spring.log log4j.appender.logfile.layout=org.apache.log4j.PatternLayout log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] – %m%n

4.编写程序

(1)编写Mapper类

package com.atguigu.mapreduce; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper;   public class WordcountMapper extends Mapper{     Text k = new Text();   IntWritable v = new IntWritable(1);     @Override   protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {             // 1 获取一行       String line = value.toString();             // 2 切割       String[] words = line.split(” “);             // 3 输出       for (String word : words) {                   k.set(word);          context.write(k, v);       }   } }

(2)编写Reducer类

package com.atguigu.mapreduce.wordcount; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer;   public class WordcountReducer extends Reducer{   int sum; IntWritable v = new IntWritable();     @Override   protected void reduce(Text key, Iterable values,Context context) throws IOException, InterruptedException {             // 1 累加求和       sum = 0;       for (IntWritable count : values) {          sum += count.get();       }             // 2 输出        v.set(sum);       context.write(key,v);   } }

(3)编写Driver驱动类

package com.atguigu.mapreduce.wordcount; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;   public class WordcountDriver {     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {         // 1 获取配置信息以及封装任务       Configuration configuration = new Configuration();       Job job = Job.getInstance(configuration);         // 2 设置jar加载路径       job.setJarByClass(WordcountDriver.class);         // 3 设置map和reduce类       job.setMapperClass(WordcountMapper.class);       job.setReducerClass(WordcountReducer.class);         // 4 设置map输出       job.setMapOutputKeyClass(Text.class);       job.setMapOutputValueClass(IntWritable.class);         // 5 设置最终输出kv类型       job.setOutputKeyClass(Text.class);       job.setOutputValueClass(IntWritable.class);             // 6 设置输入和输出路径       FileInputFormat.setInputPaths(job, new Path(args[0]));       FileOutputFormat.setOutputPath(job, new Path(args[1]));         // 7 提交       boolean result = job.waitForCompletion(true);         System.exit(result ? 0 : 1);   } }

5.本地测试

(1)如果电脑系统是win7的就将win7的hadoop jar包解压到非中文路径,并在Windows环境上配置HADOOP_HOME环境变量。如果是电脑win10操作系统,就解压win10的hadoop jar包,并配置HADOOP_HOME环境变量。

注意:win8电脑和win10家庭版操作系统可能有问题,需要重新编译源码或者更改操作系统。

(2)在Eclipse/Idea上运行程序

6.集群上测试

(0)用maven打jar包,需要添加的打包插件依赖

注意:标记红颜色的部分需要替换为自己工程主类

     

        

            maven-compiler-plugin

            2.3.2

           

               1.8

               1.8

           

        

        

            maven-assembly-plugin

           

              

                  jar-with-dependencies

              

              

                 

                    com.atguigu.mr.WordcountDriver

                 

              

           

           

              

                  make-assembly

                  package

                 

                     single

                 

              

           

        

     

 

注意:如果工程上显示红叉。在项目上右键->maven->update project即可。

(1)将程序打成jar包,然后拷贝到Hadoop集群中

步骤详情:右键->Run as->maven install。等待编译完成就会在项目的target文件夹中生成jar包。如果看不到。在项目上右键-》Refresh,即可看到。修改不带依赖的jar包名称为wc.jar,并拷贝该jar包到Hadoop集群。

(2)启动Hadoop集群

(3)执行WordCount程序

[atguigu@hadoop102 software]$ hadoop jar  wc.jar

 com.atguigu.mr.WordcountDriver /user/atguigu/input /user/atguigu/output 注意:com.atguigu.mr.WordcountDriver要和自己工程的全类名一致。

相关内容

热门资讯

保存时出现了1个错误,导致这篇... 当保存文章时出现错误时,可以通过以下步骤解决问题:查看错误信息:查看错误提示信息可以帮助我们了解具体...
汇川伺服电机位置控制模式参数配... 1. 基本控制参数设置 1)设置位置控制模式   2)绝对值位置线性模...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
表格中数据未显示 当表格中的数据未显示时,可能是由于以下几个原因导致的:HTML代码问题:检查表格的HTML代码是否正...
本地主机上的图像未显示 问题描述:在本地主机上显示图像时,图像未能正常显示。解决方法:以下是一些可能的解决方法,具体取决于问...
表格列调整大小出现问题 问题描述:表格列调整大小出现问题,无法正常调整列宽。解决方法:检查表格的布局方式是否正确。确保表格使...
不一致的条件格式 要解决不一致的条件格式问题,可以按照以下步骤进行:确定条件格式的规则:首先,需要明确条件格式的规则是...
Android|无法访问或保存... 这个问题可能是由于权限设置不正确导致的。您需要在应用程序清单文件中添加以下代码来请求适当的权限:此外...
【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...