MapReduce编程实例-词频统计实现
创始人
2024-03-25 08:28:10
0

文章目录

  • 词频统计实现思路
  • 词频统计实现步骤
    • 1. 准备数据文件
      • 1.1 在虚拟机上创建文本文件
      • 1.2 上传文件到HDFS指定目录
    • 2. 创建Maven项目
    • 3. 添加相关依赖
    • 4. 创建日志属性文件
    • 5. 创建词频统计映射类
    • 6. 创建词频统计驱动器类
    • 7. 运行词频统计驱动器类,查看结果
    • 8. 修改词频统计映射器类
    • 9. 修改词频统计驱动器类
    • 10. 启动词频统计驱动器类,查看结果
    • 11. 创建词频统计归并器类
    • 12. 修改词频统计驱动器类
    • 13. 启动词频统计驱动器,查看结果
    • 14. 采用多个Reduce做合并
    • 15. 将三个类合并成一个类完成词频统计


词频统计实现思路

在这里插入图片描述

词频统计实现步骤

1. 准备数据文件

1.1 在虚拟机上创建文本文件

  • 创建wordcount目录,在里面创建words.txt文件
    在这里插入图片描述

1.2 上传文件到HDFS指定目录

  • 创建/wordcount/input目录,执行命令:hadoop fs -mkdir -p /wordcount/input
    在这里插入图片描述
  • 将文本文件words.txt,上传到HDFS的/wordcount/input目录
    在这里插入图片描述
  • 在Hadoop WebUI界面上查看上传的文件
    在这里插入图片描述

2. 创建Maven项目

  • 创建Maven项目 - MRWordCount
    在这里插入图片描述
    在这里插入图片描述

3. 添加相关依赖

  • 在pom.xml文件里添加hadoop和junit依赖
                                                                                                 org.apache.hadoop     hadoop-client   3.3.4                                                                                                                  junit                 junit           4.13.2                                                
                                                  

在这里插入图片描述

4. 创建日志属性文件

  • 在resources目录里创建log4j.properties文件
log4j.rootLogger=INFO, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/wordcount.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

x`

5. 创建词频统计映射类

  • 创建net.kox.mr包,在包里创建WordCountMapper类
    在这里插入图片描述
  • 为了更好理解Mapper类的作用,在map()函数里暂时不进行每行文本分词处理,直接利用context输出key和value。
package net.kox.mr;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WordCountMapper extends Mapper {@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {// 直接将键值对数据传到下一个阶段context.write(key, value);}
}
  • Mapper参数说明
    在这里插入图片描述

6. 创建词频统计驱动器类

  • 创建WordCountDriver类
    在这里插入图片描述
  • 编写程序:
package net.kox.mr;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.net.URI;public class WordCountDriver {public static void main(String[] args) throws Exception{// 创建配置对象Configuration conf = new Configuration();// 设置数据节点主机名属性conf.set("dfs.client.use.datanode.hostname", "true");// 获取作业实例Job job = Job.getInstance(conf);// 设置作业启动类job.setJarByClass(WordCountDriver.class);// 设置Mapper类job.setMapperClass(WordCountMapper.class);// 设置map任务输出键类型job.setMapOutputKeyClass(LongWritable.class);// 设置map任务输出值类型job.setMapOutputValueClass(Text.class);// 定义uri字符串String uri = "hdfs://master:9000";// 创建输入目录Path inputPath = new Path(uri + "/wordcount/input");// 创建输出目录Path outputPath = new Path(uri + "/wordcount/output");// 获取文件系统FileSystem fs = FileSystem.get(new URI(uri), conf);// 删除输出目录(第二个参数设置是否递归)fs.delete(outputPath, true);// 给作业添加输入目录(允许多个)FileInputFormat.addInputPath(job, inputPath);// 给作业设置输出摸鱼李(只能一个)FileOutputFormat.setOutputPath(job, outputPath);// 等待作业完成job.waitForCompletion(true);// 输出统计结果System.out.println("===统计结果===");FileStatus[] fileStatuses = fs.listStatus(outputPath);for (int i = 1; i < fileStatuses.length; i++) {// 输出结果文件路径System.out.println(fileStatuses[i].getPath());// 获取文件系统数据字节输入流FSDataInputStream in = fs.open(fileStatuses[i].getPath());// 将结果显示在控制台IOUtils.copyBytes(in, System.out, 4096, false);}}
}

7. 运行词频统计驱动器类,查看结果

  • 统计结果之前会显示大量信息
    在这里插入图片描述
  • 如果不想看到统计结果之前的大堆信息,可以修改log4j.properties文件,将INFO改为ERROR
    在这里插入图片描述
  • 再次运行程序,查看结果
    在这里插入图片描述
  • 利用Hadoop WebUI界面查看结果文件
    在这里插入图片描述

8. 修改词频统计映射器类

  • 行首数字对于我们做单词统计没有任何用处,只需要拿到每一行内容,按空格拆分成单词,每个单词计数1,因此,WordCoutMapper的输出应该是单词和个数,于是,输出键类型为Text,输出值类型为IntWritable。
  • 将每行按空格拆分成单词数组,输出<单词, 1>的键值对
  • WordCountMapper.java:
package net.kox.mr;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WordCountMapper extends Mapper {@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {// 获取行内容String line = value.toString();// 将空格拆分得到单词数组String[] words = line.split(" ");// 遍历单词数组,生成输出键值对for (int i = 0; i < words.length; i++) {context.write(new Text(words[i]), new IntWritable(1));}}
}

在这里插入图片描述

9. 修改词频统计驱动器类

  • 修改map任务输出键值类型
    在这里插入图片描述

10. 启动词频统计驱动器类,查看结果

  • 观察输出结果,map阶段会按键排序输出
    在这里插入图片描述

11. 创建词频统计归并器类

  • 一个类继承Reducer,变成一个Reducer组件类
  • Reducer组件会接收Mapper组件的输出结果
  • 第一个泛型对应的是Mapper输出key类型
  • 第二个泛型对应的是Mapper输出value类型
  • 第三个泛型和第四个泛型是Reducer的输出key类型和输出value类型
  • Reducer组件不能单独存在,但是Mapper组件可以单独存在
  • 当引入Reducer组件后,输出结果文件内容就是Reducer的输出key和输出value
  • 创建WordCountReducer类
    在这里插入图片描述
  • 编写程序
package net.kox.mr;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;public class WordCountReducer extends Reducer {@Overrideprotected void reduce(Text key, Iterable values, Context context)throws IOException, InterruptedException {// 定义输出键出现次数int count = 0;// 遍历输出值迭代对象,统计其出现次数for (IntWritable value : values) {count = count + value.get();}// 生成键值对输出context.write(key, new IntWritable(count));}
}

在这里插入图片描述

12. 修改词频统计驱动器类

  • 设置WordCountReducer,并且设置归并任务的输出键值类型
        // 设置Reducer类job.setReducerClass(WordCountReducer.class);// 设置reduce任务输出键类型job.setMapOutputKeyClass(Text.class);// 设置reduce任务输出值类型job.setMapOutputValueClass(IntWritable.class);

在这里插入图片描述

13. 启动词频统计驱动器,查看结果

  • 统计出每个单词出现的次数
    在这里插入图片描述
(1)MR框架有两个核心组件,分别是Mapper组件和Reducer组件
(2)写一个类,继承Mapper,则变成了一个Mapper组件类
(3)LongWritable,Text(String),IntWritable,NullWritable都是Hadoop序列化类型
(4)Mapper组件将每行的行首偏移量,作为输入key,通过map()传给程序员
(5)Mapper组件会将每行内容,作为输入value,通过map()传给程序员,重点是获取输入value
(6)Mapper的第一个泛型类型对应的是输入key的类型,第二个泛型类型对应的输入value(在初学阶段,第一个和第二个类型写死)
(7)MR框架所处理的文件必须是在HDFS上的
(8)map()被调用几次,取决于文件的行数
(9)通过context进行结果的输出,以输出key和输出value的形式来输出
(10)输出key是由第三个泛型类型决定,输出value是由第四个泛型类型决定
(11)输出结果文件的数据以及行数取决于context.write
(12)Text=>String:  value.toString()
(13)String=>Text:  new Text(string var)
(14)LongWritable=>long:  key.get()
(15)long=>LongWritable: new LongWritable(long var)

14. 采用多个Reduce做合并

  • 修改词频统计驱动器类,设置分区数量
    在这里插入图片描述
  • 运行程序,查看结果
    在这里插入图片描述
  • 可以看到,产生了三个结果文件
    在这里插入图片描述

15. 将三个类合并成一个类完成词频统计

  • 创建WordCount类
    在这里插入图片描述
  • 编写程序:
package net.kox.mr;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;import java.io.IOException;
import java.net.URI;public class WordCount extends Configured implements Tool {public static class Map extends Mapper {@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {// 获取行内容String line = value.toString();// 按空格拆分得到单词数组String[] words = line.split(" ");// 遍历单词数组,生成输出键值对for (int i = 0; i < words.length; i++) {// 清洗所有英文标点符号(\p——属性[property],P——标点符号[Punctuation])String word = words[i].replaceAll("[\\pP]", "");context.write(new Text(word), new IntWritable(1));}}}public static class Reduce extends Reducer {@Overrideprotected void reduce(Text key, Iterable values, Context context)throws IOException, InterruptedException {// 定义输出键出现次数int count = 0;// 历输出值迭代对象,统计其出现次数for (IntWritable value : values) {count = count + value.get();}// 生成键值对输出context.write(key, new IntWritable(count));}}@Overridepublic int run(String[] strings) throws Exception {// 创建配置对象Configuration conf = new Configuration();// 获取作业实例Job job = Job.getInstance(conf);// 设置作业启动类job.setJarByClass(WordCount.class);// 设置Mapper类job.setMapperClass(Map.class);// 设置map任务输出键类型job.setMapOutputKeyClass(Text.class);// 设置map任务输出值类型job.setMapOutputValueClass(IntWritable.class);// 设置Reducer类job.setReducerClass(Reduce.class);// 设置reduce任务输出键类型job.setOutputKeyClass(Text.class);// 设置reduce任务输出值类型job.setOutputValueClass(IntWritable.class);// 定义uri字符串String uri = "hdfs://master:9000";// 创建输入目录Path inputPath = new Path(uri + "/wordcount/input");// 创建输出目录Path outputPath = new Path(uri + "/wordcount/result");// 设置分区数量(reduce任务数量)job.setNumReduceTasks(3);// 获取文件系统FileSystem fs = FileSystem.get(new URI(uri), conf);// 删除输出目录fs.delete(outputPath, true);// 给作业添加输入目录FileInputFormat.addInputPath(job, inputPath);// 给作业设置输出目录FileOutputFormat.setOutputPath(job, outputPath);// 等待作业完成boolean res = job.waitForCompletion(true);// 输出统计结果System.out.println("统计结果:");FileStatus[] fileStatuses = fs.listStatus(outputPath);for (int i = 1; i < fileStatuses.length; i++) {// 输出结果文件路径System.out.println(fileStatuses[i].getPath());// 获取文件输入流FSDataInputStream in = fs.open(fileStatuses[i].getPath());// 将结果文件显示在控制台IOUtils.copyBytes(in, System.out, 4096, false);}if (res) {return 0;} else {return -1;}}public static void main(String[] args) throws Exception {int res = ToolRunner.run(new WordCount(), args);System.exit(res);}
}
  • 运行程序,查看你结果:
    在这里插入图片描述

相关内容

热门资讯

AWSECS:访问外部网络时出... 如果您在AWS ECS中部署了应用程序,并且该应用程序需要访问外部网络,但是无法正常访问,可能是因为...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...
【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
AWSElasticBeans... 在Dockerfile中手动配置nginx反向代理。例如,在Dockerfile中添加以下代码:FR...
月入8000+的steam搬砖... 大家好,我是阿阳 今天要给大家介绍的是 steam 游戏搬砖项目,目前...
​ToDesk 远程工具安装及... 目录 前言 ToDesk 优势 ToDesk 下载安装 ToDesk 功能展示 文件传输 设备链接 ...
北信源内网安全管理卸载 北信源内网安全管理是一款网络安全管理软件,主要用于保护内网安全。在日常使用过程中,卸载该软件是一种常...
AWS管理控制台菜单和权限 要在AWS管理控制台中创建菜单和权限,您可以使用AWS Identity and Access Ma...
AWR报告解读 WORKLOAD REPOSITORY PDB report (PDB snapshots) AW...