MapReduce编程实例-词频统计实现

创始人

2024-03-25 08:28:10

0次

文章目录

词频统计实现思路
词频统计实现步骤
- 1. 准备数据文件
- - 1.1 在虚拟机上创建文本文件
  - 1.2 上传文件到HDFS指定目录
- 2. 创建Maven项目
- 3. 添加相关依赖
- 4. 创建日志属性文件
- 5. 创建词频统计映射类
- 6. 创建词频统计驱动器类
- 7. 运行词频统计驱动器类，查看结果
- 8. 修改词频统计映射器类
- 9. 修改词频统计驱动器类
- 10. 启动词频统计驱动器类，查看结果
- 11. 创建词频统计归并器类
- 12. 修改词频统计驱动器类
- 13. 启动词频统计驱动器，查看结果
- 14. 采用多个Reduce做合并
- 15. 将三个类合并成一个类完成词频统计

词频统计实现思路

在这里插入图片描述

词频统计实现步骤

1. 准备数据文件

1.1 在虚拟机上创建文本文件

创建wordcount目录，在里面创建words.txt文件

1.2 上传文件到HDFS指定目录

创建/wordcount/input目录，执行命令：hadoop fs -mkdir -p /wordcount/input
将文本文件words.txt，上传到HDFS的/wordcount/input目录
在Hadoop WebUI界面上查看上传的文件

2. 创建Maven项目

创建Maven项目 - MRWordCount

3. 添加相关依赖

在pom.xml文件里添加hadoop和junit依赖

                                                                                                 org.apache.hadoop     hadoop-client   3.3.4                                                                                                                  junit                 junit           4.13.2

在这里插入图片描述

4. 创建日志属性文件

在resources目录里创建log4j.properties文件

log4j.rootLogger=INFO, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/wordcount.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

5. 创建词频统计映射类

创建net.kox.mr包，在包里创建WordCountMapper类
为了更好理解Mapper类的作用，在map()函数里暂时不进行每行文本分词处理，直接利用context输出key和value。

package net.kox.mr;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WordCountMapper extends Mapper {@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {// 直接将键值对数据传到下一个阶段context.write(key, value);}
}

Mapper参数说明

6. 创建词频统计驱动器类

创建WordCountDriver类
编写程序：

package net.kox.mr;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.net.URI;public class WordCountDriver {public static void main(String[] args) throws Exception{// 创建配置对象Configuration conf = new Configuration();// 设置数据节点主机名属性conf.set("dfs.client.use.datanode.hostname", "true");// 获取作业实例Job job = Job.getInstance(conf);// 设置作业启动类job.setJarByClass(WordCountDriver.class);// 设置Mapper类job.setMapperClass(WordCountMapper.class);// 设置map任务输出键类型job.setMapOutputKeyClass(LongWritable.class);// 设置map任务输出值类型job.setMapOutputValueClass(Text.class);// 定义uri字符串String uri = "hdfs://master:9000";// 创建输入目录Path inputPath = new Path(uri + "/wordcount/input");// 创建输出目录Path outputPath = new Path(uri + "/wordcount/output");// 获取文件系统FileSystem fs = FileSystem.get(new URI(uri), conf);// 删除输出目录（第二个参数设置是否递归）fs.delete(outputPath, true);// 给作业添加输入目录（允许多个）FileInputFormat.addInputPath(job, inputPath);// 给作业设置输出摸鱼李（只能一个）FileOutputFormat.setOutputPath(job, outputPath);// 等待作业完成job.waitForCompletion(true);// 输出统计结果System.out.println("===统计结果===");FileStatus[] fileStatuses = fs.listStatus(outputPath);for (int i = 1; i < fileStatuses.length; i++) {// 输出结果文件路径System.out.println(fileStatuses[i].getPath());// 获取文件系统数据字节输入流FSDataInputStream in = fs.open(fileStatuses[i].getPath());// 将结果显示在控制台IOUtils.copyBytes(in, System.out, 4096, false);}}
}

7. 运行词频统计驱动器类，查看结果

统计结果之前会显示大量信息
如果不想看到统计结果之前的大堆信息，可以修改log4j.properties文件，将INFO改为ERROR
再次运行程序，查看结果
利用Hadoop WebUI界面查看结果文件

8. 修改词频统计映射器类

行首数字对于我们做单词统计没有任何用处，只需要拿到每一行内容，按空格拆分成单词，每个单词计数1，因此，WordCoutMapper的输出应该是单词和个数，于是，输出键类型为Text，输出值类型为IntWritable。
将每行按空格拆分成单词数组，输出<单词, 1>的键值对
WordCountMapper.java:

package net.kox.mr;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WordCountMapper extends Mapper {@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {// 获取行内容String line = value.toString();// 将空格拆分得到单词数组String[] words = line.split(" ");// 遍历单词数组，生成输出键值对for (int i = 0; i < words.length; i++) {context.write(new Text(words[i]), new IntWritable(1));}}
}

在这里插入图片描述

9. 修改词频统计驱动器类

修改map任务输出键值类型

10. 启动词频统计驱动器类，查看结果

观察输出结果，map阶段会按键排序输出

11. 创建词频统计归并器类

一个类继承Reducer，变成一个Reducer组件类
Reducer组件会接收Mapper组件的输出结果
第一个泛型对应的是Mapper输出key类型
第二个泛型对应的是Mapper输出value类型
第三个泛型和第四个泛型是Reducer的输出key类型和输出value类型
Reducer组件不能单独存在，但是Mapper组件可以单独存在
当引入Reducer组件后，输出结果文件内容就是Reducer的输出key和输出value
创建WordCountReducer类
编写程序

package net.kox.mr;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;public class WordCountReducer extends Reducer {@Overrideprotected void reduce(Text key, Iterable values, Context context)throws IOException, InterruptedException {// 定义输出键出现次数int count = 0;// 遍历输出值迭代对象，统计其出现次数for (IntWritable value : values) {count = count + value.get();}// 生成键值对输出context.write(key, new IntWritable(count));}
}

在这里插入图片描述

12. 修改词频统计驱动器类

设置WordCountReducer，并且设置归并任务的输出键值类型

        // 设置Reducer类job.setReducerClass(WordCountReducer.class);// 设置reduce任务输出键类型job.setMapOutputKeyClass(Text.class);// 设置reduce任务输出值类型job.setMapOutputValueClass(IntWritable.class);

在这里插入图片描述

13. 启动词频统计驱动器，查看结果

统计出每个单词出现的次数

（1）MR框架有两个核心组件，分别是Mapper组件和Reducer组件
（2）写一个类，继承Mapper，则变成了一个Mapper组件类
（3）LongWritable，Text（String)，IntWritable，NullWritable都是Hadoop序列化类型
（4）Mapper组件将每行的行首偏移量，作为输入key，通过map()传给程序员
（5）Mapper组件会将每行内容，作为输入value，通过map()传给程序员，重点是获取输入value
（6）Mapper的第一个泛型类型对应的是输入key的类型，第二个泛型类型对应的输入value（在初学阶段，第一个和第二个类型写死）
（7）MR框架所处理的文件必须是在HDFS上的
（8）map()被调用几次，取决于文件的行数
（9）通过context进行结果的输出，以输出key和输出value的形式来输出
（10）输出key是由第三个泛型类型决定，输出value是由第四个泛型类型决定
（11）输出结果文件的数据以及行数取决于context.write
（12）Text=>String:  value.toString()
（13）String=>Text:  new Text(string var)
（14）LongWritable=>long:  key.get()
（15）long=>LongWritable: new LongWritable(long var)

14. 采用多个Reduce做合并

修改词频统计驱动器类，设置分区数量
运行程序，查看结果
可以看到，产生了三个结果文件

15. 将三个类合并成一个类完成词频统计

创建WordCount类
编写程序：

package net.kox.mr;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;import java.io.IOException;
import java.net.URI;public class WordCount extends Configured implements Tool {public static class Map extends Mapper {@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {// 获取行内容String line = value.toString();// 按空格拆分得到单词数组String[] words = line.split(" ");// 遍历单词数组，生成输出键值对for (int i = 0; i < words.length; i++) {// 清洗所有英文标点符号（\p——属性[property]，P——标点符号[Punctuation]）String word = words[i].replaceAll("[\\pP]", "");context.write(new Text(word), new IntWritable(1));}}}public static class Reduce extends Reducer {@Overrideprotected void reduce(Text key, Iterable values, Context context)throws IOException, InterruptedException {// 定义输出键出现次数int count = 0;// 历输出值迭代对象，统计其出现次数for (IntWritable value : values) {count = count + value.get();}// 生成键值对输出context.write(key, new IntWritable(count));}}@Overridepublic int run(String[] strings) throws Exception {// 创建配置对象Configuration conf = new Configuration();// 获取作业实例Job job = Job.getInstance(conf);// 设置作业启动类job.setJarByClass(WordCount.class);// 设置Mapper类job.setMapperClass(Map.class);// 设置map任务输出键类型job.setMapOutputKeyClass(Text.class);// 设置map任务输出值类型job.setMapOutputValueClass(IntWritable.class);// 设置Reducer类job.setReducerClass(Reduce.class);// 设置reduce任务输出键类型job.setOutputKeyClass(Text.class);// 设置reduce任务输出值类型job.setOutputValueClass(IntWritable.class);// 定义uri字符串String uri = "hdfs://master:9000";// 创建输入目录Path inputPath = new Path(uri + "/wordcount/input");// 创建输出目录Path outputPath = new Path(uri + "/wordcount/result");// 设置分区数量（reduce任务数量）job.setNumReduceTasks(3);// 获取文件系统FileSystem fs = FileSystem.get(new URI(uri), conf);// 删除输出目录fs.delete(outputPath, true);// 给作业添加输入目录FileInputFormat.addInputPath(job, inputPath);// 给作业设置输出目录FileOutputFormat.setOutputPath(job, outputPath);// 等待作业完成boolean res = job.waitForCompletion(true);// 输出统计结果System.out.println("统计结果：");FileStatus[] fileStatuses = fs.listStatus(outputPath);for (int i = 1; i < fileStatuses.length; i++) {// 输出结果文件路径System.out.println(fileStatuses[i].getPath());// 获取文件输入流FSDataInputStream in = fs.open(fileStatuses[i].getPath());// 将结果文件显示在控制台IOUtils.copyBytes(in, System.out, 4096, false);}if (res) {return 0;} else {return -1;}}public static void main(String[] args) throws Exception {int res = ToolRunner.run(new WordCount(), args);System.exit(res);}
}

运行程序，查看你结果：

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：使用HTML制作静态宠物网站——蓝色版爱宠之家(HTML+CSS)

下一篇：《python软件测试实战宝典》简介

MapReduce编程实例-词频统计实现

文章目录

词频统计实现思路

词频统计实现步骤

1. 准备数据文件

1.1 在虚拟机上创建文本文件

1.2 上传文件到HDFS指定目录

2. 创建Maven项目

3. 添加相关依赖

4. 创建日志属性文件

5. 创建词频统计映射类

6. 创建词频统计驱动器类

7. 运行词频统计驱动器类，查看结果

8. 修改词频统计映射器类

9. 修改词频统计驱动器类

10. 启动词频统计驱动器类，查看结果

11. 创建词频统计归并器类

12. 修改词频统计驱动器类

13. 启动词频统计驱动器，查看结果

14. 采用多个Reduce做合并

15. 将三个类合并成一个类完成词频统计

相关内容

热门资讯