Apache Nifi:当每行具有不同单元格长度时,将Excel解析为CSV时出现问题。
创始人
2024-09-04 13:31:56
0

如果在将Excel解析为CSV时遇到每行具有不同单元格长度的问题,可以使用Apache Nifi的Record处理器和RecordReader和RecordWriter来解决此问题。以下是一个使用Nifi解决此问题的示例流程:

  1. 使用"GetFile"处理器获取Excel文件。
  2. 使用"ConvertRecord"处理器将Excel文件转换为Record流。
  3. 在"ConvertRecord"处理器中,选择适当的RecordReader和RecordWriter。可以使用"CSVReader"作为RecordReader,以便能够处理具有不同单元格长度的行。
  4. 在"ConvertRecord"处理器中,将"Output Batch Size"属性设置为较大的值,以确保所有记录都被正确读取。
  5. 将"ConvertRecord"处理器的输出连接到"PutFile"处理器,将Record流写入CSV文件。

下面是一个使用Apache Nifi Groovy脚本的示例,用于将Excel解析为CSV:

import org.apache.commons.csv.CSVFormat
import org.apache.commons.csv.CSVPrinter
import org.apache.commons.csv.CSVRecord
import org.apache.nifi.components.PropertyDescriptor
import org.apache.nifi.flowfile.FlowFile
import org.apache.nifi.processor.AbstractProcessor
import org.apache.nifi.processor.ProcessContext
import org.apache.nifi.processor.ProcessSession
import org.apache.nifi.processor.Relationship
import org.apache.nifi.processor.io.InputStreamCallback
import org.apache.nifi.processor.io.OutputStreamCallback

import java.io.IOException
import java.io.InputStream
import java.io.OutputStream
import java.io.InputStreamReader
import java.io.OutputStreamWriter
import java.nio.charset.StandardCharsets
import java.util.ArrayList
import java.util.List

class ExcelToCsvProcessor extends AbstractProcessor {

    private static final PropertyDescriptor DESTINATION_CSV_FILE = new PropertyDescriptor.Builder()
            .name("Destination CSV file")
            .description("The destination CSV file to write the converted data.")
            .required(true)
            .addValidator(StandardValidators.NON_EMPTY_VALIDATOR)
            .build()

    private static final Relationship SUCCESS = new Relationship.Builder()
            .name("success")
            .description("Successfully converted Excel to CSV.")
            .build()

    private static final Relationship FAILURE = new Relationship.Builder()
            .name("failure")
            .description("Failed to convert Excel to CSV.")
            .build()

    @Override
    public List getSupportedPropertyDescriptors() {
        return [DESTINATION_CSV_FILE]
    }

    @Override
    public Set getRelationships() {
        return [SUCCESS, FAILURE]
    }

    @Override
    public void onTrigger(ProcessContext context, ProcessSession session) throws IOException {
        FlowFile flowFile = session.get()
        if (flowFile == null) {
            return
        }

        String destinationCsvFile = context.getProperty(DESTINATION_CSV_FILE).getValue()

        session.read(flowFile, new InputStreamCallback() {
            @Override
            void process(InputStream inputStream) throws IOException {
                List csvRecords = parseExcel(inputStream)

                if (!csvRecords.isEmpty()) {
                    session.write(flowFile, new OutputStreamCallback() {
                        @Override
                        void process(OutputStream outputStream) throws IOException {
                            writeCsv(csvRecords, outputStream)
                        }
                    })

                    session.transfer(flowFile, SUCCESS)
                } else {
                    session.transfer(flowFile, FAILURE)
                }
            }
        })
    }

    private List parseExcel(InputStream inputStream) throws IOException {
        List csvRecords = []

        Iterable records = CSVFormat.EXCEL.parse(new InputStreamReader(inputStream, StandardCharsets.UTF_8))
        for (CSVRecord record : records) {
            csvRecords.add(record)
        }

        return csvRecords
    }

    private void writeCsv(List csvRecords, OutputStream outputStream) throws IOException {
        CSVPrinter csvPrinter = new CSVPrinter(new OutputStreamWriter(outputStream, StandardCharsets.UTF_8), CSVFormat.EXCEL)

        for (CSVRecord record : csvRecords) {
            csvPrinter.printRecord(record)
        }

        csvPrinter.flush()
        csvPrinter.close()
    }
}

将此脚本保存为ExcelToCsvProcessor.groovy,并将其部署到Apache Nifi中。然后,您可以在Nifi中创建一个处理组,添加"GetFile"处理器来获取Excel文件,然后添加一个自定义处理器,选择ExcelToCsvProcessor,并配置目标CSV文件的路径。最后,将自定义处理器的输出连接到"PutFile"处理器,将Record流写入CSV文件。

这个示例

相关内容

热门资讯

【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
AWSECS:访问外部网络时出... 如果您在AWS ECS中部署了应用程序,并且该应用程序需要访问外部网络,但是无法正常访问,可能是因为...
Android|无法访问或保存... 这个问题可能是由于权限设置不正确导致的。您需要在应用程序清单文件中添加以下代码来请求适当的权限:此外...
北信源内网安全管理卸载 北信源内网安全管理是一款网络安全管理软件,主要用于保护内网安全。在日常使用过程中,卸载该软件是一种常...
AWSElasticBeans... 在Dockerfile中手动配置nginx反向代理。例如,在Dockerfile中添加以下代码:FR...
AsusVivobook无法开... 首先,我们可以尝试重置BIOS(Basic Input/Output System)来解决这个问题。...
ASM贪吃蛇游戏-解决错误的问... 要解决ASM贪吃蛇游戏中的错误问题,你可以按照以下步骤进行:首先,确定错误的具体表现和问题所在。在贪...
月入8000+的steam搬砖... 大家好,我是阿阳 今天要给大家介绍的是 steam 游戏搬砖项目,目前...