Apache NiFi 处理器是创建数据流的基本模块。每个处理器都有不同的功能,有助于创建输出流文件。下图所示的数据流正在使用 GetFile 处理器从一个目录中获取文件,并使用 PutFile 处理器将其存储在另一个目录中。
GetFile
GetFile 流程用于从特定目录中获取特定格式的文件。它还为用户提供其他选项,以便更控制地进行获取。我们将在下面的属性部分讨论它。
GetFile Settings
Name
在名称设置中,用户可以根据项目为处理器定义任何名称,也可以根据更有意义的名称定义名称。
Penalty Duration
此设置允许用户在流程文件失败时添加处罚时间持续时间。
Yield Duration
此设置用于指定处理器的让步时间。在这个持续时间内,该进程不会再次被安排。
Automatically Terminate Relationships
在此列出了该特定流程的所有可用关系检查。通过选中框,用户可以对处理器进行编程,以在该事件上终止流文件,并阻止将该文件进一步发送到流中。
GetFile Scheduling
Schedule Strategy
可以通过选择时间驱动或通过选择 CRON 驱动程序选项指定指定的 CRON 字符串,按时间基准调度流程。
Execution
用户可以使用此选项定义是否在所有节点中运行处理器,还是仅在主节点中运行。
Run Schedule
用于定义时间驱动策略的时间或 CRON 驱动策略的 CRON 表达式。
GetFile Properties
GetFile 提供多种属性,如下图所示,范围从强制性的属性(如输入目录和文件过滤器)到可选的属性(如路径过滤器和最大文件大小)。用户可以使用这些属性管理文件获取过程。
PutFile
PutFile 处理器用于将数据流中的文件存储到特定位置。
PutFile Settings
Name
在名称设置中,用户可以根据项目或使其名称更有意义来定义处理器的任何名称。
Yield Duration
此设置用于指定处理器的等待时间。在此期间,该流程不会再次被调度。
Automatically Terminate Relationships
此设置列出了该特定流程的所有可用关系检查。通过选中框,用户可以对处理器进行编程,以在该事件上终止流文件,并阻止将该文件进一步发送到流中。
PutFile Scheduling
Schedule Strategy
可以通过选择定时器驱动或通过选择 CRON 驱动程序选项指定指定的 CRON 字符串,按时间基准调度流程。还有一种实验性策略事件驱动,它将在特定事件上触发处理器。
Execution
用户可以使用此选项定义是否在所有节点中运行处理器,还是仅在主节点中运行。
Run Schedule
用于定义定时器驱动策略的时间或 CRON 驱动策略的 CRON 表达式。
PutFile Properties
PutFile 处理器提供了属性,例如目录,以指定文件传输的输出目录,以及其他属性以管理传输,如下所示。