【Kafka】Kafka 1.0.1案例详解之Kafka Connect

Kafka Connect是一个用于Kafka与外部系统之间高可靠的、可扩展的流数据传输工具。它使得我们能够简单快速的定义数据集合在Kafka与外部系统之间输入输出。Kafka Connect可以从数据库或者应用程序服务器中手机数据指标到Kafka的topic中,以便数据进行低延迟的数据处理。一个实现了导出功能的Connect可以将数据从Kafka中导出到外部存储系统、查询系统或者批处理系统进行离线分析

Read more

【Hadoop】小文件合并方案一

HDFS中数据块大小一般在64M或者128M,也就是说每一次分配的数据块就是这么大,我们所谓的小文件就是比文件系统中定义的数据块还小的文件,小文件经常会导致namenode内存消耗和降低hadoop读取速度,影响整体的性能。所以遇到这种情况的时候,我们需要定期对小文件进行清理或者合并。

Read more