【Hadoop】小文件合并方案一

HDFS中数据块大小一般在64M或者128M,也就是说每一次分配的数据块就是这么大,我们所谓的小文件就是比文件系统中定义的数据块还小的文件,小文件经常会导致namenode内存消耗和降低hadoop读取速度,影响整体的性能。所以遇到这种情况的时候,我们需要定期对小文件进行清理或者合并。

Read more

【Scala】基于akka的多线程应用程序日志收集服务

Akka is a toolkit and runtime for building highly concurrent,distributed, and resilient message-driven applications on the JVM.
Akka是JVM之上高并发的分布式,可伸缩的消息驱动应用框架。下面我们将通过Akka框架实现多线程的日志收集功能。我们把收集到的日志数据实时存放到HDFS中,以供后续分析挖掘使用。

Read more

【ELK】ELK安装部署文档

ELK是当前很流行的日志分析系统,Elasticsearch是一款基于Apache Lucene的开源分布式引擎。Logstash是用于日志的收集、转换、并输出到ES,其中有丰富的插件用于集成诸如Filebeat、Flume、Kafka、Log4J等各种外部数据源,还能输出到各种目标存储器中。Kibana是基于ES的分析与可视化平台,我们可以通过Kibana在ES中搜索、查看各类索引并制作出各种图表。另外如果需要增加安全性我们可以通过安装X-Pack来实现。

Read more