【Kafka】Kafka的数据可靠性和一致性
在大数据领域的,Kafka作为消息发布订阅系统,为同学们所熟悉,它有非常好的扩展性。能够在大数据环境下实现高吞吐量和高可用。那么Kafka是如何保证数据的可靠性和一致性的呢?
Read more在大数据领域的,Kafka作为消息发布订阅系统,为同学们所熟悉,它有非常好的扩展性。能够在大数据环境下实现高吞吐量和高可用。那么Kafka是如何保证数据的可靠性和一致性的呢?
Read more今天我们来看看Scala的循环表达式。
在很多场景中我们需要将同样的操作执行多次,而一般的顺序执行语句只能执行一次,这就需要使用循环结构来完成,大部分编程语言中都提供了三种主要的循环结构(for、while和do…while),Scala也不例外。
Read more前阵子线上发布了一些功能,主要是针对客户群做的社群网络,大数据这边针对用户的通讯录、通话记录、设备等信息,计算其对应的社群网络,然后根据社群对应的指标来判断用户的风险情况。当然新老用户的逻辑有所区分,这里就不再深入阐述了。功能上线后,出现了一个比较诡异的事情:系统CPU和内存都飙升,几乎都快把主机撑爆了
Read more前段时间,大数据平台中Kafka集群频繁发生offset积压而无法消费的问题,本文主要介绍了我们如何定位排查问题,虽然最后只是修改了小小的一个参数,但是在排查问题过程中收获还是不少的
Read moreKafka Connect是一个用于Kafka与外部系统之间高可靠的、可扩展的流数据传输工具。它使得我们能够简单快速的定义数据集合在Kafka与外部系统之间输入输出。Kafka Connect可以从数据库或者应用程序服务器中手机数据指标到Kafka的topic中,以便数据进行低延迟的数据处理。一个实现了导出功能的Connect可以将数据从Kafka中导出到外部存储系统、查询系统或者批处理系统进行离线分析
Read more在本章内容中我们主要讲解大家在生产系统中最常见,最基础的发布订阅功能,也就是Producer API和Consumer API,然后在下一章节中我们将深入讲解Kafka的Streams API、Connect API和AdminClient API。
Read more在这之前我们已经讲解了Kafka的安装部署和最核心的发布订阅功能,本次章节我们来介绍Kafka的新特性——Kafka Streams
Read more众所周知,在早期Spark版本中就已经支持读取Json格式的数据文件,并能够直接转换为数据库表,以方便我们进行处理数据,在本篇文章中我们将介绍如何通过Spark API很简单地读取Json数据,并进一步讲解,读取复杂Json中的嵌套数组。
Read more本次内容,我们来演示如何在Linux Idea环境中编译Hadoop 2.7.6 源码
Read moreHDFS中数据块大小一般在64M或者128M,也就是说每一次分配的数据块就是这么大,我们所谓的小文件就是比文件系统中定义的数据块还小的文件,小文件经常会导致namenode内存消耗和降低hadoop读取速度,影响整体的性能。所以遇到这种情况的时候,我们需要定期对小文件进行清理或者合并。
Read more