星期一, 一月 18, 2021
Latest:
  • 【Kafka】Kafka的数据可靠性和一致性
  • Scala循环表达式
  • 【Java】使用jstack、jstat、jmap线上问题排查一例
  • 【Kafka】Leader丢失导致的Consumer挂起故障解决
  • 【Kafka】Kafka 1.0.1案例详解之Kafka Connect

Big data enthusiast

——lubinsu

  • Spark
  • Scala
  • Hadoop
  • Kafka
  • Flume-NG
  • Hive
  • Azkaban
  • 关于我

Spark

Scala Spark 

【Spark】使用DataFrame读取复杂JSON中的嵌套数组

2018-06-012018-06-01 lubinsu 0 Comments Scala, Spark

众所周知,在早期Spark版本中就已经支持读取Json格式的数据文件,并能够直接转换为数据库表,以方便我们进行处理数据,在本篇文章中我们将介绍如何通过Spark API很简单地读取Json数据,并进一步讲解,读取复杂Json中的嵌套数组。

Read more
HBase Python Spark 

【Spark】使用外部数据源连接HBase数据库进行读写

2017-07-122017-07-12 lubinsu 0 Comments HBase, Python, Spark

本文主要介绍,Spark如何通过外部数据源连接HBase数据库进行读写。我们先贴上项目源码:https://github.com/hortonworks-spark/shc。可以直接通过源码编译出jar包使用,也可以使用项目组预先编译好的jar:http://repo.hortonworks.com/content/groups/public/

Read more
Python Spark 

【Python】zipimport.ZipImportError can’t decompress data zlib not available

2017-05-172017-05-17 lubinsu 0 Comments Python, Spark

Python lib库异常处理:zipimport.ZipImportError can’t decompress data zlib not available

Read more
IntelliJ IDEA Scala Spark 

Spark Streaming+IntelliJ Idea+Maven开发环境搭建

2016-08-182018-04-27 lubinsu 1 Comment Scala, Spark

国内关于Spark流处理方面的资料实在是少之又少,开发环境搭建上一些细节上的说明就更少了,本文主要介绍在Windows下通过IntelliJ Idea连接远程服务器的Spark节点,接收FlumeNG收集的日志数据实现实时的数据处理。开发语言为Scala。

Read more
Hadoop Hive Spark 

【Problems】BigData Platform

2016-06-122016-07-07 lubinsu 1 Comment BigData

大数据平台遇到的几点问题以及解决方法

Read more
Spark 

【Bug】Spark sql jdbc fails for Oracle NUMBER type columns

2016-06-122017-04-21 lubinsu 1 Comment Bug, Spark

SparkSQL中Oracle NUMBER类型转换的BUG

Read more
Spark 

【Spark】在Standalone运行模式下的配置模板

2016-06-122017-04-18 lubinsu 1 Comment Spark

Spark在Standalone运行模式下的配置模板

Read more
Spark 

【Spark】Hive通过Spark读取数据

2016-04-052016-06-12 lubinsu 2 Comments Hive, Spark

所有的HiveSQL语法都可以在Spark中正常运行,本文通过Spark与Hive对接,并实现HiveSQL的执行和关联,完全可以将原来Hive中的业务平滑地迁移到Spark中

Read more
Spark 

【Spark】免费获取IP信息的服务接口

2016-03-312016-04-12 lubinsu 1 Comment Scala, Spark

Scala通过调用k780的免费REST接口,查询IP地址的详细信息,并通过Spark将获取到的信息写入到HDFS中

Read more

标签云

Akka Azkaban BigData Bug CentOS Cloudera Manager CM code review Elasticsearch ELK FlumeNG Git Hadoop HBase Hive JSON Kafka Kibana Linux Logstash maven mysql Oracle Python REST Scala Spark Spray sqoop

分类

归档

  • 2019年七月 (2)
  • 2018年九月 (1)
  • 2018年八月 (1)
  • 2018年六月 (4)
  • 2018年五月 (7)
  • 2018年四月 (1)
  • 2017年七月 (4)
  • 2017年六月 (1)
  • 2017年五月 (1)
  • 2017年三月 (2)
  • 2017年一月 (4)
  • 2016年十月 (1)
  • 2016年九月 (2)
  • 2016年八月 (2)
  • 2016年七月 (2)
  • 2016年六月 (9)
  • 2016年五月 (2)
  • 2016年四月 (4)
  • 2016年三月 (6)

最近评论

  • lubinsu发表在《【Problems】Cloudera Manager错误集锦》
  • Joe发表在《【Problems】Cloudera Manager错误集锦》
  • education online courses发表在《【Scala】构建Scala风格的SSH工具类》
  • online school tips发表在《【Scala】构建Scala风格的SSH工具类》
  • ญี่ปุ่น xxx发表在《【HIVE】SHELL调用Hive查询》

功能

  • 注册
  • 登录
  • 文章RSS
  • 评论RSS
  • WordPress.org
Copyright © 2021 Big data enthusiast. All rights reserved.
Theme: ColorMag by ThemeGrill. Powered by WordPress.

闽ICP备16009353号-1