本文主要介绍apache druid的使用,具有一定的参考价值。有兴趣的朋友可以参考一下。希望大家看完这篇文章,收获多多。让桂哥网络带你去了解一下。
什么是阿帕奇德鲁伊?
它是一个集时序数据库、数据仓库和全文检索系统的特点于一体的分析数据平台。
本文将让您对德鲁伊的特性、使用场景、技术特性和体系结构有一个简单的了解,这将有助于我们选择数据存储方案,深入了解德鲁伊存储和时间序列存储。
轮廓
现代云原生、流原生和分析数据库
Druid是为快速查询和快速数据获取的工作流而设计的。德鲁伊具有强大的UI,运行时可操作的查询,高性能的并发处理。Druid可以看作是一个满足多样化用户场景的数据仓库的开源替代品。
轻松与现有数据管道集成
德鲁伊可以从消息总线(如卡夫卡、亚马逊驱动)流式传输数据,或者从数据湖(如HDFS、亚马逊S3等类似数据源)批量加载文件。
性能比传统解决方案快100倍
Druid对数据摄取和数据查询的基准性能测试大大超过了传统的解决方案。
Druid的体系结构结合了数据仓库、时序数据库和检索系统的最佳特性。
解锁新工作流
Druid为点击流、APM(应用性能管理系统)、供应链(供应链)、网络遥测、数字营销和其他事件驱动的场景解锁了新的查询方法和工作流。Druid是专门为实时和历史数据的快速临时查询而构建的。
部署在AWS/GCP/Azure、混合云、k8s和租赁服务器上
德鲁伊可以部署在任何*NIX环境下。无论是内部还是云中。部署Druid非常简单:通过添加或删除服务来扩大和缩小容量。
使用场景
Apache Druid适合对实时数据提取、高性能查询、高可用性要求较高的场景。因此,Druid通常被用作具有丰富GUI的分析系统,或者作为需要快速聚合的高并发API的后台。德鲁伊更适合面向事件的数据。
常见使用场景:
点击流分析(网络和移动分析)
风控制分析
网络遥测分析(网络性能监控)
服务器指数存储器
供应链分析(制造指标)
应用性能指数
商业智能/实时在线分析系统OLAP
下面将详细分析这些使用场景:
用户活动和行为
Druid常用于点击流、访问流和活动流数据。具体场景包括:测量用户参与度,跟踪产品发布的A/B测试数据,了解用户使用模式。德鲁伊可以精确近似的计算用户指标,比如不重复计数指标。这意味着,例如,每日用户指数可以在一秒钟内近似(平均准确率为98%)查看整体趋势,或者精确计算以显示给利益相关者。德鲁伊可以用来做“漏斗分析”,衡量有多少用户做了一个操作而没有做另一个。这对于产品跟踪用户注册非常有用。
网络流
Druid常用于收集和分析网络流量数据。Druid用于管理具有任意属性的组合流数据。Druid可以提取大量的网络流量记录,在查询的时候可以快速的对几十个属性进行组合和排序,有助于网络流量分析。这些属性包括一些核心属性,如IP和端口号,以及一些附加的增强属性,如地理位置、服务、应用程序、设备和ASN。德鲁伊可以处理非固定模式,这意味着你可以添加任何你想要的属性。
数字营销
Druid常用于存储和查询在线广告数据。这些数据通常来自广告公司,对于衡量和了解广告活动效果、点击率、转化率(消费率)等指标非常重要。
Druid最初是作为一个强大的面向用户的广告数据分析应用程序而设计的。在存储广告数据方面,Druid有大量的生产实践,全世界有大量用户已经在数千个服务器上存储了PB级的数据
应用性能管理
Druid通常用于跟踪应用程序生成的操作数据。类似于用户活动使用场景,这些数据可以是关于用户如何与应用程序交互的,也可以是应用程序本身报告的索引数据。德鲁伊可以用来深入了解应用程序的不同组件是如何运行的,定位瓶颈,并发现问题。
与许多传统解决方案不同,Druid具有存储容量更小、复杂性更小、数据吞吐量更大的特点。它可以快速分析数千个应用程序事件,并计算复杂的负载、性能和利用率指标。比如基于95%查询延迟的API终端。我们可以用任何临时属性来组织和划分数据,比如按天划分数据,比如按用户画像统计,比如按数据中心位置统计。
物联网和设备指标
Driud可以作为时间序列数据库解决方案来存储处理服务器和设备的索引数据。收集机器生成的实时数据,执行快速和临时分析,评估性能,优化硬件资源,并定位问题。
与许多传统的时间序列数据库不同,Druid本质上是一个分析引擎。Druid集成了时间序列数据库、列分析数据库和检索系统的概念。它在单个系统中支持基于时间的分区、列存储和搜索索引。这意味着基于时间的查询、数字聚合和检索过滤查询都非常快。
您可以在指标中包含数百万个唯一的维度值,并根据任意维度进行组合和填充
ter(Druid 中的 dimension维度类似于时间序列数据库中的tag)。你可以基于tag group和rank,并计算大量复杂的指标。而且你在tag上检索和过滤会比传统时间序列数据库更快。OLAP和商业智能
Druid经常用于商业智能场景。公司部署Druid去加速查询和增强应用。和基于Hadoop的SQL引擎(如Presto或Hive)不同,Druid为高并发和亚秒级查询而设计,通过UI强化交互式数据查询。这使得Druid更适合做真实的可视化交互分析。
技术
Apache Druid 是一个开源的分布式数据存储引擎。Druid的核心设计融合了OLAP/analytic databases,timeseries database,和search systems的理念,以创造一个适用广泛用例的统一系统。Druid将这三种系统的主要特性融合进Druid的ingestion layer(数据摄入层),storage format(存储格式化层),querying layer(查询层),和core architecture(核心架构)中。
Druid的主要特性包括:
列式存储
Druid单独存储并压缩每一列数据。并且查询时只查询特定需要查询的数据,支持快速scan,ranking和groupBy。
原生检索索引
Druid为string值创建反向索引以达到数据的快速搜索和过滤。
流式和批量数据摄入
开箱即用的Apache kafka,HDFS,AWS S3连接器connectors,流式处理器。
灵活的数据模式
Druid优雅地适应不断变化的数据模式和嵌套数据类型。
基于时间的优化分区
Druid基于时间对数据进行智能分区。因此,Druid基于时间的查询将明显快于传统数据库。
支持SQL语句
除了原生的基于JSON的查询外,Druid还支持基于HTTP和JDBC的SQL。
水平扩展能力
百万/秒的数据摄入速率,海量数据存储,亚秒级查询。
易于运维
可以通过添加或移除Server来扩容和缩容。Druid支持自动重平衡,失效转移。
数据摄入
Druid同时支持流式和批量数据摄入。Druid通常通过像Kafka这样的消息总线(加载流式数据)或通过像HDFS这样的分布式文件系统(加载批量数据)来连接原始数据源。
Druid通过Indexing处理将原始数据以segment的方式存储在数据节点,segment是一种查询优化的数据结构。
数据存储
像大多数分析型数据库一样,Druid采用列式存储。根据不同列的数据类型(string,number等),Druid对其使用不同的压缩和编码方式。Druid也会针对不同的列类型构建不同类型的索引。
类似于检索系统,Druid为string列创建反向索引,以达到更快速的搜索和过滤。类似于时间序列数据库,Druid基于时间对数据进行智能分区,以达到更快的基于时间的查询。
不像大多数传统系统,Druid可以在数据摄入前对数据进行预聚合。这种预聚合操作被称之为rollup,这样就可以显著的节省存储成本。
查询
Druid支持JSON-over-HTTP和SQL两种查询方式。除了标准的SQL操作外,Druid还支持大量的唯一性操作,利用Druid提供的算法套件可以快速的进行计数,排名和分位数计算。
架构
Druid是微服务架构,可以理解为一个拆解成多个服务的数据库。Druid的每一个核心服务(ingestion(摄入服务),querying(查询服务),和coordination(协调服务))都可以单独部署或联合部署在商业硬件上。
Druid清晰的命名每一个服务,以确保运维人员可以根据使用情况和负载情况很好地调整相应服务的参数。例如,当负载需要时,运维人员可以给数据摄入服务更多的资源而减少数据查询服务的资源。
Druid可以独立失败而不影响其他服务的运行。
运维
Drui被设计成一个健壮的系统,它需要7*24小时运行。Druid拥有以下特性,以确保长期运行,并保证数据不丢失。
数据副本
Druid根据配置的副本数创建多个数据副本,所以单机失效不会影响Druid的查询。
独立服务
Druid清晰的命名每一个主服务,每一个服务都可以根据使用情况做相应的调整。服务可以独立失败而不影响其他服务的正常运行。例如,如果数据摄入服务失效了,将没有新的数据被加载进系统,但是已经存在的数据依然可以被查询。
自动数据备份
Druid自动备份所有已经indexed的数据到一个文件系统,它可以是分布式文件系统,如HDFS。你可以丢失所有Druid集群的数据,并快速从备份数据中重新加载。
滚动更新
通过滚动更新,你可以在不停机的情况下更新Druid集群,这样对用户就是无感知的。所有Druid版本都是向后兼容。
想了解时间序列数据库和对比,可移步另一篇文章:
时间序列数据库(TSDB)初识与选择
感谢你能够认真阅读完这篇文章,希望小编分享的“apache druid作用在哪里”这篇文章对大家有帮助,同时也希望大家多多支持亿速云,关注亿速云行业资讯频道,更多相关知识等着你来学习!
TikTok千粉号购买平台:https://tiktokusername.com/
TOP