. l+ K7 }1 p' l) k p( b: F5 r/ i请注意,这份名单不包括交易型数据库公司,如CockroachDB、PlanetScale和Yugabyte,因为这些技术的数据本身就是交易性的,而不是分析性的。 4 J X& T% l& o4 G & ]- W; n5 X/ l4 M' U4 v- q我们将Data50分解为7个子类别。 : {' {8 Y F, H% C) q- @& g7 Z$ h3 ]& S! {; {
查询和处理技术是访问、聚合和计算数据的核心引擎。它涉及两大类:批处理(如Databricks和Starburst)和实时处理(如ClickHouse和Imply)。在过去的几年里,由于对实时应用的需求不断增加,后者得到了越来越多的关注。/ G G8 M9 ~# u
0 x" s5 W# a4 |0 F; B4 `AI/ML(人工智能和机器学习)包括应用算法建模和机器学**规模数据的软件。从上榜公司的数量来看,这一领域正在成熟和繁荣。一些公司专注于特定类型的数据(如Rasa和Hugging Face的自然语言),而其他公司则专注于不同的领域,如人工智能的产品化(如Scale、Tecton和Weights and Biases)或充当运行人工智能工作负载的 "计算层"(如Anyscale)。7 M- D* K( T0 S: N. S) P
- i4 c. G2 u, @( z0 S9 [, EELT & orchestration支持数据的移动。它是保证数据准确、准时到达目的地的传输层。此类别是从基于本地拖放界面的传统ETL供应商演变而来的。另一方面,新类别的厂商大多是云原生的(如Fivetran和dbt),对开发者友好的(如Astronomer和Prefect),并处理不同数据环境中更复杂的依赖关系。 $ R. }0 L. B. V 3 S8 N% o( [8 U# k1 z9 J5 [随着数据堆栈变得越来越复杂,越来越多的利益相关者参与进来,数据治理和安全正成为关键问题。治理工具是必需的,尤其是在高度规范的行业中来确保数据的安全并在整个数据生命周期中保持合规性(例如OneTrust和Collibra)。这一类别相对较新,通常服务于受监管的大型企业公司。1 ^: u( B' ^/ @' C' S& t
7 Z& W/ ^& Q/ r" o' i
传统上,客户数据分析由营销团队负责。然而,由于其重要性的增加,数据团队现在更多地参与到将客户数据与中央数据平台的整合中。这个类别主要是捕捉客户数据(如Rudderstack和ActionIQ)或将数据操作化以服务于一线业务用例(如Census和Hightouch)。( u% m& ~0 w% [& C8 u: f
C3 D5 g! t U; ~BI & notebooks覆盖了数据的消费层。尽管它是一个成熟的类别,但像Preset或Metabase这样的新玩家正在采取开源优先的方法吸引技术数据工程师和商业智能团队。数据需求的快速变化也创造了对迭代和交互式笔记本(如Hex)和自动洞察力生成(如Sisu)的更多需求。 ! U* y) s: K( C8 a* ]& ]! I3 j! T! ]+ c' A3 a3 I, s
数据可观察性从软件工程堆栈中的最佳实践中获得灵感。随着数据堆栈越来越依赖于上游和下游的工具,数据的准确性也有了更广泛的影响,可观察性作为最新的类别出现,为整个数据流提供监控和诊断能力。; S, { A) q; j
3 u3 L3 S$ d+ N# E" J8 h( ]尽管市场采用的主要推动力是数据量和使用量的增加,但每个类别的潜在驱动力各不相同。例如,查询和处理领域的进步主要是由计算和存储的分离、向云计算的迁移和以及更廉价的计算能力驱动的。与此同时,在数据治理和数据可观察性中采用操作性工具在很大程度上是由不断增长的操作性用例和数据工作流的复杂性驱动的。 - w3 C& f& q3 r: h; h v 9 x$ L% |2 W# ?8 d1 _0 r查询和处理公司筹集了最大的资本份额 0 c8 v S0 U& H/ ?+ K0 S- M. V1 K# U# M
查询和处理类别只占Data50公司的五分之一,但投资在这一类别的资金数额(几乎占所有资金的50%)是惊人的。尽管这一数据受到了Databricks最近16亿美元融资的影响,但如果没有它,这一类别仍将占所有融资的37%,是下一个类别的两倍多。 O; r( k' A- \ A/ S8 \5 Z
2 W1 b) X5 u8 u2 D; |4 Z% K2 g+ z- J; E) v" r
2 v7 T ^2 r5 N1 B; l J, u, b9 v: L0 n/ l3 }5 M+ k' h5 x2 y) s3 N$ }3 R
) d7 k \: |3 q9 d( k, f! m6 g2 {+ A
按公司数量查看类别时,分布更为均衡。就公司数量而言,AI/ML是最大的类别,这主要是因为该领域仍在发展,需要一套新的独立工具来训练、测量和生产模型。 ! C g- [' A5 _; I* h! K `. d6 h U% m+ |. j( I \2 _