數據分析技術不斷發展,從傳統數據倉庫到云原生數據倉庫,從數據倉庫與數據湖兩套架構到湖倉一體(Lakehouse)架構融合。多源異構的數據環境,多元且需實時分析的復雜場景,我們需要怎樣的數據分析技術?

加快構建數據倉庫 甘肅銀行數字化轉型提速推進

數據倉庫可對異構源數據進行有效集成,面向數據分析場景,支持全局信息共享和決策分析處理,充分釋放數據價值,助力構建數據要素市場。因此,金融數據倉庫的構建成為大多數銀行的戰略性選擇。

danny_2018
數據分析
2023-05-06 14:45

網易云音樂實時數倉架構與低代碼實踐

本文將介紹網易云音樂的實時數倉架構和低代碼平臺的實踐。分享包括四部分,第一部分總體介紹網易云音樂的實時數倉架構和技術架構。第二部分介紹流批模型的一致性實現思路。第三部分介紹網易云音樂在低代碼實踐中的成果。第四部分介紹網易云音樂實時數倉未來的規劃。

架構師修行手冊
服務器/存儲
2023-05-06 14:20

詳解 Flink Catalog 在 ChunJun 中的實踐之路

我們知道 Flink 有Table(表)、View(視圖)、Function(函數/算子)、Database(數據庫)的概念,相對于這些耳熟能詳的概念,Flink 里還有一個 Catalog(目錄) 的概念。本文將為大家帶來 Flink Catalog 的介紹以及 Flink Catalog 在 ChunJun 中的實踐之路。Flink Catalog 簡介Catalog 提供元數據,如數據庫、表

數棧DTinsight
Hadoop
2023-04-07 14:28

快手基于 Apache Flink 的實時數倉建設實踐

本文整理自快手實時數據開發工程師馮立,快手實時數據開發工程師羊藝超,在 Flink Forward Asia 2022 實時湖倉專場的分享。

大數據技術前線
數據分析
2023-04-07 13:46

數據倉庫的性能問題及解決之道

有了這些機制以后,esProc SPL 就可以充分利用硬件資源,將單機性能發揮到極致,不僅原來很多單機性能問題可以得到有效解決,甚至很多原來使用集群的計算現在也可以用單機搞定(可能更快),達到單機全能的效果。

danny_2018
數據分析
2023-03-09 11:43

StreamPark 2.0.0 重磅發布,首個 Apache 版本終于來了!

StreamPark 2.0.0 正式發布!這是 StreamPark 加入 Apache 孵化器以來發布的第一個版本,也是一個重大功能更新的版本。

danny_2018
數據分析
2023-02-22 11:01

Apache Hudi 背后商業公司Onehouse宣布2500萬美元A輪融資

就在一年前,我們發布了 Onehouse——一種開放的、完全托管的、云原生的lakehouse服務——以從根本上縮短最先進的數據湖的價值實現時間。

danny_2018
數據治理
2023-02-06 09:52

嗶哩嗶哩?數據建設之路——實時DQC篇

數據質量是基于大數據衍生的應用有效與否的重要的前提和保障之一。B站現在高速發展的業務需求以及未來能夠依靠大數據孵化出更有深度和競爭力應用的愿景,都要求我們數據平臺能夠提供實時的、準確的、可以被各個業務方所信賴的數據??梢哉f,可信賴的數據,是大數據平臺核心競爭力的體現。

陶然陶然
服務器/存儲
2023-02-01 15:48

字節跳動數據湖在實時數倉中的實踐

本節我們討論的是字節實時數倉場景的初探以及遇到的問題和解決方案。坦白地講,在最初落地時大家對數據湖能支持線上生產的態度都是存疑的,我們開始的方案也就比較保守。我們首先挑選一些對比現有解決方案,數據湖具有凸顯的優勢的場景,針對其中的一些痛點問題嘗試小規模的落地?! ?/p>

陶然陶然
服務器/存儲
2023-02-01 15:47

從 ClickHouse 到 ByteHouse:實時數據分析場景下的優化實踐

作為國內規模最大的 ClickHouse 用戶,目前字節跳動內部的 ClickHouse 節點總數超過 1.8W 個。綜合來說,字節跳動廣泛的業務增長分析很多都建立在 ClickHouse 為基礎的查詢引擎上。

danny_2018
數據挖掘
2023-02-01 10:04
點擊加載更多
  • 微信