大數據

Apache Doris 冷熱分層技術如何實現存儲成本降低 70%?

在數據分析的實際場景中,冷熱數據往往面臨著不同的查詢頻次及響應速度要求。例如在電商訂單場景中,用戶經常訪問近 6 個月的訂單,時間較久遠的訂單訪問次數非常少;在行為分析場景中,需支持近期流量數據的高頻查詢且時效性要求高,但為了保證歷史數據隨時可查,往往要求數據保存周期更為久遠;在日志分析場景中,歷史數據的訪問頻次很低,但需長時間備份以保證后續的審計和回溯的工作…往往歷史數據的應用價值會隨著時間推移

SelectDB
數據分析
2023-06-08 15:35

我用kafka兩年踩過的一些非比尋常的坑

我的上家公司是做餐飲系統的,每天中午和晚上用餐高峰期,系統的并發量不容小覷。為了保險起見,公司規定各部門都要在吃飯的時間輪流值班,防止出現線上問題時能夠及時處理。

大數據技術前線
數據分析
2023-06-08 13:39

一文搞懂數據倉庫、數據平臺、數據中臺、數據湖的概念和區別

我們經常聽到別人談論數據倉庫、數據平臺、數據中臺、數據湖的相關概念,它們都與數據有關系,但它們之間又有什么區別,下面將圍繞數據倉庫、數據平臺、數據湖和數據中臺的概念、架構、使用場景進行介紹。

大數據技術前線
數據分析
2023-06-07 09:35

數據湖真的能取代數據倉庫嗎?

數據湖是近兩年中比較新的技術在大數據領域中,對于一個真正的數據湖應該是什么樣子,現在對數據湖認知還是處在探索的階段,像現在代表的開源產品有iceberg、hudi、Delta Lake。

大數據技術前線
數據分析
2023-06-06 13:50

快手 Flink 的穩定性和功能性擴展

本文整理自快手技術專家劉建剛,在 Flink Forward Asia 2022 生產實踐專場的分享

大數據技術前線
數據分析
2023-06-06 09:43

GaussDB如何給世界一個更優選擇?

華為云 CEO 張平安11 月 7 日,華為全聯接大會 2022 第一天,華為云 CEO 張平安在主題演講中,專門有一頁 PPT 談到了 GaussDB 信息量很大,不僅特別強調“GaussDB 云原生交易數據庫,給世界一個更優選擇”,同時,還分享了 2 個案例和一些數據。華為云特別強調“云原生交易數據庫”而非常規的“云原生數據庫”,多出“交易”兩字,不會是無意義的行為,這個小細節上的變化意味著什

YJKJN
數據挖掘
2023-06-05 16:20

震驚了,原來這才是Kafka的“真面目”?!

kafka是一個分布式消息隊列。具有高性能、持久化、多副本備份、橫向擴展能力。生產者往隊列里寫消息,消費者從隊列里取消息進行業務邏輯。一般在架構設計中起到解耦、削峰、異步處理的作用。

大數據技術前線
數據分析
2023-06-05 11:37

流批一體數據交換 etl-engine 融合查詢語法

etl-engine引擎中的融合查詢提供將多源數據在內存中重組關聯查詢并輸出查詢結果的能力。 融合查詢語法遵循ANSI SQL標準,與常規MySQL查詢語法很相似。

hw2499
ELK
2023-06-04 15:40

用戶行為分析中歸因分析的概念與應用

因為歸因分析本身難度較大,本篇文章就先從理論出發,讓讀者先有一個認知,在提到歸因分析時不至于“云里霧里”。

qing_yun
數據分析
2023-06-02 14:37

小米基于 Flink 的實時數倉建設實踐

本文整理自小米軟件開發工程師周超,在 Flink Forward Asia 2022 平臺建設專場的分享。

大數據技術前線
數據分析
2023-06-02 14:09

Doris數倉的4大特點,一篇講明白

Doris是一款基于MPP技術的SQL分析型數據庫系統,能夠在海量數據的OLAP場景下提供毫秒級的查詢響應性能。Doris的實現架構脫胎自Apache Impala和Google Mesa系統,并進行了大量的改造和優化,最終形成了今天大家看到的這款架構優雅、性能卓越、功能豐富、簡單易用的OLAP數據庫系統。

大數據技術前線
數據分析
2023-06-02 14:08

知乎運營分析平臺 — 艦橋平臺如何通過 Apache Doris 實現查詢速度 10+ 倍提升?

導讀:知乎為實現精細化運營,提高運營效率,依賴 Apache Doris 構建了內部統一的運營分析平臺——艦橋平臺,主要應用于事實接入層、事實建模層和事實運算層等架構核心層的建設,并持續對導入、查詢等方面進行性能調優,最終實現上千億行數據分鐘級導入,千億級數據秒級查詢響應。該平臺當前已經廣泛應用于知乎不同事業部的社區、商廣、教育&會員、技術中臺等領域,得到各部門廣泛認可。 作者|知乎艦橋

SelectDB
數據分析
2023-06-01 17:12

ChunJun FTP Connector 功能擴展解讀

本文從 FTP Connector 的功能詳解,自定義文件切割及自定義 FileFormat 三個方面為大家帶來 ChunJun FTP Connector 的功能擴展分享,對ChunJun感興趣的同學不要錯過~

數棧DTinsight
Hadoop
2023-06-01 11:14

GDPR慶祝五周年生日,Meta被罰13億美元

很難相信歐盟實施《通用數據保護條例》(GDPR)已經五年了,這是當時影響最深遠的數據隱私保護法。數據表明,隨著時間的推移,消費者已經越來越喜歡這項法律。然而,科技公司仍有一些工作要做,Meta公司最近因違反GDPR被罰款13億美元就是證明。

qing_yun
數據分析
2023-05-31 19:06

基于 Log 的通用增量 Checkpoint

眾所周知,Flink 是有狀態的分布式計算引擎,狀態是 Flink 中非常重要的概念,而在 Flink 中狀態和 Checkpoint 機制是密不可分的,因此在討論 Flink 在 Checkpoint 上優化歷程之前,先來看下為什么 Checkpoint 這么重要, Checkpoint 到底做了些什么呢?

大數據技術前線
數據分析
2023-05-30 13:55

數倉命名規范大全?。ǜ较螺d)

數據倉庫的建設實施和落地需要團隊中不同成員的參與和配合,需要各種各樣的規范,規范的分層定義和表命名能讓使用者輕而易舉地明白該表的作用和含義。因此本文檔重點介紹分層規范和可落地的表命名規范。

大數據技術前線
數據分析
2023-05-30 13:45

為什么85%的大數據項目都以失敗告終?

企業在推行大數據項目時往往把項目規模和范圍做得很大,但是事實卻是,大多數的大數據項目通常都以失敗告終。

大數據技術前線
數據分析
2023-05-30 09:39

數據倉庫規范詳解(建議收藏)

規范約束的是數倉建設的全流程,以及后續的迭代和運維。事實上,數倉規范文檔,應該隨著架構設計文檔,在數倉開發啟動之前,分發給所有相關人員,且是所有人都必須嚴格遵守的約定。

帶你聊技術
數據分析
2023-05-25 13:47

一文搞懂數據倉庫、數據平臺、數據中臺、數據湖的概念和區別!

我們經常聽到別人談論數據倉庫、數據平臺、數據中臺、數據湖的相關概念,它們都與數據有關系,但它們之間又有什么區別,下面將圍繞數據倉庫、數據平臺、數據湖和數據中臺的概念、架構、使用場景進行介紹。

大數據技術前線
數據分析
2023-05-25 13:44

Kafka實時數據即席查詢應用與實踐

Kafka中的實時數據是以Topic的概念進行分類存儲,而Topic的數據是有一定時效性的,比如保存24小時、36小時、48小時等。而在定位一些實時數據的Case時,如果沒有對實時數據進行歷史歸檔,在排查問題時,沒有日志追述,會很難定位是哪個環節的問題。

張哥說技術
數據分析
2023-05-25 11:07