智能BI平臺 AI

Smartbi AIChat

一站式ABI平臺

Smartbi Insight

智慧數(shù)據(jù)運營平臺

Smartbi Eagle

電子表格軟件

Smartbi Spreadsheet

聯(lián)系我們: 400-878-3819

了解AIChat智能BI平臺解決方案 >

數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)接入

支持對接多種數(shù)據(jù)源

數(shù)據(jù)導(dǎo)入

支持導(dǎo)入Excel、csv、txt數(shù)據(jù)

數(shù)據(jù)模型HOT

支持基于單寬表、多表關(guān)聯(lián)建模

檢索增強(qiáng)生成RAGNEW

AI圖譜構(gòu)建

自動檢索語義層縮小查詢范圍

同義詞

提供同義詞示例

問答解析示例

基于特定復(fù)雜業(yè)務(wù)場景配置示例

知識庫HOT

支持特定領(lǐng)域知識配置，更智能

自然語言分析

圖表支持

基于自然語言生成可視化結(jié)果

時間智能計算HOT

對話生成同環(huán)比復(fù)雜計算

高級分析NEW

支持歸因分析、趨勢預(yù)測等算子

單/多輪對話管理HOT

支持靈活切換單/多輪對話功能

錯誤糾偏

支持對返回結(jié)果人工干預(yù)糾偏

系統(tǒng)管理

大模型支持

支持deepseek和Qwen等

API服務(wù)

提供多種API接口便集成應(yīng)用

應(yīng)用集成

支持集成到企微、釘釘、飛書

權(quán)限管理

支持按角色、用戶設(shè)置數(shù)據(jù)權(quán)限

系統(tǒng)日志

提供按用戶查詢使用、操作日志

了解一站式ABI平臺解決方案 >

數(shù)據(jù)管理

數(shù)據(jù)接入

支持連接各種數(shù)據(jù)源

指標(biāo)管理HOT

實現(xiàn)自增長指標(biāo)體系

數(shù)據(jù)采集

業(yè)務(wù)數(shù)據(jù)在線/文件補(bǔ)錄

數(shù)據(jù)模型

強(qiáng)大計算能力的OLAP建模

自助ETL

分布式計算的數(shù)據(jù)處理

數(shù)據(jù)分析

數(shù)據(jù)可視化HOT

高度交互的可視化分析

即席查詢

自助式明細(xì)數(shù)據(jù)查詢

電子表格

真Excel的中國式報表設(shè)計

透視分析

自助式多維分析

對話式分析

基于自然語言的智能數(shù)據(jù)分析

分析報告

數(shù)據(jù)一鍵同步到報告

數(shù)據(jù)挖掘

機(jī)器學(xué)習(xí)實現(xiàn)預(yù)測分析

Excel融合分析

面向Excel用戶的探索分析

了解智慧數(shù)據(jù)運營平臺解決方案 >

統(tǒng)一數(shù)據(jù)門戶

統(tǒng)一訪問入口

資源便捷集成

千人千面?zhèn)€性門戶

全局搜索高效找數(shù)

數(shù)據(jù)資產(chǎn)目錄

數(shù)據(jù)資產(chǎn)盤點

多資產(chǎn)類型接入集成

數(shù)據(jù)資產(chǎn)分類導(dǎo)航

安全開放資產(chǎn)

自助分析體系

即席查詢

透視分析

數(shù)據(jù)可視化

自然語言交互

數(shù)據(jù)運營管理

用戶行為分析

資產(chǎn)運營看板

資產(chǎn)全景視圖

數(shù)據(jù)需求管理

數(shù)據(jù)互動社區(qū)

數(shù)據(jù)答疑

點贊評論

學(xué)習(xí)園地

積分排行

數(shù)據(jù)共享中心

資源分享

應(yīng)用商店

場景案例庫

了解電子表格軟件解決方案 >

數(shù)據(jù)接入

支持連接各種數(shù)據(jù)源

數(shù)據(jù)集

拖拽/代碼多形式數(shù)據(jù)集

中國式報表

真Excel的中國式報表設(shè)計

系統(tǒng)運維

全方位運維管理

數(shù)據(jù)采集

業(yè)務(wù)數(shù)據(jù)在線/文件補(bǔ)錄

業(yè)務(wù)主題

可復(fù)用的語義模型

數(shù)據(jù)可視化

Echarts圖表可視化

權(quán)限管理

自助式的OLAP多維分析

數(shù)據(jù)脫敏

面向Excel用戶的探索分析

導(dǎo)入文件

本地csv、xlxs、數(shù)據(jù)包等

Excel融合分析HOT

面向Excel用戶的探索分析

移動報表

數(shù)據(jù)一鍵同步到報告

第三方集成

釘釘、微信、企業(yè)APP等

資源集成

用戶、報表、門戶集成

發(fā)布分享

用戶、報表、門戶集成

報表門戶

支持App、Web端分析決策

行業(yè)解決方案

覆蓋金融、制造、醫(yī)療、政府、零售等主流行業(yè)

聯(lián)系我們: 400-878-3819

智能制造 >NEW

財務(wù)管理

營銷管理

供應(yīng)鏈管理

訂單執(zhí)行管理

生產(chǎn)過程管控

智慧政府 >

智慧黨建大數(shù)據(jù)建設(shè)

紀(jì)檢監(jiān)察智慧平臺

公安大數(shù)據(jù)分析應(yīng)用

審計全覆蓋大數(shù)據(jù)分析

教育行業(yè) >

高校數(shù)據(jù)中心與應(yīng)用方案

一網(wǎng)通辦推廣方案

高校質(zhì)量實時監(jiān)測大數(shù)據(jù)平臺

研究生教學(xué)大數(shù)據(jù)服務(wù)平臺

其他行業(yè)

智慧園區(qū)大數(shù)據(jù)解決方案

交通運輸業(yè)大數(shù)據(jù)解決方案

水泥行業(yè)大數(shù)據(jù)解決方案

智慧水務(wù)大數(shù)據(jù)解決方案

金融 >HOT

智慧數(shù)據(jù)運營平臺

能源行業(yè)

電力大數(shù)據(jù)解決方案

燃?xì)獯髷?shù)據(jù)解決方案

醫(yī)療行業(yè) >NEW

運營管理決策平臺

公立醫(yī)院績效考核指標(biāo)監(jiān)控平臺

等級評審指標(biāo)監(jiān)控平臺

醫(yī)院智慧審計平臺

信創(chuàng)生態(tài)

信創(chuàng)ABI產(chǎn)品NEW

資源中心

你身邊的數(shù)智化智庫，匯集了各行各業(yè)的數(shù)智化解決方案、行業(yè)實踐經(jīng)驗、趨勢洞察和行業(yè)洞見等。

進(jìn)入資源中心 >

聯(lián)系我們: 400-878-3819

精選資料 >

《醫(yī)療行業(yè)解決方案集錦》

《制造業(yè)數(shù)字化人力資源管理方案》

《2024中國制造業(yè)智能BI解決方案與案例》NEW

《醫(yī)院分析指標(biāo)體系建設(shè)白皮書》

《制造行業(yè)智能BI最佳實踐合集》

《中國銀行業(yè)商業(yè)智能平臺數(shù)據(jù)運營實踐與案例》

《制造企業(yè)數(shù)字化經(jīng)營管理平臺建設(shè)方案》

《以指標(biāo)為中心的ABI平臺重塑企業(yè)數(shù)字化經(jīng)營白皮書》HOT

智能指南

融合最前沿AI技術(shù)與BI能力，結(jié)合行業(yè)Know-How打造全新一代智能BIHOT

如何讓AIGC跟企業(yè)的戰(zhàn)略能夠匹配，能夠?qū)R？HOT

企業(yè)有了BI，為什么還需要以指標(biāo)為核心的ABI平臺？

指標(biāo)體系是重塑企業(yè)數(shù)字化經(jīng)營能力的關(guān)鍵！

有了AI大模型加持，企業(yè)如何更有效地借助BI釋放數(shù)據(jù)價值？

AI + BI數(shù)智融合，如何驅(qū)動企業(yè)數(shù)智化轉(zhuǎn)型發(fā)展？

管理駕駛艙成擺設(shè)？以指標(biāo)為核心的ABI平臺如何激活核心數(shù)據(jù)？

如何有效運營數(shù)據(jù)以驅(qū)動業(yè)務(wù)發(fā)展與決策？

服務(wù)與支持

思邁特軟件提供多種自動和人工服務(wù)方式，為您的產(chǎn)品使用和項目保駕護(hù)航

投訴熱線：199-2645-9486

投訴郵箱：complain@smartbi.com.cn

商務(wù)咨詢 >

在線咨詢

技術(shù)專家1V1支持服務(wù)

售前熱線

400-878-3819轉(zhuǎn)1

郵箱咨詢

sales@smartbi.com.cn

項目支持 >

IM即時通訊

即時通訊實時溝通

技術(shù)工單

5 × 8 小時在線提供服務(wù)

售后熱線

400-878-3819轉(zhuǎn)2

郵箱支持

support@smartbi.com.cn

建議反饋

產(chǎn)品及服務(wù)反饋渠道

自助提問

用戶社區(qū)互助解答

新手入門

BI快速入門

快速掌握BI及其應(yīng)用

視頻課程

學(xué)習(xí)BI知識，產(chǎn)品快速入門

文檔中心

所有產(chǎn)品在線文檔

新手訓(xùn)練營

每月一次免費產(chǎn)品在線公開課

資格認(rèn)證

數(shù)據(jù)分析師系列資格認(rèn)證

社區(qū)交流

同行小伙伴在線經(jīng)驗分享

應(yīng)用市場 >

應(yīng)用模板

海量可視化大屏行業(yè)/場景應(yīng)用模板

插件庫

功能封裝插件商城

素材庫

常見圖標(biāo)、邊框、組件等可視化素材

產(chǎn)品安全

安全補(bǔ)丁

產(chǎn)品安全補(bǔ)丁下載

了解思邁特軟件

思邁特軟件致力于為客戶提供基于AI Agent的增強(qiáng)分析平臺和解決方案，成為數(shù)據(jù)領(lǐng)域AIGC領(lǐng)導(dǎo)者，讓數(shù)據(jù)為客戶創(chuàng)造價值，助力企業(yè)數(shù)智化運營。

聯(lián)系我們: 400-878-3819

企業(yè)概況

思邁特介紹

合作客戶

榮譽資質(zhì)

可信生態(tài)

企業(yè)文化

聯(lián)系我們

品牌資訊

企業(yè)新聞

行業(yè)資訊

近期活動

媒體報道

客戶證言 >

金融 | 珠峰保險

制造 | 三環(huán)鍛造

制造 | 寶光股份

醫(yī)藥 | 白云山制藥

招納賢士

校園招聘

社會招聘

生態(tài)合作

合作伙伴招募計劃

交付伙伴招募計劃HOT

申請試用

400-878-3819

在線體驗

AIChat對話分析

一站式ABI平臺

電子表格軟件

申請試用

首頁 > 數(shù)據(jù)百科 > 四種常用數(shù)據(jù)處理方式的比較

四種常用數(shù)據(jù)處理方式的比較

2021-06-11 14:43:41 | Smartbi大數(shù)據(jù)百科 9967

商業(yè)智能BI產(chǎn)品更多介紹：http://www.aobey.com.cn/

商業(yè)智能BI產(chǎn)品更多介紹：點擊前往

常用的數(shù)據(jù)處理方式（一）傳統(tǒng)的ETL工具&sma&傳統(tǒng)的ETL工具比如Kettle、Talend、Informatica等，可視化操作，上手比較快，但是對于數(shù)據(jù)量上升導(dǎo)致性能出問題，可優(yōu)化的空間就不是很大了，畢竟底層人家都已經(jīng)幫你封裝好了。

常用的數(shù)據(jù)處理方式（二）Mapreduce&sma&寫Mapreduce進(jìn)行數(shù)據(jù)處理，需要利用java、python等語言進(jìn)行開發(fā)調(diào)試，沒有可視化操作界面來的那么方便，在性能優(yōu)化方面，常見的有在做小表跟大表關(guān)聯(lián)的時候，可以先把小表放到緩存中(通過調(diào)用Mapreduce的api)，另外可以通過重寫Combine跟Partition的接口實現(xiàn)，壓縮從Map到reduce中間數(shù)據(jù)處理量達(dá)到提高數(shù)據(jù)處理性能。

常用的數(shù)據(jù)處理方式（三）Hive&sma&在沒有出現(xiàn)下面要說的Spark之前，Hive可謂獨占鰲頭，涉及離線數(shù)據(jù)的處理基本都是基于Hive來做的，早期的阿里的云梯1就是充分利用Hive的特性來進(jìn)行數(shù)據(jù)處理Hive采用sql的方式底層基于Hadoop的Mapreduce計算框架進(jìn)行數(shù)據(jù)處理，所以他的優(yōu)化方案很多，常見的場景比如數(shù)據(jù)傾斜，當(dāng)多表關(guān)聯(lián)其中一個表比較小，可以采用mapjoin，或者設(shè)置set hive.groupby.skewindata=true等，當(dāng)碰到數(shù)據(jù)量比較大的時候，可以考慮利用分桶，分區(qū)（分為靜態(tài)分區(qū)，動態(tài)分區(qū)）進(jìn)行數(shù)據(jù)重新組織存儲，這樣在利用數(shù)據(jù)的時候就不需要整表去掃描，比如淘寶常常對一個業(yè)務(wù)場景利用不同算法進(jìn)行營銷活動，每個算法的營銷活動可以存放到不同的分桶中，這樣統(tǒng)計數(shù)據(jù)的時候就會提高效率。對于hive的性能優(yōu)化我后面會有一個專題進(jìn)行介紹，這里只簡單提一下常用的場景。

常用的數(shù)據(jù)處理方式（四）Spark&sma&Spark基于內(nèi)存計算的準(zhǔn)Mapreduce，在離線數(shù)據(jù)處理中，一般使用Spark sql進(jìn)行數(shù)據(jù)清洗，目標(biāo)文件一般是放在hdf或者nfs上，在書寫sql的時候，盡量少用distinct，group by reducebykey 等之類的算子，要防止數(shù)據(jù)傾斜。在優(yōu)化方面主要涉及配置每臺集群每臺機(jī)器運行task的進(jìn)程個數(shù)，內(nèi)存使用大小，cpu使用個數(shù)等。從我個人的角度來看，我覺得spark sql跟上面所說的hive sql差不多，只不過spark sql更加傾向于內(nèi)存處理。但是他不具有較強(qiáng)的模板話，如果修改里面邏輯要重新編譯調(diào)試運行，比較適合改動比較小的業(yè)務(wù)場景，比如數(shù)據(jù)倉庫模型中ods，dwd層的數(shù)據(jù)處理。因為這兩層都是寬表級別的粗處理，目的很簡單旨在數(shù)據(jù)最優(yōu)存儲支撐上層ads層報表開發(fā)。

申請試用在線體驗

上一篇：數(shù)學(xué)建模常用十大數(shù)據(jù)分析軟件下一篇：改善企業(yè)業(yè)務(wù)的6個數(shù)據(jù)管理技巧

文章目錄

常用的數(shù)據(jù)處理方式（一）傳統(tǒng)的ETL工具&sma&傳統(tǒng)的ETL工具比如Kettle、Talend、Informatica等，可視化操作，上手比較快，但是對于數(shù)據(jù)量上升導(dǎo)致性能出問題，可優(yōu)化的空間就不是很大了，畢竟底層人家都已經(jīng)幫你封裝好了。

常用的數(shù)據(jù)處理方式（二）Mapreduce&sma&寫Mapreduce進(jìn)行數(shù)據(jù)處理，需要利用java、python等語言進(jìn)行開發(fā)調(diào)試，沒有可視化操作界面來的那么方便，在性能優(yōu)化方面，常見的有在做小表跟大表關(guān)聯(lián)的時候，可以先把小表放到緩存中(通過調(diào)用Mapreduce的api)，另外可以通過重寫Combine跟Partition的接口實現(xiàn)，壓縮從Map到reduce中間數(shù)據(jù)處理量達(dá)到提高數(shù)據(jù)處理性能。

常用的數(shù)據(jù)處理方式（三）Hive&sma&在沒有出現(xiàn)下面要說的Spark之前，Hive可謂獨占鰲頭，涉及離線數(shù)據(jù)的處理基本都是基于Hive來做的，早期的阿里的云梯1就是充分利用Hive的特性來進(jìn)行數(shù)據(jù)處理Hive采用sql的方式底層基于Hadoop的Mapreduce計算框架進(jìn)行數(shù)據(jù)處理，所以他的優(yōu)化方案很多，常見的場景比如數(shù)據(jù)傾斜，當(dāng)多表關(guān)聯(lián)其中一個表比較小，可以采用mapjoin，或者設(shè)置set hive.groupby.skewindata=true等，當(dāng)碰到數(shù)據(jù)量比較大的時候，可以考慮利用分桶，分區(qū)（分為靜態(tài)分區(qū)，動態(tài)分區(qū)）進(jìn)行數(shù)據(jù)重新組織存儲，這樣在利用數(shù)據(jù)的時候就不需要整表去掃描，比如淘寶常常對一個業(yè)務(wù)場景利用不同算法進(jìn)行營銷活動，每個算法的營銷活動可以存放到不同的分桶中，這樣統(tǒng)計數(shù)據(jù)的時候就會提高效率。對于hive的性能優(yōu)化我后面會有一個專題進(jìn)行介紹，這里只簡單提一下常用的場景。

常用的數(shù)據(jù)處理方式（四）Spark&sma&Spark基于內(nèi)存計算的準(zhǔn)Mapreduce，在離線數(shù)據(jù)處理中，一般使用Spark sql進(jìn)行數(shù)據(jù)清洗，目標(biāo)文件一般是放在hdf或者nfs上，在書寫sql的時候，盡量少用distinct，group by reducebykey 等之類的算子，要防止數(shù)據(jù)傾斜。在優(yōu)化方面主要涉及配置每臺集群每臺機(jī)器運行task的進(jìn)程個數(shù)，內(nèi)存使用大小，cpu使用個數(shù)等。從我個人的角度來看，我覺得spark sql跟上面所說的hive sql差不多，只不過spark sql更加傾向于內(nèi)存處理。但是他不具有較強(qiáng)的模板話，如果修改里面邏輯要重新編譯調(diào)試運行，比較適合改動比較小的業(yè)務(wù)場景，比如數(shù)據(jù)倉庫模型中ods，dwd層的數(shù)據(jù)處理。因為這兩層都是寬表級別的粗處理，目的很簡單旨在數(shù)據(jù)最優(yōu)存儲支撐上層ads層報表開發(fā)。

商業(yè)智能BI資料包

掃碼添加「小麥」領(lǐng)取 >>>

商業(yè)智能BI資料包

掃碼添加「小麥」領(lǐng)取 >>>

新一代商業(yè)智能BI工具

覆蓋傳統(tǒng)BI、自助BI、現(xiàn)代BI不同發(fā)展階段，滿足企業(yè)數(shù)字化轉(zhuǎn)型的多樣化需求

一站式ABI平臺

集數(shù)據(jù)管理與數(shù)據(jù)分析應(yīng)用的全能產(chǎn)品

AIChat對話分析

采用AI智能體的新一代智能BI平臺

智慧數(shù)據(jù)運營平臺

實現(xiàn)數(shù)據(jù)資產(chǎn)化向資產(chǎn)服務(wù)化階段邁進(jìn)

電子表格軟件

“真Excel”企業(yè)級Web報表開發(fā)工具

讓數(shù)據(jù)成為增長引擎，解鎖行業(yè)領(lǐng)先的智能BI實踐方案！

前往下載

秦皇岛纫惩金融服务有限公司

智能BI平臺 AI

Smartbi AIChat

一站式ABI平臺

Smartbi Insight

智慧數(shù)據(jù)運營平臺

Smartbi Eagle

電子表格軟件

Smartbi Spreadsheet

了解AIChat智能BI平臺解決方案 >

數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)接入

數(shù)據(jù)導(dǎo)入

數(shù)據(jù)模型HOT

檢索增強(qiáng)生成RAGNEW

AI圖譜構(gòu)建

同義詞

問答解析示例

知識庫HOT

自然語言分析

圖表支持

時間智能計算HOT

高級分析NEW

單/多輪對話管理HOT

錯誤糾偏

系統(tǒng)管理

大模型支持

API服務(wù)

應(yīng)用集成

權(quán)限管理

系統(tǒng)日志

了解一站式ABI平臺解決方案 >

數(shù)據(jù)管理

數(shù)據(jù)接入

指標(biāo)管理HOT

數(shù)據(jù)采集

數(shù)據(jù)模型

自助ETL

數(shù)據(jù)分析

數(shù)據(jù)可視化HOT

即席查詢

電子表格

透視分析

對話式分析

分析報告

數(shù)據(jù)挖掘

Excel融合分析

了解智慧數(shù)據(jù)運營平臺解決方案 >

統(tǒng)一數(shù)據(jù)門戶

數(shù)據(jù)資產(chǎn)目錄

自助分析體系

數(shù)據(jù)運營管理

數(shù)據(jù)互動社區(qū)

數(shù)據(jù)共享中心

了解電子表格軟件解決方案 >

數(shù)據(jù)接入

數(shù)據(jù)集

中國式報表

系統(tǒng)運維

數(shù)據(jù)采集

業(yè)務(wù)主題

數(shù)據(jù)可視化

權(quán)限管理

數(shù)據(jù)脫敏

導(dǎo)入文件

Excel融合分析HOT

移動報表

第三方集成

資源集成

發(fā)布分享

報表門戶

行業(yè)解決方案

覆蓋金融、制造、醫(yī)療、政府、零售等主流行業(yè)

智能制造 >NEW

智慧政府 >

教育行業(yè) >

其他行業(yè)

金融 >HOT

能源行業(yè)

醫(yī)療行業(yè) >NEW

覆蓋金融、制造、醫(yī)療、政府、零售等主流行業(yè)

你身邊的數(shù)智化智庫，匯集了各行各業(yè)的數(shù)智化解決方案、行業(yè)實踐經(jīng)驗、趨勢洞察和行業(yè)洞見等。

思邁特軟件提供多種自動和人工服務(wù)方式，為您的產(chǎn)品使用和項目保駕護(hù)航

思邁特軟件致力于為客戶提供基于AI Agent的增強(qiáng)分析平臺和解決方案，成為數(shù)據(jù)領(lǐng)域AIGC領(lǐng)導(dǎo)者，讓數(shù)據(jù)為客戶創(chuàng)造價值，助力企業(yè)數(shù)智化運營。

讓數(shù)據(jù)成為增長引擎，解鎖行業(yè)領(lǐng)先的智能BI實踐方案！