日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 物聯(lián)網(wǎng) > 智能應用
[導讀]去年,我們目睹了大型AI的爆炸性崛起,產(chǎn)生了全球性的熱情,使人工智能看起來像是所有問題的解決方案。今年,隨著大肆宣傳的減弱,大型模型進入了更深層次,目的是重塑各個行業(yè)的基本邏輯。在大數(shù)據(jù)處理領(lǐng)域,大型模型與傳統(tǒng)ETL(提取、轉(zhuǎn)換、負載)流程之間的沖突引發(fā)了新的爭論。

去年,我們目睹了大型AI的爆炸性崛起,產(chǎn)生了全球性的熱情,使人工智能看起來像是所有問題的解決方案。今年,隨著大肆宣傳的減弱,大型模型進入了更深層次,目的是重塑各個行業(yè)的基本邏輯。在大數(shù)據(jù)處理領(lǐng)域,大型模型與傳統(tǒng)ETL(提取、轉(zhuǎn)換、負載)流程之間的沖突引發(fā)了新的爭論。

大型模型 特點是"transformer",而ETL依靠的是"轉(zhuǎn)換"過程--類似的名稱代表了截然不同的范式。一些聲音大膽預言: "ETL將在未來完全被替換,因為大型模型可以處理所有數(shù)據(jù)!" 這是否意味著幾十年來支持數(shù)據(jù)處理的ETL框架的結(jié)束?還是僅僅是一個被誤解的預言?這場沖突的背后是對科技未來的更深刻的思考。

大數(shù)據(jù)處理(ETL)會消失嗎?

隨著大型模型的迅速發(fā)展,一些人開始推測傳統(tǒng)的大數(shù)據(jù)處理方法,包括ETL,是否仍然有必要。無可否認,能夠自主學習規(guī)則并從大量數(shù)據(jù)集中發(fā)現(xiàn)模式的大型模型給人留下了深刻印象。不過,我的答案很明確: 他不會消失的。 大型模型仍未能應對若干核心數(shù)據(jù)挑戰(zhàn):

1. 效率問題

盡管大型模型在特定任務中表現(xiàn)出色,但卻要付出巨大的計算成本。訓練大型transformer模型可能需要數(shù)周時間,耗費大量能源和財政資源。相比之下,ETL依賴于預先定義的規(guī)則和邏輯,是高效的,資源輕,擅長處理結(jié)構(gòu)化數(shù)據(jù)。

對于日常企業(yè)數(shù)據(jù)任務,許多操作仍然是由規(guī)則驅(qū)動的,例如:

· 數(shù)據(jù)清理 :使用明確的規(guī)則或正則表達式消除異常。

· 格式轉(zhuǎn)換 *使格式標準化,以便利數(shù)據(jù)傳輸和跨系統(tǒng)整合。

· 集合和統(tǒng)計 :每日、每周或每月分類、聚合和計算數(shù)據(jù)。

這些任務可以由ETL工具快速處理,而不需要大型模型的復雜推理能力。

2. 自然語言含糊不清

大型模型在?自然語言處理 但也暴露了固有的挑戰(zhàn)--人類語言的含糊和含糊。例如:

· 單個輸入查詢可能會根據(jù)上下文產(chǎn)生不同的解釋,無法保證準確性。

· 數(shù)據(jù)質(zhì)量的差異可能導致模型產(chǎn)生與實際需求不一致的結(jié)果。

相反,ETL是確定性的,根據(jù)預先定義的規(guī)則處理數(shù)據(jù),以產(chǎn)生可預測的、標準化的輸出。在金融和醫(yī)療等高需求領(lǐng)域,ETL的可靠性和精確性仍然是至關(guān)重要的優(yōu)勢。

3. 強適應結(jié)構(gòu)化數(shù)據(jù)

大型模型善于從非結(jié)構(gòu)化數(shù)據(jù)中提取見解(例如:,文本,圖像,視頻),但經(jīng)常與結(jié)構(gòu)化數(shù)據(jù)任務斗爭。例如:

· 傳統(tǒng)的ETL有效地處理關(guān)系數(shù)據(jù)庫,處理連接和組BYS等復雜的操作。

· 大型模型要求數(shù)據(jù)在處理之前轉(zhuǎn)換成特定的格式,從而引入了冗余和延遲。

在結(jié)構(gòu)性數(shù)據(jù)主導的情況下(例如:表,JSON),ETL仍然是最佳選擇。

4. 解釋和順從

大型模型常被稱為"黑匣子"。"即使數(shù)據(jù)處理工作完成,其內(nèi)部工作和決策機制仍不透明:

· 無法解釋的結(jié)果 :在金融和醫(yī)療等監(jiān)管行業(yè),大型模型的預測可能因缺乏透明度而無法使用。

· 遵守方面的挑戰(zhàn) :許多行業(yè)需要對數(shù)據(jù)流和處理邏輯進行全面審計。大型模型及其復雜的數(shù)據(jù)管道和決策機制構(gòu)成了重大的審計挑戰(zhàn)。

相比之下,ECL提供了高度透明的流程,記錄了每一個數(shù)據(jù)處理步驟并進行了審計,確保遵守公司和行業(yè)標準。

5. 數(shù)據(jù)質(zhì)量和輸入標準化

大型模型對數(shù)據(jù)質(zhì)量高度敏感。噪音、異常或非標準化投入會嚴重影響其性能:

· 數(shù)據(jù)噪音 :大型模型無法自動識別錯誤數(shù)據(jù),可能將其用作"學習材料",并產(chǎn)生有偏見的預測。

· 缺乏標準化 :將未經(jīng)清理的原始數(shù)據(jù)輸入大型模型可能會導致不一致和值缺失,這就需要像ETL這樣的預處理工具。

ECL確保數(shù)據(jù)在輸入大型模型之前得到清理、復制和標準化,保持高數(shù)據(jù)質(zhì)量。

盡管大型模型在許多領(lǐng)域都很出色,但它們的復雜性、對高質(zhì)量數(shù)據(jù)的依賴、硬件的需求以及實際的局限性,確保了它們不能完全取代ETL。ETL作為一種確定性、高效和透明的工具,將繼續(xù)與大型模型共存,為數(shù)據(jù)處理提供雙重保障。

共同國家小組GPU:與ETL平行的。大型模型

雖然ETL無法替換,但大型模型在數(shù)據(jù)處理中的興起是一個必然趨勢。幾十年來,計算機系統(tǒng)都以CIP為中心,其他組件都被認為是外圍設備。GPS主要用于游戲,但今天, 數(shù)據(jù)處理依賴于CPU和GPS的協(xié)同作用。 這種范式的轉(zhuǎn)變反映了英特爾和英偉達公司股票趨勢所反映的更廣泛的變化。

從單中心到多中心計算

歷史上,數(shù)據(jù)處理架構(gòu)從"以CIP為中心"演變?yōu)?CPU+GPU(甚至NPU)協(xié)作。"由于計算性能要求的變化,這種轉(zhuǎn)變對數(shù)據(jù)處理工具的選擇產(chǎn)生了深刻影響。

在以CIP為中心的時代,早期ETL流程嚴重依賴CPU邏輯進行數(shù)據(jù)清理、格式化和聚合等操作。這些任務非常適合CPU的順序處理能力。

然而,復雜數(shù)據(jù)格式(音頻、視頻、文本)的上升和指數(shù)存儲的增長揭示了CPU能力的局限性。GPS擁有無與倫比的并行處理能力,此后在數(shù)據(jù)密集型任務中占據(jù)了中心地位,比如培訓大型transformer模型。

從傳統(tǒng)ETL到大型模型

傳統(tǒng)ETL流程,優(yōu)化為"以CIP為中心"的計算,擅長處理基于規(guī)則的結(jié)構(gòu)化數(shù)據(jù)任務。實例包括:

· 數(shù)據(jù)驗證和清理。

· 格式標準化。

· 集合和報告。

相比之下,大型模型則需要GPU功率來進行高尺寸矩陣計算和大規(guī)模參數(shù)優(yōu)化:

· 預處理:實時標準化和數(shù)據(jù)分割。

· 模型培訓:涉及浮點操作的繁重計算機任務。

· 輸入服務:針對低延遲和高吞吐量的優(yōu)化批處理。

這反映了一種轉(zhuǎn)變 神經(jīng)推理的邏輯計算 擴大數(shù)據(jù)處理,包括 推理和知識提取。

為大型模型準備新一代ETL架構(gòu)

大型模型的興起凸顯了傳統(tǒng)數(shù)據(jù)處理效率低下的問題,這就需要一個更先進、更統(tǒng)一的體系結(jié)構(gòu)。

當前數(shù)據(jù)處理中的痛苦點

1. 復雜的 , 支離破碎的過程 :數(shù)據(jù)清理、注釋和預處理仍然是高度手動和孤立的。

2. 可重用性低 :團隊經(jīng)常重新創(chuàng)建數(shù)據(jù)管道,導致效率低下。

3. 質(zhì)量不一致 :缺乏標準化工具導致數(shù)據(jù)質(zhì)量不同。

4. 高成本 :每個團隊的單獨開發(fā)和維護增加了成本。

解決方案:Ai增強ETL工具

未來的ETL工具將嵌入人工智能功能,將傳統(tǒng)的優(yōu)勢與現(xiàn)代智能融合在一起:

· 嵌入式發(fā)電 *對文本、圖像和音頻矢量化的內(nèi)置支持。

· 法學院碩士 :非結(jié)構(gòu)化數(shù)據(jù)的自動化結(jié)構(gòu)化。

· 動態(tài)清洗規(guī)則 :優(yōu)化數(shù)據(jù)清理戰(zhàn)略。

· 非結(jié)構(gòu)化數(shù)據(jù)處理 支持鍵盤提取、OCR和語音對文本。

· 自動增強 :智能數(shù)據(jù)生成和增強。

終極趨勢:transformer+變換

隨著技術(shù)的不斷進步,大型模型和傳統(tǒng)ETL工藝正在逐步收斂。預計下一代ETL架構(gòu)將把大型模型的智能與ETL的效率相融合,創(chuàng)建一個能夠處理不同數(shù)據(jù)類型的綜合框架。

硬件:數(shù)據(jù)處理單元的集成

數(shù)據(jù)處理的基礎正在從以CIP為中心的系統(tǒng)轉(zhuǎn)向涉及CPU和GPS的協(xié)作方法:

· 基本任務的中央業(yè)務單位 :CPU擅長基礎操作,如初步數(shù)據(jù)清理、集成和基于規(guī)則的處理,如提取、轉(zhuǎn)換和加載結(jié)構(gòu)化數(shù)據(jù)。

· 高級分析通用數(shù)據(jù)表 :擁有強大的并行計算能力,GPS處理大型模型訓練和預處理數(shù)據(jù)的推理任務。

這一趨勢不僅反映在技術(shù)創(chuàng)新上,而且也反映在產(chǎn)業(yè)動態(tài)上:英特爾正在推進Cpui-AI協(xié)作的人工智能加速器,而NVIDIA正在將GPU應用擴展到傳統(tǒng)的ETL場景中。CPU和GPS之間的協(xié)同作用為下一代數(shù)據(jù)處理提供了更高的效率和智能支持。

軟件:數(shù)據(jù)處理架構(gòu)集成

隨著ETL和大型模型功能日益交織在一起,數(shù)據(jù)處理正在演變成一個多功能的協(xié)作平臺,在這個平臺上ETL充當大型模型的數(shù)據(jù)準備工具。

大型模型在培訓期間需要高質(zhì)量的輸入數(shù)據(jù),ETL提供初步處理,以創(chuàng)造理想的條件:

· 噪音清除及清潔 :消除噪音數(shù)據(jù),以提高數(shù)據(jù)集的質(zhì)量。

· 格式化和標準化:將不同的數(shù)據(jù)格式轉(zhuǎn)換為適合大型模型的統(tǒng)一結(jié)構(gòu)。

· 數(shù)據(jù)增強:通過預處理和基于規(guī)則的增強來擴展數(shù)據(jù)的規(guī)模和多樣性。

ai增強的ETL架構(gòu)的出現(xiàn)

ETL工具的未來在于嵌入人工智能的能力,以實現(xiàn)更智能的數(shù)據(jù)處理:

1.嵌入能力

· 集成用于生成嵌入的模塊,以支持基于向量的數(shù)據(jù)處理。

· 為文本、圖像和音頻生成高維表示;在下游任務中使用預先訓練好的模型進行語義嵌入。

· 直接在ETL工作流中執(zhí)行嵌入計算,減少了對外部推理服務的依賴。

2. LLM Knowledge Extraction

· 利用大型語言模型(LLMS)有效地處理非結(jié)構(gòu)化數(shù)據(jù),提取實體和事件等結(jié)構(gòu)化信息。

· 完成和推斷復雜領(lǐng)域,如填補缺失的價值或預測未來趨勢。

· 在數(shù)據(jù)集成過程中啟用多語言數(shù)據(jù)轉(zhuǎn)換和語義對齊。

3.非結(jié)構(gòu)化數(shù)據(jù)識別和鍵盤提取

· 支持視頻、圖像和音頻數(shù)據(jù),使自動鍵盤提取用于注釋或培訓數(shù)據(jù)集。

· 從圖像中提取特征(例如:,目標檢測,OCR),并執(zhí)行音頻到文本轉(zhuǎn)換,情緒分析等。

4.動態(tài)清潔規(guī)則

· 根據(jù)數(shù)據(jù)上下文動態(tài)調(diào)整清理和增強策略,以提高效率和相關(guān)性。

· 實時檢測異常并生成自適應清洗規(guī)則。

· 優(yōu)化特定領(lǐng)域的清理策略(例如:(金融、保健)。

5.自動數(shù)據(jù)增加和生成

· 通過人工智能模型(例如。,同義詞替換,數(shù)據(jù)反向轉(zhuǎn)換,對抗性樣本生成)。

· 擴展低樣本場景的數(shù)據(jù)集,并支持跨語言或跨域數(shù)據(jù)生成。

AI增強ETL是一個從傳統(tǒng)ETL的轉(zhuǎn)變飛躍,提供嵌入生成、基于LLM的知識提取、非結(jié)構(gòu)化數(shù)據(jù)處理和動態(tài)規(guī)則生成,以顯著提高數(shù)據(jù)處理的效率、靈活性和智能。

案例研究:阿帕奇--一個新一代的AI-增強ETL架構(gòu)

例如,開源 阿帕奇座位 該項目正在通過支持創(chuàng)新數(shù)據(jù)格式和先進的處理能力,打破傳統(tǒng)的ETL限制,展示數(shù)據(jù)處理的未來:

· 對非結(jié)構(gòu)化數(shù)據(jù)的本土支持 :Seatunel引擎支持文本、視頻和音頻處理,以滿足不同的模型培訓需求。

· 矢量化數(shù)據(jù)支持 :能夠與深度學習和大模型推理任務無縫兼容。

· 嵌入大型模型特征 支持嵌入式生成和LLP轉(zhuǎn)換,將傳統(tǒng)ETL與AI推理工作流連接起來。

· "對任何"轉(zhuǎn)換 ::從任何來源轉(zhuǎn)換數(shù)據(jù)(例如:,數(shù)據(jù)庫,雙日志,PDF,SaaS,視頻)到任何目標格式,提供無與倫比的多功能性。

像Seatunel這樣的工具說明了現(xiàn)代數(shù)據(jù)處理如何演變成一個AI+大數(shù)據(jù)全堆協(xié)作系統(tǒng),成為企業(yè)AI和數(shù)據(jù)策略的核心。

結(jié)論

大型模型transformer和大數(shù)據(jù)轉(zhuǎn)換不是競爭對手,而是盟友。數(shù)據(jù)處理的未來在于ETL和大型模型的深入整合,具體說明如下:

1. 協(xié)作數(shù)據(jù)處理股 :利用Cpu-GSP的協(xié)同作用,進行結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理。

2. 動態(tài)數(shù)據(jù)處理架構(gòu) :將人工智能嵌入到ETL中,用于嵌入生成、LLS知識提取和智能決策。

3. 下一代工具 :像阿帕奇賽恩涅爾這樣的開源解決方案突出了這一趨勢,使"對任何"數(shù)據(jù)轉(zhuǎn)換和重新定義ETL邊界成為可能。

大型模型和ETL的收斂將推動數(shù)據(jù)處理進入一個智能、標準化和開放的新時代。通過滿足企業(yè)需求,這種演變將推動企業(yè)創(chuàng)新和智能決策,成為數(shù)據(jù)驅(qū)動型企業(yè)未來的核心引擎。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅(qū)動電源設計中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設備的使用壽命。然而,在實際應用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設計、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設中,街道及停車場照明作為基礎設施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉