人工智能技術(shù)堆棧中的錯誤配置會導(dǎo)致數(shù)據(jù)攝取管理不善、模型訓(xùn)練效率低下和安全漏洞不足。解決這些挑戰(zhàn)需要不重復(fù)我們從云和 Kubernetes 經(jīng)驗中吸取的教訓(xùn)。
譯自Lessons From Kubernetes and the Cloud Should Steer the AI Revolution,作者?Mark Hinkle。
我們之前見過這個故事……
在過去十年中,云計算和Kubernetes作為革命性力量出現(xiàn),承諾可擴展性、效率和運營靈活性。這些創(chuàng)新改變了組織部署和管理數(shù)字基礎(chǔ)設(shè)施的方式,云服務(wù)實現(xiàn)了輕松的資源擴展,而 Kubernetes 提供了復(fù)雜的容器編排。
然而,這種技術(shù)采用速度帶來了挑戰(zhàn),尤其是配置技術(shù)債務(wù)— 一個阻礙開發(fā)人員生產(chǎn)力、導(dǎo)致系統(tǒng)中斷并增加安全風(fēng)險的復(fù)雜問題。如果組織實施主動配置數(shù)據(jù)管理策略,本可以避免這個問題。
新興的人工智能(AI) 技術(shù)正在遵循類似的軌跡。圍繞 AI 潛力的最初興奮讓我們能夠避免重復(fù)過去的錯誤,包括累積配置技術(shù)債務(wù)。
在 AI 開發(fā)早期解決配置債務(wù)對于避免云和容器技術(shù)在快速走向主流時面臨的先前配置挑戰(zhàn)至關(guān)重要。
云計算的快速崛起
云計算徹底改變了 IT,強調(diào)可擴展性、靈活性及成本效益。企業(yè)迅速從昂貴的本地數(shù)據(jù)中心轉(zhuǎn)向云,重視敏捷性和創(chuàng)新。然而,這種轉(zhuǎn)變帶來了配置復(fù)雜性,導(dǎo)致配置債務(wù),因為公司難以優(yōu)化云服務(wù)以提高性能和成本。
該行業(yè)通過開發(fā)云管理工具和最佳實踐做出了回應(yīng),優(yōu)先考慮簡單性、可重復(fù)性和自動化。這些措施有助于減少配置債務(wù),使組織能夠充分利用云計算的優(yōu)勢,同時有效管理其挑戰(zhàn)。
Kubernetes:通過編排馴服云
Kubernetes 自動化了容器化應(yīng)用程序的部署、擴展和操作,使開發(fā)人員能夠?qū)W⒂趹?yīng)用程序開發(fā),而不是基礎(chǔ)設(shè)施。
盡管有這些好處,Kubernetes 在配置管理中引入了復(fù)雜性,由于最佳實踐不一致,可能會產(chǎn)生大量的配置債務(wù)。
Kubernetes 社區(qū)開發(fā)了?Helm Chart?等工具和實踐,用于包管理,用于自動化應(yīng)用程序管理的運營商和基礎(chǔ)設(shè)施即代碼(IaC) 工具,如Terraform,以及用于高效配置的CI/CD 管道。
與 AI 革命的相似之處
AI 開發(fā)與云服務(wù)和 Kubernetes 的快速增長相似,有望通過增強決策制定和任務(wù)自動化等新功能徹底改變業(yè)務(wù)運營。
然而,這種快速發(fā)展可能會導(dǎo)致另一輪配置技術(shù)債務(wù)的積累,正如我們在云和 Kubernetes 中看到的那樣。AI 系統(tǒng)具有巨大的配置復(fù)雜性:AI 技術(shù)堆棧、算法、數(shù)據(jù)管道和模型必須針對最佳性能、可擴展性和安全性進(jìn)行正確配置。
AI 技術(shù)堆棧中的錯誤配置會導(dǎo)致數(shù)據(jù)攝取管道管理不善、模型訓(xùn)練效率低下和安全措施不足。解決這些挑戰(zhàn)需要不重復(fù)我們從云和 Kubernetes 經(jīng)驗中吸取的教訓(xùn)。
經(jīng)驗教訓(xùn)和前進(jìn)的道路
云計算和 Kubernetes 的發(fā)展為 AI 開發(fā)提供了重要的經(jīng)驗教訓(xùn)。它強調(diào)了戰(zhàn)略規(guī)劃的必要性,包括配置管理中的工具選擇和最佳實踐,以避免配置債務(wù)并確保系統(tǒng)可擴展性和安全性。
實施自動化和 IaC 將減少人為錯誤,使配置更可靠、更可審計。有效的治理和明確的配置管理策略對于維護(hù)系統(tǒng)完整性和合規(guī)性至關(guān)重要,尤其是在快速發(fā)展的 AI 創(chuàng)新中。
培養(yǎng)類似于 Kubernetes 生態(tài)系統(tǒng)的協(xié)作和知識共享社區(qū)至關(guān)重要。通過利用這些經(jīng)驗教訓(xùn),AI 開發(fā)路徑變得更加清晰,使技術(shù)能夠?qū)崿F(xiàn)其變革潛力,同時避免技術(shù)債務(wù)。
避免 AI 中配置債務(wù)的策略
為了避免 AI 開發(fā)中的配置債務(wù),組織可以從云計算和 Kubernetes中學(xué)習(xí),強調(diào)戰(zhàn)略規(guī)劃、自動化和持續(xù)學(xué)習(xí)的文化。
簡而言之,AI 配置即平臺。
自動化通過支持 IaC 的工具減少人為錯誤,并確保一致、可靠的配置。在 AI 項目中建立明確的治理策略可以簡化配置管理并遵循最佳實踐,從而最大程度地降低配置債務(wù)風(fēng)險。
CloudTruth的聯(lián)合創(chuàng)始人 Greg Arnette 說,“根據(jù)對一千多位工程領(lǐng)導(dǎo)者的研究訪談,我相信新 AI 時代必備的解決方案是全面的秘密和配置數(shù)據(jù)編排解決方案,該解決方案可以管理、審計、保護(hù)和版本 AI 堆棧配置和秘密。AI 系統(tǒng)配置和維護(hù)復(fù)雜,并且操作成本高,因為它們消耗了大量云資源并處理敏感的公司數(shù)據(jù)。”
培養(yǎng)優(yōu)先考慮持續(xù)改進(jìn)的文化有助于團(tuán)隊緊跟最新技術(shù)。實施這些策略可確保有效且高效的 AI 系統(tǒng)管理,免受配置債務(wù)的困擾。
結(jié)論:用過去的智慧引領(lǐng) AI 革命
一個清晰的模式出現(xiàn)了,將云和 Kubernetes 的興起與人工智能技術(shù)的興起聯(lián)系起來——快速創(chuàng)新,然后意識到累積的配置技術(shù)債務(wù)將破壞成功的部署。
組織可以通過采用標(biāo)準(zhǔn)化工具、治理框架和協(xié)作實踐來緩解配置債務(wù),這些實踐優(yōu)先考慮簡單性和自動化。這確保了 AI 系統(tǒng)的可擴展性、安全性并能夠發(fā)揮其變革潛力。
請記住,配置數(shù)據(jù)是 AI 基礎(chǔ)設(shè)施堆棧中的“承載負(fù)載”。鑒于秘密和變量至關(guān)重要,配置錯誤在統(tǒng)計上比任何其他類型的軟件錯誤導(dǎo)致更多中斷和違規(guī)。
每個團(tuán)隊都必須具備一個解決方案,該解決方案可以全面管理、審計、保護(hù)和版本此數(shù)據(jù),而無需大量返工。