2023年3月16日,“AI工程化論壇暨MLOps實踐指南發布會”在京舉辦。會上,中國信息通信研究院(簡稱”中國信通院“)發布《人工智能研發運營體系(MLOps)實踐指南(2023年)》。指南從組織如何布局和落地MLOps的角度出發,以模型的高質量、可持續交付作為核心邏輯,系統性梳理MLOps概念內涵、發展過程、落地挑戰,為組織高效構建MLOps框架體系和關鍵能力提供方法論和實踐案例的參考與借鑒,并研判MLOps未來發展趨勢。
一、MLOps概念漸晰,為解決AI生產過程管理問題意義明顯。MLOps是通過構建和運行機器學習流水線(Pipeline),統一機器學習(ML)項目研發(Dev)和運營(Ops)過程的一種方法,目的是為了提高AI模型生產質效,推動AI從滿足基本需求的“能用”變為滿足高效率、高性能的“好用”,有效化解模型全鏈路生命周期管理存在問題,包括跨團隊協作難度大、過程和資產管理欠缺、生產和交付周期長等。
二、國內外MLOps發展百花齊放,落地仍面臨問題和挑戰。2015年至今,從業界意識到機器學習項目技術債給AI生產上線帶來的潛在巨大影響伊始,MLOps前后經歷了斟酌發酵、概念明確、落地應用三大階段,且隨著新工具不斷涌現,在IT、金融、電信等行業得到了廣泛應用和落地。但在這個漸進式發展過程中,MLOps落地面臨著諸多挑戰,包括組織落地驅動力不足、支撐工具選型難集成難、模型治理和可信道阻且長、環境間的交互難以平衡等。
三、圍繞流水線的構建,MLOps框架體系逐步完善?;跈C器學習項目全生命周期,以CI/CD/CT/CM為核心,通過構建各條機器學習流水線,包含需求分析與開發、數據工程流水線、模型實驗工程流水線、持續集成流水線、模型訓練流水線、模型服務流水線、持續監控流水線,MLOps全生命周期閉環框架逐步完善。
四、漸進式建設關鍵能力,MLOps落地效應逐步形成。通過數據處理、模型訓練、構建繼承、模型服務、運營監控、模型重訓、實驗管理和流水線管理等能力的建設,形成MLOps過程管理能力的全面把控。通過特征管理、模型管理和倉庫管理等能力的建設,形成制品管理能力的提升。同時以模型安全作為AI生產過程中的關鍵保障之一,MLOps落地效應日益凸顯。