从机理建模到混合模型：AI正在如何重塑上游细胞培养开发

4 月 7, 2026

上游工艺已进入“高维时代”

传统上游细胞培养开发往往围绕温度、pH、溶氧和补料节奏等少数变量展开，但在当前生物制药实践中，这种“低维假设”正在迅速失效。一个典型的商业化培养体系，已同时受到培养基配方组成及其所含的微量金属元素、补料策略、温度与代谢切换，以及质量属性（CQA）反馈等多重因素的共同影响，变量数量可达数十甚至上百个，形成高度耦合的复杂系统。

在这样的高维空间中，OFAT方法缺乏扩展性，而传统DoE在变量超过8-10个后组合数量迅速膨胀，既难以覆盖真实工艺空间，也难以识别关键交互效应。上游开发正由“经验+实验”转向以模型驱动决策为核心的新阶段。AI与先进建模的引入，并非替代实验，而是辅助我们在高维、不完全可观测的系统中更有效地理解、预测和决策。

三类建模方法 - 机理、数据与混合

当前上游领域的建模实践，可概括为三类：机理模型、数据驱动模型以及混合模型。

机理模型：基于质量守恒和生物动力学（如Monod动力学、物料衡算），参数具备生物学意义，可解释性和外推能力强，适用于生长、代谢切换、温度shift等机制主导问题。
数据驱动模型（如PCA、PLS、ANN、SVM）：擅长处理高维、多变量耦合数据，提取过程变量与输出表型之间的统计关联，其中部分模型具备较强的非线性建模能力，因而在CQA等难以完全机理化描述的问题中应用广泛，但整体可解释性相对有限、对数据质量依赖较高。
混合模型：将机理约束与机器学习能力结合，在可解释性与预测性能之间取得平衡，被普遍认为是“最具工业落地潜力”的方向。

Case 1 机理建模指导温度切换与补料策略优化

该案例来源于WuXi Biologics关于动力学建模优化温度切换与补料策略的公开研究。

材料与方法

采用CHO‑K1细胞fed‑batch培养体系，通过构建非结构化、非分群（unstructured&unsegregated）动力学模型，系统描述细胞生长、代谢物变化与抗体表达过程。模型基于Monod方程与物料衡算，状态变量包括活细胞密度（VCD）、主要底物（葡萄糖、谷氨酰胺）、代谢产物（乳酸、氨）以及抗体滴度。温度被作为外部调控变量，通过调节细胞比生长速率、底物摄取速率及比生产力（Qp）来影响培养过程，并体现在模型结构中。模型在Octave平台实现，并利用多批次历史数据进行参数估计与验证。

在模型建立并完成参数拟合后，研究进一步利用该动力学模型开展过程参数预测与筛选，系统评估不同降温时点（TS‑VCD）与补料强度组合对培养过程和最终滴度的影响。

结果与结论

模型在降温前生长期（36.5 °C）能够较好再现细胞生长和代谢行为，对VCD、乳酸及抗体滴度的拟合精度较高（R²>0.87）。在降温后的生产阶段（33 °C），尽管细胞动力学特性发生变化，模型仍能稳定预测滴度演化趋势，滴度拟合R²提升至0.98。

在此基础上，模型评估了五种不同的TS‑VCD×Feed组合，预测结果表明，在较高VCD条件下进行降温并配合增强补料，有助于显著提高最终抗体滴度（图 1），且预测与实测结果高度一致（R²≈0.80-0.98）。该案例表明，机理建模不仅能够解释温度切换引发的代谢与生产力变化，还可在实验前对工艺策略进行定量筛选，对温度‑代谢强耦合问题具有显著工程优势。

图1 不同降温时点与补料策略下的抗体滴度预测与实测结果对比

Case 2 数据建模预测并调控糖型分布

本案例来自Kotidis&Kontoravdi ANN糖型预测的研究，通过数据驱动建模构建工艺参数与糖型（CQA）之间的映射关系，用于预测并指导糖型分布调控。

材料与方法

研究以IgG表达CHO细胞系为对象，开展多条件补料实验，在不同培养时间点（如Day 4、Day 8）补充半乳糖、尿苷和锰离子以诱导糖型变化。基于实验数据，构建人工神经网络（ANN）模型描述高维代谢与工艺变量对糖型分布的非线性影响。模型输入包括关键核苷酸糖与能量代谢变量（如UDP‑Gal、UDP‑GlcNAc、ATP、GTP）以及培养过程特征，输出为主要糖型比例（Man5、GnGn、AGnF、AAF）。模型在Python 3.7平台训练，并通过独立实验条件验证，同时结合输入变量剔除分析评估模型稳健性。

结果与结论

ANN模型在训练与验证数据集上的平均绝对误差约1.25 %。如图2所示，在不同半乳糖和锰离子补料条件下，模型能够准确预测糖型由低半乳糖化结构GnGn（G0F）向GnGnF/AGnF（G1F），再到AAF（G2F）的整体迁移趋势，且预测结果与实验测量在各主要糖型比例上保持高度一致（图2C）。

图2 ANN对糖型分布的预测能力验证

在未参与训练的独立验证条件中，模型同样能够较好地再现实验中糖型分布的变化特征，对糖型比例变化的方向与相对幅度均具有良好的预测能力。主成分分析（PCA）结果显示，ANN预测数据与实验数据在低维空间中高度重叠，表明模型成功捕捉多种糖型之间的协同变化关系，体现出良好的泛化能力与外推可靠性。该研究结果表明，ANN等数据驱动模型能够在多输入、高非线性的糖基化问题中，对不同工艺调控策略下的糖型分布给出可靠预测，适用于探索尚未实际测试的补料或添加剂组合，从而在保证质量可控的前提下加速工艺开发并降低实验成本。

在糖型调节剂推荐上，HyClone Glycan Supplement（SH31210）可提供一种在不影响细胞生长和产量的前提下，定向降低G0F并提高G1F/G2F等目标糖型比例的添加剂。将此类物料与模型预测相结合，进一步提升糖型调控策略的可执行性，推动CQA从“经验调整”走向“模型指导”。

Case 3 混合建模用于培养基开发与CQA预测

本案例来源Gangwar et al.(2024，Explainable Hybrid ML)，通过将机理认知与可解释机器学习相结合，构建混合模型，用于高维培养基空间下的CQA预测与优化。

材料与方法

研究以CHO细胞fed‑batch培养体系为对象，引入多种培养基成分作为输入变量，尤其关注ppm级金属离子（Fe、Zn、Cu、Mn、Co、Ni等），并以酸性变体和碱性变体比例作为输出表型。建模流程首先基于统计分析与生物过程认知进行特征筛选（PCC、MDA、SHAP），随后构建多种机器学习回归模型（Random Forest、Gradient Boosting Regressor），并通过交叉验证与超参数优化评估模型性能。模型在Python（scikit‑learn）平台实现，并结合独立fed‑batch实验验证预测结果。

结果与结论

模型结果显示，多种金属元素与电荷变体比例存在显著相关性。其中，Fe与酸性变体呈显著正相关（PCC≈+0.55），而Zn与酸性变体呈显著负相关（PCC≈‑0.72），提示这些微量元素可能通过影响蛋白翻译后修饰或细胞内酶活性，进而调控产品质量属性。在多模型比较中，Gradient Boosting Regressor（GBR）表现出最佳综合性能，预测R²约0.93，并在不同条件下保持稳定准确性。

基于GBR模型结果，研究针对Run 625数据对实现目标电荷变体分布的培养基组合进行了预测与筛选。模型以原研对照分子的电荷变体分布为目标（酸性变体 24.97±0.54 %，碱性变体11.41±1.44 %），预测Fe的最优范围为10–25 ppm（最佳值约20 ppm），Zn的最优范围为5.5–12.5 ppm（最佳值约5.5 ppm）。按照模型推荐条件，开展fed-batch验证实验。结果显示，补充条件下酸性变体显著向目标区间移动（图 3A），同时碱性变体比例维持在与原研对照一致的水平（图 3B），整体电荷变体分布成功复现参考分子特征。与此同时，补充Fe和Zn并未对整体细胞培养性能产生负面影响（图3C、3D、3F）。

图3 混合模型指导的培养基优化对电荷变体及细胞培养性能的影响

该案例清楚表明，在高维培养基空间中，单纯依赖机理模型或经验DoE难以覆盖复杂的非线性关系，而纯数据模型又缺乏生物学约束。通过将机理理解、统计筛选与机器学习预测相结合，混合模型能够在保持可解释性的同时，大幅提升CQA预测与培养基优化的成功率。

在该混合建模框架中，模型识别出的关键金属离子与培养基因子，并不直接要求改变配方结构，而更强调对“有效成分稳定性”的控制。HyClone Metallica通过对原材料中关键微量元素的系统表征与精确分选，使模型识别出的质量驱动因子在工业实现中具备可重复性和可控性。与此同时，HyClone CCMD服务可提供培养基与补料定制化开发方案，使培养基成分从统计识别走向工程落地。

AI走向模型驱动的上游开发新范式

上游工艺开发，已经从以实验为中心，演进为以数据和模型为核心的决策体系。机理模型帮助我们理解系统边界，数据模型拓展了高维预测能力，而混合模型正在成为连接两者的关键桥梁。真正的竞争力，不在于单一算法，而在于将材料、数据、模型与工程经验整合为可持续的系统能力。AI的意义，不是替代专家，而是让专家在更复杂的系统中做出更有把握的判断。

教学课程

市场活动

资料下载

产品