用AI让细胞培养更聪明:培养基优化与质量预测新方法

1 月 13, 2026

细胞培养基在细胞生长和繁殖中起着至关重要的作用,培养基组分会对细胞表达的蛋白质量产生重要的影响。

细胞培养基的固有复杂性使得揭示各种培养基成分对细胞生长和关键质量属性(CQA)的影响就变得更加重要,本文将为您介绍一种端到端的机器学习架构,通过对培养基成分的优化,建立对CQA的预测方法。

细胞培养基的开发和优化是很多培养基供应公司及生物制药公司要进行的一项关键工作,需要消耗大量的时间和资源。

由于细胞培养基和哺乳动物细胞都是高度复杂的系统,其开发和优化也面临巨大的挑战。细胞培养基由数十种甚至上百种成分组成,如氨基酸、脂肪酸、维生素、微量元素和盐类等,而这些成分都可能影响细胞生长、蛋白表达,以及治疗性产品的CQA。

目前有多种方法可以优化细胞培养基组分,包括基于模型的方法、基于补料的方法以及基于代谢流的方法等。通过传统单因子(OFAT)或双因子方法研究培养基组分,耗时且资源消耗大。近年来,统计学方法如实验设计(DOE)和多变量数据分析(MVDA)等逐渐流行,但仍无法全面反映培养基与细胞之间的复杂相互作用。

机器学习(Machine Learning,ML)方法在处理生物数据的数量和内在复杂性方面的应用正在不断增加,经典流程包括数据输入、训练基础模型进而进行预测。细胞培养基是一个结构良好的典型数据集示例,包含多个功能成分作为特征变量。基于ML的方法也已被证明可以应用于培养基开发工作。

本文将为您介绍如何有效利用ML方法进行特征选择、CQA预测以及培养基优化。电荷异质性被认为会影响生物治疗产品的疗效,而金属离子在调节电荷异质性方面发挥了重要作用,尤其是铁(Fe)、铜(Cu)和锌(Zn)。本文介绍的架构中ML方法首先应用于初步数据集,通过特征排序方法识别对结果影响显著的金属离子。

通过使用一种混合机器学习架构(Fig.1),优化CHO细胞培养基并预测关键质量属性,该模型由多种机器学习技术(Machine Learning Techniques)组成,流程包括五个不同的操作阶段:(1)准备与预处理,(2)特征选择与分析,(3)优化,(4)模型开发,(5)模型评估。

培养基配方优化则通过在基础培养基中补充不同组合的金属盐制备,包括铜(Cu)、铁(Fe)、锌(Zn)、锰(Mn)、镁(Mg)、钴(Co)和镍(Ni)来实现。为了提高算法的准确性,需要对数据集进行预处理,包括数据采集、缺失值填补和归一化。

在预处理阶段之后,采用两种不同的方法,即Mean Decrease Accuracy (MDA)和Gini Index,并使用SHapley Additive exPlanations来可视化特征的重要性。在模型训练过程中,将数据集分为K个相等部分(K=6),并利用剩余的数据集对训练好的模型进行验证。通过交叉验证的超参数优化方法建立各种机器学习模型,最终,共使用了十五种机器学习方法来筛选金属离子浓度,分析其对电荷变异谱的影响,并估算最佳浓度。

Proposed machine learning framework for prediction of critical quality attributes
Fig.1 Proposed machine learning framework for prediction of critical quality attributes

1

细胞培养

将表达IgG1的CHO-GS(-/-)细胞株,按照0.5 × 10^6 cells的细胞密度接种到无血清培养基中,分别进行batch和fed-batch培养。Batch培养运行6天,收集数据用于特征选择和回归模型开发,而fed-batch数据用于验证优化后的培养基与对照的基础培养基的比较。Fed-batch运行10天,从第3天到第9天,每隔一天进行补料。样品在每次隔天补料前采集,并进行细胞计数,活率计算,以及分析各种培养代谢物。两种培养模式结束后,收获细胞培养上清液,进一步分析titer、电荷变体、片段和聚体等。

2

培养基配方

培养基配方通过在基础培养基中补充不同组合的金属盐制备。先前的研究也证明了金属离子在决定CQA方面的重要性。金属离子(Cu、Fe、Zn、Mn、Mg、Co和Ni)的浓度基于先前文献,以ppm表示,并在下表中进行了汇总。

3

数据子集

数据子集是通过在批次模式下使用不同培养基配方培养细胞生成的,纯化的单克隆抗体中的电荷变体(酸性,Y1;碱性,Y2)作为目标变量,具有不同金属离子浓度的培养基配方被用作预测变量。实验中共使用了七种金属离子作为特征或预测因子,而34种配方作为观测值。最后,将具有相应特征目标的数据输入到特征选择架构中。

4

机器学习方法

基于各种生物统计工具和机器学习方法进行了特征选择,以识别对目标变量具有显著影响的特征。随后,进行了培养基优化,以获得Fe和Zn的最佳浓度,从而实现所需的电荷变体谱。最后,针对特征变量,使用不同的机器学习回归模型评估各种模型在预测电荷变体方面的性能。通过统计方法有效量化特征与目标变量之间的关联性,依据其与目标变量的关联程度进行排名,分数较高的特征表明与目标变量关系更强。

在机器学习特征排序中,我们重点关注嵌入式方法,如random forests和gradient-boosting regressors。在细胞培养后,为预测不同培养基配方下生产的单克隆抗体电荷变体组成,开发了监督学习模型。通过构建机器学习模型,培养基成分作为解释变量,电荷变体作为目标变量。利用sixfold cross-validation approach对机器学习模型的预测准确性进行了评估。


结果

1

基础培养基中的培养特征和单克隆抗体的CQA

Fed-batch培养10天后,单克隆抗体酸性变体(17.64 ± 1.07)%和碱性变体(12.86 ± 0.43)%,与原研药物的酸性变体(24.97±0.54)%和碱性变体(11.41±1.44)%相比,酸性变体组成显著降低(Fig.2)。

Comparison of charge variant profile of (A) acidic and (B) basic variants

Fig.2 Comparison of charge variant profile of (A) acidic and (B) basic variants

为了研究7种金属离子(Cu、Fe、Zn、Mn、Mg、Co和Ni)对最终产品电荷变体的影响,使用34组培养基配方进行batch培养,以评估其对电荷变异的影响。根据Pearson’s correlation coefficient (PCC),基于两个列表元素之间的线性相关性(Fig.3),发现铁(Fe,PCC=+0.55)与酸性变体呈现最大的正相关性,与铜(Cu)呈负相关,和锰(Mn)呈现程度较弱的正相关。在碱性变体中,锌(Zn,PCC=-0.72)表现出最大且显著的负相关性,其次是镍。

Feature ranking for acidic and basic variants (N = 2). Pearson’s correlation coefficient (PCC)

Fig.3 Feature ranking for acidic and basic variants (N = 2). Pearson’s correlation coefficient (PCC)

2

ML特征排序

在机器学习特征排序中,我们重点采用基于嵌入的方法进行特征选择。使用了Random forests(RF)和gradient boost decision trees(GBDT)。在酸性变体中,铁(Fe)、锰(Mn)和铜(Cu)表现最佳,在碱性变体中,锌(Zn)和镍(Ni)发挥了显著作用。SHapley Additive exPlanations(SHAP)是一种基于博弈论的方法,用于解释任何机器学习模型的输出。基于不同模型的观测值,发现铁(Fe)对酸性变体影响最大,而锌(Zn)对碱性变体影响最大。

3

利用特征变量预测电荷变体

基于PCC的结果,Fe(PCC=+0.55)和Zn(PCC=-0.72)分别被进一步作为酸性与碱性变体的关键调节因子。在多支培养瓶中设置不同浓度的Fe和Zn,以构建用于电荷变体谱的机器学习预测模型。共进行了42次实验运行,覆盖Fe与Zn的不同组合。为评估所提出框架的稳健性与泛化能力,我们将这42条数据用于测试,并使用多种监督学习算法来预测电荷变体。

通过对十五种不同机器学习技术比较,发现Random forest(R2:0.9151 ± 0.0455)和gradient boost regressor (R2: 0.9288 ± 0.0441)是其中表现最为出色的两个模型。

4

培养基优化

从初始训练数据集构建的机器学习模型中,通过改变培养基组分浓度的多种组合,模拟获得了约625个培养基候选方案。将这625个培养基候选方案输入机器学习模型,预测了细胞培养的相对电荷变体分布。采用GBDT模型来预测能够实现所需电荷变体(即与对照分子一致)的培养基组合。筛选出与对照分子电荷变体目标一致的培养基组合,即酸性变体(24.97 ± 0.54)%和碱性变体(11.41 ± 1.44)%。

根据模型预测,铁(Fe)浓度范围约为10–25 ppm,锌(Zn)浓度范围约为5.5–12.5 ppm,最终确认Fe=20 ppm和Zn=5.5 ppm,既保证了较高的titer,也不会对电荷变体组成产生显著影响(Fig.4)。

Optimized medium cell culture and charge variant profile. A Acidic variants (%). B Basic variants (%).

Fig.4 Optimized medium cell culture and charge variant profile. A Acidic variants (%). B Basic variants (%). 


结果

本文介绍了一种基于机器学习(ML)的方法,通过特征选择、预测和优化,以确定细胞培养基中对细胞分泌蛋白的电荷异质性具有重要影响的金属离子及其浓度,从而实现与对照分子一致的电荷变体组成。

DOE分析通常会根据设计矩阵限制组分浓度范围,而ML模型训练没有此类限制,这对细胞培养基组分评估非常有用,因为组分浓度的调整往往受到多种限制。DOE可筛选、评估和优化的变量数量有限,而ML可以轻松处理数百个变量。

在筛选研究中使用的七种金属离子(Cu、Fe、Zn、Mn、Mg、Co和Ni)通过基于机器学习的特征选择方法进行分析和筛选。对于酸性变体,Fe、Mn和Cu影响最显著,其中Fe和Mn促进酸性变体形成,而Cu抑制酸性变体形成。对于碱性变体,Zn和Ni影响最显著,其中Ni与碱性变体呈正相关,Zn与碱性变体呈负相关。通过机器学习模型预测,Fe和Zn的优化浓度分别估算为20 ppm和5.5 ppm,在此浓度下,电荷变体分布与对照分子最为接近,从而实现了利用机器学习模型对CQA的预测。

机器学习(ML)方法在培养基组分筛选方面提供了更高效的途径,对于从事生物类似药开发的研究人员或希望采用端到端 ML方法(从培养基组分筛选、CQAs预测到优化)的创新者具有重要参考价值。

细胞培养基组分复杂、原料种类繁多,生物生产所用培养基的关键原料变异性会影响培养基的性能和批次间的稳定性,进而影响到产品的安全性和有效性。

HyClone凭借多年细胞培养基研发和生产经验与全球化布局为药企提供定制化代工服务,以全球一致的稳定质量体系,严格的原材料管控和先进的检测能力赋能自有配方的稳定生产,助力生物药开发与商业化进程。HyClone Metallica服务,通过精准加工,我们可以控制培养基中所含金属元素和氨基酸等成分,在不调整配方的前提下,保证上游培养的高效性和一致性。

相关阅读:

分享给微信好友
1. 点击右上角 ···
2. 点击 或 

分享后的每次用户阅读您获得5个积分
分享后的如产生新用户注册获得10个积分
注:每天各自最多20积分

请使用微信扫描下方二维码进行分享

分享后的每次用户阅读您获得5个积分
分享后的如产生新用户注册获得10个积分
注:每天各自最多20积分

我来分享


教学课程

市场活动

资料下载

产品

分享给微信好友
1. 点击右上角 ···
2. 点击 或 

分享后的每次用户阅读您获得5个积分
分享后的如产生新用户注册获得10个积分
注:每天各自最多20积分

请使用微信扫描下方二维码进行分享

分享后的每次用户阅读您获得5个积分
分享后的如产生新用户注册获得10个积分
注:每天各自最多20积分

我来分享