文献速递
目前有多种相关分析方法被应用于确定 microbe–metabolite 关系。今天分享一个能考虑不同组学数据的特点,适用于 metabolome (代谢组)和 microbiome (微生物组)的分析策略— GraMM (Generalized coRrelation analysis for Metabolome and Microbiome)。
GRaMM 通过整合多种方法可以处理两类组学数据,消除混杂因子的影响,获得线性和非线性的关系。
GRaMM 包括 4 个步骤:代谢组和微生物组数据的预处理;线性或非线性关系的识别;数据矫正和相关性计算;p 值矫正。
1、看决策边界是否是一个点、一条直线或平面(线性函数)2、看一个权重系数w是否只影响1个特征x,例如神经网络模型是非线性模型,特征x不仅仅受一个权重系数影响,因此,它的解释性较弱 样本线性不可分,也可以选择线性。
在多个模拟和真实数据集中,与其他三种方法比较,评估 GRaMM 的性能:准确性,敏感性,特异性,假阳性率,适用性以及数据预处理和混杂调整步骤步骤的效果。GRaMM 是为代谢组和微生物组的相关性分析设计的策略。Matlab 函数和 R 包免费提供,供学术研究使用。
Keywords: GRaMM,MIC,MECC,preprocessing,confounder adjustment
Title: A Strategy for Inter-correlation Identification between Metabolome and Microbiome
DOI: 10.1021/acs.analchem.9b02948
Journal: Analytical Chemistry [IF 6.35]
First Authors: Dandan Liang,Mengci Li
Correspondence: Wei Jia,Tianlu Chen
Affiliation: Shanghai Key Laboratory of Diabetes Mellitus and Center for Translational Medicine,Shanghai Jiao Tong University Affiliated Sixth People's Hospital,Shanghai,China.
Published: 2019-10-22
研究背景
在组学研究领域,Pearson,Spearman,LR,SparCC,CCLasso 被用于确定微生物组的相关性。maximum information coefficient (MIC) 可以捕获线性和非线性相关性。partial least squares (PLS) 和 canonical correlation analysis (CCA) 被应用于微生物组和代谢组的相关性分析。
代谢组和微生物组数由于获取方式的不同,数据特征不同。代谢组数据是连续谱数据,微生物组是基于序列的“计数”方法。此外,代谢组数据是高度稀疏的,通常用相对丰度表示。因此,怎么判断是线性还是非线性,数预处理(如:归一化,log转换)对下游分析有益。混杂因子(如:年龄,性别,饮食等)可能导致结果偏差。计算相关性时,可以用少量方法(如:LR 和净相关)调整混杂因子。真实数据集中中存在多种类型相关性(线性,非线性和无相关性)。除了MIC,其他现存分析方法都只能捕获线性或单调相关性。
研究思路
GraMM 流程图:(1)预处理:代谢-- log 转换和总强度归一化;微生物-- 总强度归一化,稀释和居中对数比变化。(2)确定相关类型:线性:p<0.05 或 r > 用户设定的值;非线性:不满足上述条件。(3)混杂因子:线性(无)-- LR;线性(有)-- mLR(微生物数据和混淆因子做自变量,代谢数据是因变量);非线性(无)-- MIC;非线性(有)-- MCEE 移除特定混杂因子的影响,不需要额外实验,不丢失样本/变量。
研究结果
1.模拟数据比较四种方法
SDatabase1:240 组线性对和 120 组非线性的微生物-代谢物对
SDatabase2:240 组随机产生的无相关性的微生物-代谢物对
使用 SDatabase1 数据集的 240 对线性相关数据,比较 4 种方法的效果。结果发现:与 spearman LR 相比,GRaMM 的 r 值离散程度小(图 1a);GRaMM,LR 和 Spearman 的 RMSE 值(root means square error,准确性评估指标) 低于 MIC (图 1b)。表明:MIC 适用于非线性关系。
使用SDatabase2 数据集,发现:GRaMM 的 FPR (false positive ratio,假阳性率) 高于其余三种方法(图 1c)。因为 GRaMM 综合利用 LR,MIC 以及其他方法,尽可能多的找相关的配对。p 值矫正减少假阳率。
使用 SDatabase1 和 SDatabase2 数据集,ROC 分析计算 4 种方法的 p 值。GRaMM 有最高的AUC值 (0.971),最低的 SE值(0.006)(图 1d)。GRaMM 优于其他的线性分析方法(LR 和 Spearman)。
使用 SDatabase1 中的 120 对非线性的microbe–metabolite。发现:相较于 LR 和 Spearman,MIC 和 GRaMM 可以确定更多的相关对(图 1e)。MIC 和 GRaMM 的 RMSE 值低于 LR 和 Spearman(图 1f)。基于F1函数得到的非线性对,GRaMM 的结果和Spearman 和 LR 更接近,关系更接近线性(图 1g);基于 F2-F6 函数得到的非线性数据对,GRaMM 的结果和 MIC 更接近,关系更接近非线性(图 1h-1l)。
总之:GRaMM 在准确率,敏感性,特异性和识别线性以及非线性关系的能力方面优于其他方法。
图 1. 基于模拟数据集,比较 4 种方法的性能
2.数据预处理的效果
代谢数据做 log 转换;微生物组数据做总丰度归一化 和 log-ratio (CLR) 转换 。
基于 SDatabase1 和 SDatabase2 数据集,比较数据预处理的效果。发现:代谢数据(图2a)和微生物组数据(图 2b)处理后更接近正态分布。此外,还发现:数据预处理之后,GRaMM,LR 和Spearman 方法的 AUC 值增加;MIC方法没有变化(图 2c)。可能是由于 MIC 受数据分布和结构影响较小。
GRaMM 的数据预处理几乎对所有的该方法都是有益的。
区别:1、线性方程组:线性方程组是各个方程关于未知量均为一次的方程组;非线性方程:非线性方程就是因变量与自变量之间的关系不是线性的关系。2、线性方程一般来说容易求解,且可以用一些解的线性组合给出所有解的表示;非。
图 2. 基于模拟数据集,有效的数据预处理
3.Real Dataset 的评估结果
使用的2个真实数据集:
1.两个变量之间的关系是一次函数关系的——图象是直线,这样的两个变量之间的关系就是“线性关系”;如果不是一次函数关系的——图象不是直线,就是“非线性关系”。2.比如说y=kx 就是线形的 而y=x^2就是非线形的 。
RDatabase1:42 只小鼠的 17 个门水平的微生物和 14 个代谢物
基于不同的距离方法(Unweighted Unifrac,weight Unifrac,Hellinger,JSD,Spearman。
使用 RDatabse1 ,评估 GRaMM 的性能和数据预处理的效果。发现:GRaMM 可以确定更多的相关对,数据预处理后,MIC 的相关对减少的较少(图 3a)。GRaMM 联合LR 和MIC 方法,捕获线性和非线性关系。更多的线性关系确定,GRaMM 与 LR 和 Spearman 结果更相近。混杂因子调整之后,GRaMM 和 LR 的相关对数目较少(|r| > 0.5 或 |r| >0.3)(图 3b)。这证明了 GRaMM 可以确定更多的关系对,数据预处理和混杂因子调整对结果重要。
线性与非线性的一个明显区别是叠加性是否有效。在一个系统中,如果两个不同因素的组合作用只是两个因素单独作用的简单叠加,这种关系或特性就是线性的。反之,如果一个系统中一个微小的因素能够导致用它的幅值无法衡量的结果。
图 3. RDataset1(a-b)和 RDataset2(c-k)的结果
4.GRaMM 的适用性
使用的4个真实数据集:
RDatabase2:42只小鼠的 18 种胆汁酸和 Firmicutes 门下的 42 个genus/species
RDatabase3:12只小鼠的 20 种胆汁酸和 Firmicutes 门下的 100 个genus/species
RDatabase4:10 只小鼠的 39 种胆汁酸和 Firmicutes 门下的 65 个 genus/species
首先对代谢组数据做 log 转换,微生物组数据做归一化和 CLR 转换。使用 4 个真实数据集,GRaMM 分析确定最相关的对(图 4)。在所有数据集中,GRaMM 发现了3 个一致的 microbe–metabolite:Ruminococcus gnavus ~ ursodeoxycholic acid (UDCA),Ruminococcus gnavus ~ chenodeoxycholic acid (CDCA)和 SMB53.spp ~ glycodeoxycholic acid (GDCA)。其中,先前研究中已经发现前两个相关对,第三个相关对是新发现的。先前研究中发现:SMB53.spp 在T2D 小鼠中高丰度;高脂饮食小鼠中丰度降低。GDCA 是结合次级胆汁酸,营养吸收和各种细胞信号通路的调控分子,促进多囊性人胆管细胞的增殖,减少法尼醇X受体(FXR)的表达。FXR 是配体激活的核受体,调节肝胆汁酸的合成,转运和分泌。这些证据支持这一关联,但是需要大量实验来验证这种关联以及确定这个关联的调节方向。
图 4. 使用真实数据集,4 种方法确定显著相关对的比率(p<0.05 和 FDR<0.05)
结论与讨论
GRaMM 能比较集成地处理代谢组和微生物组关联分析,能处理 数据预处理,相关模型选择,矫正混杂因子,p 值矫正等,以确保得到可信的结果。但是,GRaMM 的结果仍需要进一步的数据和实验验证。
Liang,D. et al. Strategy for Intercorrelation Identification between Metabolome and Microbiome. Anal Chem 91,14424-14432 (2019).
撰稿 | Yanni 责编 | NSC