理化组学分析结题报告

微科盟理化组学分析结题报告


一 概述

理化组学集成了对土壤、植物等样本物理性质和化学性质的测定及统计分析功能,包含pH值、机械组成、土壤容重、氮磷钾等元素含量、阳离子交换量、土壤重金属污染物含量等指标。 这些指标的测定一方面有助于我们直观了解实验中不同处理对于样本直观的影响,从而帮助我们筛选在生产上有益的处理方式;另一方面能够与后续的其他组学结合,从而发掘出影响这些差异的原因。

二 数据的描述性统计

2.1 数据分析流程

理化组学云流程包含了以下数据分析方法。

其中,两样本的相关性分析、回归分析以及线性模型等任务未包含在一键化流程中。这些任务需要用户选择分析指标,不便于集成在一键化流程中,请您前往分步骤流程中使用。

2.2 原始数据及分组表

该一键化流程包含了以下数据分析方法。

Category1 全氮 碱解氮 碱性有效磷 速效钾 腐殖质总碳量 胡敏酸与富啡酸总碳量 胡敏酸碳量 富啡酸 胡敏素
CK 0.733227 25.099084 6.773646 84.003688 9.282660 2.225010 1.302776 0.658291 7.690382
CK 0.586483 26.581693 7.426085 84.260775 8.975291 2.135181 2.054484 1.024627 7.384370
CK 1.353665 24.447472 6.749097 84.927087 9.875463 1.213946 1.672084 1.101012 8.685060
t1 1.046079 24.634492 12.411789 128.513716 17.377339 2.558172 2.008230 0.845241 15.021653
t1 1.516964 25.097185 12.174742 122.226634 16.847599 2.980092 2.213022 0.766998 15.231372
t1 1.276594 25.659369 11.715006 123.987360 16.481983 2.784537 1.704232 1.209991 14.045507
t2 1.311649 41.217871 42.046757 117.026389 4.743062 1.993214 1.457443 1.214180 2.769775
t2 1.272076 43.236390 41.575746 115.360815 4.718293 2.845886 1.623250 0.682925 2.386830
t2 1.127557 41.913286 41.366039 110.767586 3.921096 2.521704 1.606107 1.336216 2.451542
t3 1.215797 17.494045 11.681354 100.930513 15.962120 2.425545 1.355322 1.403875 14.218576
t3 0.893819 15.632366 10.789261 98.949121 16.532820 2.276136 1.899060 1.505186 14.614151
t3 0.876579 16.403819 11.014375 95.574339 15.916792 2.206465 1.544550 0.921306 14.147099
t4 0.652228 21.185046 12.645242 83.622610 10.981332 2.037821 1.231490 0.541096 10.033647
t4 0.954818 22.652897 11.565088 84.205600 10.877135 1.590081 1.460800 0.851182 9.448485
t4 1.144632 24.683847 10.606041 84.502696 11.183905 1.171848 1.613327 1.009971 9.172459
t5 1.277230 29.402325 6.282532 84.563051 11.214028 1.226503 1.070085 0.923142 10.874931
t5 0.639722 31.034925 5.518801 84.902330 11.686560 1.977792 1.466041 1.304544 10.410079
t5 1.375168 29.484731 6.599362 87.293991 10.134622 1.017189 1.379577 0.600898 9.378802

表2.1 使用一键化流程进行分析的输入数据

注:若您的不同组数据与分组信息表不匹配时,空白的单元格代表此项数据缺失。

2.3 数据的描述性统计

描述性统计能够反应数据的集中趋势和离散程度。我们按照您指定的分组信息表统计了每个指标的数量、均值、标准差、中位数、极值和四分位数。对输入数据进行描述性统计,结果见表2.2。

指标 统计量 CK t1 t2 t3 t4 t5
全氮 count 3.00 3.00 3.00 3.00 3.00 3.00
全氮 mean 0.89 1.28 1.24 1.00 0.92 1.10
全氮 std 0.41 0.24 0.10 0.19 0.25 0.40
全氮 min 0.59 1.05 1.13 0.88 0.65 0.64
全氮 25% 0.66 1.16 1.20 0.89 0.80 0.96
全氮 50% 0.73 1.28 1.27 0.89 0.95 1.28
全氮 75% 1.04 1.40 1.29 1.05 1.05 1.33
全氮 max 1.35 1.52 1.31 1.22 1.14 1.38
碱解氮 count 3.00 3.00 3.00 3.00 3.00 3.00
碱解氮 mean 25.38 25.13 42.12 16.51 22.84 29.97
碱解氮 std 1.09 0.51 1.03 0.94 1.76 0.92
碱解氮 min 24.45 24.63 41.22 15.63 21.19 29.40
碱解氮 25% 24.77 24.87 41.57 16.02 21.92 29.44
碱解氮 50% 25.10 25.10 41.91 16.40 22.65 29.48
碱解氮 75% 25.84 25.38 42.57 16.95 23.67 30.26
碱解氮 max 26.58 25.66 43.24 17.49 24.68 31.03
碱性有效磷 count 3.00 3.00 3.00 3.00 3.00 3.00
碱性有效磷 mean 6.98 12.10 41.66 11.16 11.61 6.13
碱性有效磷 std 0.38 0.35 0.35 0.46 1.02 0.56
碱性有效磷 min 6.75 11.72 41.37 10.79 10.61 5.52
碱性有效磷 25% 6.76 11.94 41.47 10.90 11.09 5.90
碱性有效磷 50% 6.77 12.17 41.58 11.01 11.57 6.28
碱性有效磷 75% 7.10 12.29 41.81 11.35 12.11 6.44
碱性有效磷 max 7.43 12.41 42.05 11.68 12.65 6.60
速效钾 count 3.00 3.00 3.00 3.00 3.00 3.00
速效钾 mean 84.40 124.91 114.38 98.48 84.11 85.59
速效钾 std 0.48 3.24 3.24 2.71 0.45 1.49
速效钾 min 84.00 122.23 110.77 95.57 83.62 84.56
速效钾 25% 84.13 123.11 113.06 97.26 83.91 84.73
速效钾 50% 84.26 123.99 115.36 98.95 84.21 84.90
速效钾 75% 84.59 126.25 116.19 99.94 84.35 86.10
速效钾 max 84.93 128.51 117.03 100.93 84.50 87.29
腐殖质总碳量 count 3.00 3.00 3.00 3.00 3.00 3.00
腐殖质总碳量 mean 9.38 16.90 4.46 16.14 11.01 11.01
腐殖质总碳量 std 0.46 0.45 0.47 0.34 0.16 0.80
腐殖质总碳量 min 8.98 16.48 3.92 15.92 10.88 10.13
腐殖质总碳量 25% 9.13 16.66 4.32 15.94 10.93 10.67
腐殖质总碳量 50% 9.28 16.85 4.72 15.96 10.98 11.21
腐殖质总碳量 75% 9.58 17.11 4.73 16.25 11.08 11.45
腐殖质总碳量 max 9.88 17.38 4.74 16.53 11.18 11.69
胡敏酸与富啡酸总碳量 count 3.00 3.00 3.00 3.00 3.00 3.00
胡敏酸与富啡酸总碳量 mean 1.86 2.77 2.45 2.30 1.60 1.41
胡敏酸与富啡酸总碳量 std 0.56 0.21 0.43 0.11 0.43 0.51
胡敏酸与富啡酸总碳量 min 1.21 2.56 1.99 2.21 1.17 1.02
胡敏酸与富啡酸总碳量 25% 1.67 2.67 2.26 2.24 1.38 1.12
胡敏酸与富啡酸总碳量 50% 2.14 2.78 2.52 2.28 1.59 1.23
胡敏酸与富啡酸总碳量 75% 2.18 2.88 2.68 2.35 1.81 1.60
胡敏酸与富啡酸总碳量 max 2.23 2.98 2.85 2.43 2.04 1.98
胡敏酸碳量 count 3.00 3.00 3.00 3.00 3.00 3.00
胡敏酸碳量 mean 1.68 1.98 1.56 1.60 1.44 1.31
胡敏酸碳量 std 0.38 0.26 0.09 0.28 0.19 0.21
胡敏酸碳量 min 1.30 1.70 1.46 1.36 1.23 1.07
胡敏酸碳量 25% 1.49 1.86 1.53 1.45 1.35 1.22
胡敏酸碳量 50% 1.67 2.01 1.61 1.54 1.46 1.38
胡敏酸碳量 75% 1.86 2.11 1.61 1.72 1.54 1.42
胡敏酸碳量 max 2.05 2.21 1.62 1.90 1.61 1.47
富啡酸 count 3.00 3.00 3.00 3.00 3.00 3.00
富啡酸 mean 0.93 0.94 1.08 1.28 0.80 0.94
富啡酸 std 0.24 0.24 0.35 0.31 0.24 0.35
富啡酸 min 0.66 0.77 0.68 0.92 0.54 0.60
富啡酸 25% 0.84 0.81 0.95 1.16 0.70 0.76
富啡酸 50% 1.02 0.85 1.21 1.40 0.85 0.92
富啡酸 75% 1.06 1.03 1.28 1.45 0.93 1.11
富啡酸 max 1.10 1.21 1.34 1.51 1.01 1.30
胡敏素 count 3.00 3.00 3.00 3.00 3.00 3.00
胡敏素 mean 7.92 14.77 2.54 14.33 9.55 10.22
胡敏素 std 0.68 0.63 0.20 0.25 0.44 0.77
胡敏素 min 7.38 14.05 2.39 14.15 9.17 9.38
胡敏素 25% 7.54 14.53 2.42 14.18 9.31 9.89
胡敏素 50% 7.69 15.02 2.45 14.22 9.45 10.41
胡敏素 75% 8.19 15.13 2.61 14.42 9.74 10.64
胡敏素 max 8.69 15.23 2.77 14.61 10.03 10.87

表2.2 输入数据的描述性统计,包含样本数量、均值、标准差、中位数、极值和四分位数

注:若您的不同组数据与分组信息表不匹配时,空白的单元格代表此项数据缺失。

三 数据的统计分析结果

在该部分我们将为您展示所有指标的假设检验、扇形图以及主成分分析、聚类分析和百分比堆积柱状图的结果。

3.1 单个指标的假设检验

通过假设检验可以推断出样本所对应的总体之间是否存在差异。如果您有两个需要比较的组并且每组数据满足独立性、正态性和方差齐性,可以用T检验来寻找两个样本所对应的总体之间的差异。如果数据不满足正态性或方差齐性的要求,可以使用非参数检验方法Mann Whitney U检验。当您有三个及以上需要比较的组时,可以使用单因素方差分析(ANOVA)和Kruskal Wallis供您进行多组样本的比对。同时也集成了事后检验的工具。 本项目假设检验结果图见结果文件 01_假设检验/

结果中包含如下文件:
├── 01_假设检验
│ ├── grouped_data_*.tsv (进行假设检验的数据)
│ ├── res_*.svg (结果图片)
│ └── result_stat_*.txt (统计结果)


图3.1 单个指标的假设检验

注:若您的样本包含两个分组,一键化流程中默认使用T检验进行统计分析并将p value标注在图上。若包含三个及以上分组,默认对您的样本进行单因素方差分析并将结果标注在图上,同时使用TurkeyHSD法进行多重比较,使用字母标记法展示结果。凡有一个相同标记字母的即为差异不显著,凡具不同标记字母的即为差异显著。

3.2 单指标的扇形图

扇形图能够反应同一个指标不同分组的占比情况。本项目假设检验结果图见结果文件 02_扇形图/

结果中包含如下文件:
├── 02_扇形图
│ ├── percent_*.tsv (各组占比数据)
│ └── res_*.svg (结果图片)


图3.2 单个指标的扇形图

3.3 主成分分析

当检测多个指标时,只对每个指标进行分析的结果往往是孤立的,不能完全利用数据中的信息。为了将多个指标整合到一起,我们可以使用主成分分析的功能,从而可以更好的探索不同处理之间的关系。 本项目假设检验结果图见结果文件 03_主成分分析/。其中,碎石图展现不同主成分涵盖变量信息多少,按从最大到最小顺序排列主成分的特征值。

结果中包含如下文件:
├── 03_主成分分析
│ ├── pca_importance.tsv (每个样本在变换后的空间中的坐标)
│ ├── pca_values.tsv (PCA结果文件。其中Standard deviation为标准差,Proportion of Variance为方差贡献率,Cumulative Proportion为方差累计贡献率)
│ ├── result2D.svg (2D PCA结果图)
│ └── screeplot.svg (PCA碎石图)

图3.3 主成分分析图

注:在PCA结果图中,圆点代表样本点,不同颜色的点代表不同的分组;圆圈代表95%的置信区间。

3.4 聚类分析

聚类热图能够用来查看不同指标在不同分组中的数值,或者比较不同聚类分组之间的差异。 本项目假设检验结果图见结果文件 04_聚类分析/

结果中包含如下文件:
├── 04_聚类分析
│ ├── Heatmap_data.tsv (绘制热图的数据)
│ └── result.svg (结果文件)

图3.4 聚类热图

注: 聚类热图中每一列代表一个指标,每一行代表一个分组。颜色则代表不同分组的相对差异。默认会分别对不同指标和分组进行聚类。数值相近的会聚为一类。

3.5 百分比堆积柱状图

堆积柱状图能够清晰的展示多个指标在不同分组情况下的比例。 本项目假设检验结果图见结果文件 05_百分比堆积柱状图/

结果中包含如下文件:
├── 05_百分比堆积柱状图
│ ├── result.svg (结果文件)
│ └── stacked_heatmap_data.tsv (堆积柱状图的输入数据)

图3.5 百分比堆积柱状图

注:在该图中,不同的颜色代表不同的分组,每一列代表一个指标。请您关不同之间的连线,若两个指标某一组连线平行,则说明该分组的比例无差异。

四 所用软件的版本

软件 版本
R 4.3.1
ggplot2 3.4.3
tidyr 1.3.0
dplyr 1.1.3
scatterplot3d 0.3-44
ggpubr 0.6.0
ggridges 0.5.4
pheatmap 1.0.12
ggExtra 0.10.1
Python 3.8.5
Pandas 1.1.2

表4.1 本流程使用软件的版本

五 参考文献

1. Ito, K. & Murphy, D. Application of ggplot2 to Pharmacometric Graphics. CPT Pharmacomet. Syst. Pharmacol. 2, 79 (2013).