COVID-19对Liu实验室Addgene质粒请求的影响

客人的博客

本文由麻省理工学院的Max W. Shen、哈佛大学许文斌和哈佛大学博德研究所的David R. Liu共同撰写。

在过去的6个月里,COVID-19对我们的世界产生了巨大的影响——截至2020年6月4日,COVID-19在全球造成了估计总计38万人死亡(由谷歌于6/4/20提供的统计数据)。许多国家封锁了数周至数月,暂停或终止了相当一部分劳动力的就业。

湿式实验室的科学家也不例外——由于COVID-19,世界各地实验室精心设计的实验被无限期搁置。在我们的实验室,我们感兴趣的是研究COVID-19对全球科学活动的影响。然而,如果没有广泛的、不偏不倚的数据,这类开放式问题是很难定量回答的。因此,我们选择检查一个数据集刘实验室质粒Addgene请求,作为我们特定科学子领域的全球活动的代理。

质粒请求与论文发表相关

数据集包括6年来35篇论文的11,426个质粒请求(数据由Addgene于5月26日提供,包含5月22日至5月19日的请求)。每篇论文有1-32个质粒和2 - 2590次请求。我们收到了来自56个国家的质粒请求,但数据主要来自美国(42%)、欧洲(23%)和中国(14%)。质粒请求的峰值对应于流行论文的出版物。

刘实验室质粒请求和论文发表表明了发表日期和请求号之间的相关性。
图1:质粒请求的日期。括号表示每篇论文订购的质粒总数。

COVID-19对质粒请求影响的粗略估计

在我们开始任何复杂的分析之前,我们首先以各种方式可视化我们的数据。用7天滚动均值对质粒顺序数据进行平滑处理,使我们大致了解了COVID-19对我们数据的影响程度。由于我们的质粒订单大部分来自美国和欧洲,我们在3月份前后看到了质粒请求活动的相应下降。粗略估计显示,3月份的活动水平约为2020年1月1日至3月1日期间的33%。

2020年1月至2020年5月,每天七天滚动质粒请求平均数。质粒请求是指COVID-19之前每天约14个质粒。在COVID-19期间,每天约有6个质粒

图2:COVID-19对使用7天滚动均值平滑的数据影响的简单近似。

虽然这种全球近似已经向我们展示了对订单数据的“COVID-19效应”,但它没有捕捉到世界不同地区在不同时间遭遇COVID-19的事实。最值得注意的是,1月中旬至3月中旬,中国比世界其他国家更早受到新冠肺炎的影响。

为了更好地了解新冠肺炎大流行对质粒顺序的影响,我们按地点比较了每周新冠肺炎病例和质粒顺序的数量。我们观察到,正如预期的那样,当报告大量新冠肺炎病例(右,红色)时,质粒顺序(左,蓝色)急剧下降,可能是由于隔离

缝
图3。展示质粒顺序和每周新冠肺炎病例的动画地图。

统计建模

注意:如果统计建模不是你的专长,请随意直接跳到结果

为了开始对数据建模,我们首先选择以更细的时间粒度重新检查全局数据。对于每一篇论文,我们观察到对相应质粒的需求倾向于遵循指数衰减模型,在周末和重要的节假日出现下降。

圣诞节和新年对质粒请求的影响
图4:质粒请求轨迹显示了一个带有周末和假期效应的指数衰减需求模型。

基于这些观察,我们考虑了以下(无噪声)模型的数据:

calculation-1我们选择让yx(t)表示唯一pi或实验室订购纸张的数量x在日期t。我们不能使用单个质粒顺序,因为当PI或实验室下订单时,他们很可能一次订购多个质粒,打破了泊松过程的统计独立性假设。这种修改也简化了我们推断的参数的解释,因为科学生产力更好地解释为科学家或实验室下订单的比率。

我们的模型将泊松过程的可能性分为两部分:t),z(t)。x (t)描述了我们观察到的指数衰减过程,而z(t)乘以相应的因子z,如果t是在事件z。我们的模型考虑的“事件”是周末、圣诞节/新年和COVID-19封锁。为了让我们的模型给出每个参数的不确定性估计,我们在构成我们分布的每一项中添加了对数正态噪声,从而得到以下分层模型:

calculation-2

由于美国、欧洲和中国的质粒订单占我们全部质粒订单的75%以上,我们接下来的讨论将集中在这三个地区。每个地区受COVID-19影响的时间不同,因此我们将中国的COVID-19事件窗口定义为01/15/20—03/15/20,美国和欧洲的COVID-19事件窗口定义为03/11/20—05/19/20(数据集中的最后日期)。为了提高模型的稳定性,我们只考虑了2020年超过10个唯一订单日期的10篇论文。

我们在Pytorch中使用随机梯度下降法拟合每个区域的模型,这给了我们每个参数的最大似然估计。由于数据似然的解析表达式包含一个棘手的泊松与多元对数正态似然乘积的积分,我们用多元高斯-厄米特积来近似数据似然。

周末、寒假和COVID-19对质粒请求的影响

Inferred-percentage-of-normal-activity
图5:推断效果。值是在受每个效应影响的日期上正常活动的推断百分比(唯一pi /实验室每天下订单的平均比率)。

推断出的参数表明,COVID-19导致不同地区科学家每天下订单的比率下降了2x - 5倍,欧洲受影响最大,中国受影响最小。回顾过去,我们推断出的周末效应通常比COVID-19效应更具有戏剧性,尽管我们提醒读者,这不是因果解释——如果以某种方式强加给科学家周末,其影响通常不会相同。

US_europe

中国

图6:模型拟合。橙色线表示观测数据。蓝线是每篇论文的平均速率之和。绿线和红线分别表示每篇论文的均值+1和-1 std的和。

拟合模型捕捉到了周末、圣诞节和新年,COVID-19的效果相当好。然而,我们在中国的数据中观察到一个并发症——从1/22/20-2/23/20开始的1个月期间,没有质粒请求。之后,从2/24/20-3/15/20(所谓的锁定结束)开始,请求活动似乎恢复正常。该模型拟合了这两个离散阶段,估计中国对COVID-19的影响为62.3%。但显然,如果我们认为1/22/20-2/23/20是中国更准确的封锁日期,那么观察到的数据与2019冠状病毒病导致的活动减少了一倍至零相一致。因此,取决于我们认为中国新冠肺炎疫情的日期范围,它们可能是受影响最大的,也可能是受影响最小的。这些结果突出了在相对稀疏的中国数据中估计参数的不稳定性和不确定性。

另一个重要的警告是,我们的数据集仅包含来自一个实验室的质粒序列,这限制了我们对COVID-19对科学活动影响的分析可以在多广的范围内进行解释。COVID-19对许多其他科学领域的影响可能是不同的。

结论

总结
图7:区域的平均推断效应。

总之,我们的模型推断,COVID-19导致不同地区科学家每天下订单的比率下降了2x - 5倍。我们对模型拟合的研究揭示了中国数据中一些潜在的不稳定性,因此我们建议用更多的不确定性来解释中国的模型结果。


非常感谢我们的客座博主,麻省理工学院的Max W. Shen,哈佛大学的Alvin Hsu,以及哈佛大学博德研究所的David R. Liu。

Max-ShenMax Shen是麻省理工学院的博士生。他的研究将应用机器学习和统计方法用于基础科学发现和高影响力的应用。

阿尔文Alvin Hsu是哈佛大学的一名研究生。他对使用选择、进化和机器学习来解决化学和化学生物学中的难题感兴趣。

david liuDavid R. Liu,现任默金研究所所长,博德研究所副所长;哈佛大学化学与化学生物学教授;霍华德·休斯医学研究所研究员刘的研究整合了化学和进化来阐明生物学,并使下一代治疗成为可能。主要编辑、碱基编辑、PACE和dna模板合成是他的实验室开创的四个技术实例。学习更多在这里

Addgene博客上的其他资源伟德体育中心

在Addgene.org上的资源

主题:其他,新型冠状病毒肺炎

留下你的评论

分享科学变得更容易了……订阅我们的博客

订阅