数据自由:在研究出版物中的数据共享扩展

由Guest Blogger.

Guest Blogger.

这个帖子由Jim Woodgett贡献。


试管架上的细菌刺伤小瓶今年早些时候宣布其数据访问和共享政策,公立科学图书馆(PLOS)创造了一个轰动。自3月初以来,开放式访问发布商需要提交人提供一个注释,即读者可以找到支持在PLOS出版物中报告的研究的数据。该政策不是一夜之间的启示,而是这是研究人员和出版商协商的结果。尽管如此,初始释放导致风暴随着组织留下了必要和合理的问题。Plos有由于澄清了他们的数据共享政策最近宣布,自宣言以来已经处理的16,000件稿件中,只有一小部分(<1%)的作者提出了关于政策范围的建议。故事结局?不完全的。

关于数据访问的PLOS政策是许多其他期刊和几个资助机构已经练习或要求的正式声明(例如Wellcome Trust,NIH数据共享策略等等)并建立在科学出版物必须包含足够的信息(或与信息的链接)的原则上,以评估得出的结论的准确性。PLOS政策的主要区别在于在稿件提交时将访问此数据。理由包括增加审阅者(并且,一旦发布,任何人)来检测假设中可能错误,使用不当统计方法,遗漏某些数据等的能力。

遵循实施政策的凤凰风暴由众多反对意见和担忧组成。也许最不引人注目的是来自研究人员的研究人员,他们想要更多时间挖掘自己的数据,与一些较小的实验室感觉更大,更好的资源,团体会收获和重新分析他们的数据,并通过初始贡献者的确认确认。这在某种程度上是可能的 - 但这是出版物的价格。谁想说初始数据生成实验室有效地汇编了自己的数据?一个不同的(也许是同样贫穷的实验室)可能适用不同或新颖的工具和假设,以揭示发起人忘记的结果,无论他们有多少时间。可以说,根据策略,数据发生器可能会在发布之前更长时间地保持数据。但是发布了优先,认可和“生产力”等强有力的激励措施,因此这不太可能。通常,始发科学家和同事们有幸在观看他们的数据数月或几年。在某些情况下,通常涉及基因组屏幕的组联件,数据流是如此多产原始信息,即一次性地提供给每个人,包括发电机。这种做法似乎造成源于研究人员,即使它们偶尔被殴打以压力,因为有可能的分析可能。 Most scientists are, however, privileged in having exclusive access to data and enjoy reasonable time to make sense of it, with their decision to publish setting the clock for others to dive in.

使数据可访问的真正成本

研究人员提出了更合理的对数据策略的关注,担心使潜在数据变得容易获得的潜在数据,以其他方式可以理解的形式,均衡抵制此类数据可能被访问的频率。添加到此负担,该策略要求数据应提供匿名请求。这意味着支持数据集必须在逻辑上注释和安排,如在实际出版物中,而不需要与数据作者的交互。在某些类型的研究中,原始数据需要大量的存储空间。例如,鼠标行为遗传学家可以通过视频进行不同场合跟踪多种动物的运动,产生大量数据。发布时,此数据通常被融入统计评估的一组值。但是,为了评估实验的解释,需要访问每个视频。为了PLO的信誉,该组织随后澄清了政策意图是什么和提供的常见问题清单进一步解释政策。事实上,这么少的作者现在查询该内容,建议务实的采纳(尽管可能争辩说,各位作者只选择在别处提交)。因此,大多数科学界都不厌恶地制作数据,但仍然有关这可能需要的额外工作。

因此,如果访问数据很重要,则应包含哪些数据?

我们应该认识到,以可共同的形式存储数据确实是一项重大努力。我们的数据记录标准高度变量,通常留给个别研究人员。然而,准确和可理解的数据组织对于高效的科学至关重要。我们对数据的注释和归档的学科的改进可能会改善研究。出版的是什么通常是实际执行的一小部分。虽然没有人建议所有数据以可检索的格式存储,但我们也很少保留任何排序的“原始”数据,这些数据可以以除实际作者以外的人解析的形式。相反,据说所选择的图像是代表性的,或者计算统计变化并将其放置在图例中。众所周知,在再现实验数据方面的困难可能至少部分地是由于我们的编目方式不足,而是单独的这是增加数据可访问性和方法细节的合理动机。出版商也通过需要更加综合的方法描述,传说和限制数字的数字来贡献这一问题,例如许多复杂的面板。

公共科学图书馆本身还没有最终确定必要数据需求的定义,而且很可能不会这样做(考虑到无穷无尽的数据类型,称之为“西西弗斯任务”)。相反,公共科学图书馆似乎将数据的范围留给了单个作者。至少,用于在论文中创建图表和表格的原始但注解充分的数据是在范围之内的。对于图像,支持已发表材料的示例数量是实用性的一个因素(给定图像大小),但图像应未经处理,并采用捕获格式。这提出了另一个专有数据格式的问题。许多仪器以需要特定(昂贵)软件的格式存储原始数据,这些软件会随着时间的推移而发展,以至于以前的格式不再支持/可读。作者或他们的宿主机构是否希望提供导出到普通文件类型的格式的数据?数据应该保存多长时间?

简化数据访问

上述一些问题可以通过幻灯片,幻灯片,图分类和Dativers等在线服务减轻。正如Addgene有助于DNA试剂一样,这些资源可以卸下数据存储和分配的负担。我争辩说,期刊本身应该主要负责储存。如果数据集太大而无法传输到日志存储库,则它们可能太大而无法被他人检索。其他新数据举措也在扎根。自然出版集团最近推出了一个出版称为科学数据,旨在充当“科学上有价值”数据集的对等审查的存储库。在其他数据存储库出现之前可能不会很长,这允许有效地搜索和提取信息。

再往前看一点,期刊可能会鼓励作者将数据集与结果数据结合起来。点击已发布的图表,可以揭示潜在数据,让其他分析“飞跑”,而不是提供一个“死胡同”的数字或表格。通过触摸界面,这变得更加直观,用户更可能想要操纵他们查看信息的方式。我们习惯了出版物呈现的是精致的、标准的、通常有限的数据视图。除了提高数据收集和解释的准确性之外,发布完整的数据,而不是它的单一投影,可以允许基于现有的、已发表的数据产生和扩展想法。

数据共享的重要性

这个主题对我的实验室很重要的原因有三。首先,我们依赖许多其他实验室来教我们如何做实验和理解他们的数据。同样地,我们想帮助别人理解我们。改善对数据的获取促进了传播,特别是对年轻的研究人员,他们可能因为不得不接触更资深的同事而感到害怕。其次,科学是高度技术性的,这有一种自然的(尽管是无意的)不利于透明度的倾向。这让科学被指责为精英主义,让科学家们躲在术语和秘闻背后。当人们认为科学是在黑暗中进行的时候,公众对科学的信任和资助就不会得到服务。最后,数据是我们的原始产品。如果我们对游戏的发行方式不感兴趣,我们就有可能被迫去满足发行商和资助者提出的善意但不切实际的要求。

显然,我们有兴趣,确保我们的数据是可重复的,并且对他人的努力有助于加强这些属性。但是,期望也必须合理,对数据类型敏感,并尽可能地成为作者和读者的适用。而不是加入要求,使得有效的数据共享规范应该开辟新的研究机会以及透明度的增加。


谢谢我们的博客!

Jim-Woodgett-Data-Sharing

Jim Woodgett是加拿大多伦多西奈山医院Lunenfeld-Tanenbaum研究所的研究主任,他在那里研究与人类疾病有关的蛋白丝氨酸/苏氨酸激酶。他的业余时间都用来设法提高工资GSK-3的Alpha Isoform与β同种型相同(应得的)身材。跟着他在推特上@jwoodgett

关于数据共享的更多讨论:

阅读更多Addgen伟德体育中心e博客文章关于科学分享



喜欢这篇文章?点击这里订阅Addgge的博客

话题:科学共享科学出版

发表评论

分享科学刚刚变得更容易...订阅我们的博客

订阅