立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 482|回复: 5

[分享] 生物学实验的可重复性有多差?为什么这么差?

[复制链接]
发表于 2025-3-3 08:06 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2025-3-3 08:07 | 显示全部楼层
纯来吐个槽,求折叠。
刚进实验室的时候,我正在做一个实验,一位师兄(并非带我做实验的)看到后问我你在做什么实验,我说在重复一篇文章中的实验。
他若无其事的说道:能重复出别人的实验很不错,有时你连自己以前做过的实验都重复不出来。
我听后谈谈一笑,没做回答。心想:自己实验都重复不出来那还做个毛啊,只能是自己实验技能不行。
但是,后来我在为一个课题做非变性凝胶电泳实验,最后要做灰度计算用的。开始一部分实验做的很好,几次重复也是怎么做怎么有。后来过了一段时间带我做实验的师兄让我把这段实验再加个对照重做一遍。我却怎么也重复不出来(主要是效果根本不可能用来进行灰度计算)。本来加加班2天就能全部搞出来,我愣是一个多星期没弄出来,实验条件都一样。这一个多星期对我打击挺大的,让我怀疑自己的实验技能,怀疑实验药品,怀疑实验用水,等等。郁闷的不行了,最后改了一个实验条件才让做出来的东西可以用来数据计算。不过严格说来这样做是不行的。
我后来由于某些原因退学不做这个了。跟导师说是由于兴趣原因,想去做自己喜欢的事。导师跟我说:你看过围城吗?兴趣跟围城差不多,别以为你现在对另一个东西感兴趣,等你进去后会发现是另一个围城。
现在我都不知道原因。但我知道了跟我说重复实验不容易的师兄并非随口一说,想必他也有某些深刻的体验吧。
回复 支持 反对

使用道具 举报

发表于 2025-3-3 08:07 | 显示全部楼层
谢邀,上面很多老师同学都说得很好,我发表下拙见。以下除非申明,下划线均是我加的。
首先看看生物实验的可重复性到底是个怎样的情况。当然不是100%能重复的,不然每天那么多retracted的paper,而且得知道一般high-profile的杂志上的paper重复得才多,发国内XX学报上的文章会有很多人去重复么?(这里补充下,misconduct占据retracted papers的大多数,详情可参考
http://www.pnas.org/content/early/2012/09/27/1212247109
估计很多人都知道这篇文章:Ioannidis, J. P.
PLOS Medicine: Why Most Published Research Findings Are False PLoS Med. 2, e124 (2005).
像这样的文章其实中心思想都差不多,发现发表的文章里positive results的比例惊人地高,以至于在统计学上是很不靠谱。下面再介绍其他的文章。
根据此篇文章的说法,为了发表并且生存,存在种种倾向于positive results的bias。体现为单打独斗,没有交叉验证(顺便说句,有些实验譬如PCR做克隆这种玩意,做出来就做出来了,显然没必要验证。有些实验比如行为学实验,你一不做双盲二样本量少得可怜,统计也随便搞个t-test试试那些自己认为“好”的答案,即使p小于0.001又怎么样呢。再喊个人来重复,重复不出来就说没做好,呵呵呵。所以,严谨的态度很重要,为了凑个好的结果而乱搞,你还不如别干这行了。不足的样本量(有时甚至有挑选数据的现象)和似是而非甚至生拉硬拽的统计分析方法,是常见的导致irreproducible results的原因)这里此文作者提出几个Corollaries:
Corollary 1: The smaller the studies conducted in a scientific field, the less likely the research findings are to be true.
Corollary 2: The smaller the effect sizes in a scientific field, the less likely the research findings are to be true.
Corollary 3: The greater the number and the lesser the selection of tested relationships in a scientific field, the less likely the research findings are to be true.
Corollary 4: The greater the flexibility in designs, definitions, outcomes, and analytical modes in a scientific field, the less likely the research findings are to be true.
Corollary 5: The greater the financial and other interests and prejudices in a scientific field, the less likely the research findings are to be true.
Corollary 6: The hotter a scientific field (with more scientific teams involved), the less likely the research findings are to be true.
然后作者得出两个结论:
Most Research Findings Are False for Most Research Designs and for Most Fields.

Claimed Research Findings May Often Be Simply Accurate Measures of the Prevailing Bias.

怎样解决这些问题呢,作者提出:
Better powered evidence, e.g., large studies or low-bias meta-analyses, may help, as it comes closer to the unknown “gold” standard.
Second, most research questions are addressed by many teams, and it is misleading to emphasize the statistically significant findings of any single team. What matters is the totality of the evidence.
Finally, instead of chasing statistical significance, we should improve our understanding of the range of
R values—the pre-study odds—where research efforts operate。
然后可以再移步看看这篇文章:
Believe it or not: how much can we rely on published data on potential drug targets? : Article : Nature Reviews Drug Discovery
Nature Reviews Drug Discovery 10, 712 (September 2011) | doi:10.1038/nrd3439-c1
Florian Prinz, Thomas Schlang & Khusru Asadullah


“We received input from 23 scientists (heads of laboratories) and collected data from 67 projects, most of them (47) from the field of oncology. This analysis revealed that only in ~20–25% of the projects were the relevant published data completely in line with our in-house findings (
Fig. 1c). In almost two-thirds of the projects, there were inconsistencies between published data and in-house data that either considerably prolonged the duration of the target validation process or, in most cases, resulted in termination of the projects because the evidence that was generated for the therapeutic hypothesis was insufficient to justify further investments into these projects.”
“Furthermore, despite the low numbers, there was no apparent difference between the different research fields. Surprisingly, even publications in prestigious journals or from several independent groups did not ensure reproducibility. Indeed, our analysis revealed that the reproducibility of published data did not significantly correlate with journal impact factors, the number of publications on the respective target or the number of independent groups that authored the publications.
“The challenge of reproducibility — even under ideal conditions — has also been highlighted, indicating that even in an optimal setting (the same laboratory, the same people, the same tools and the same assays, with experiments separated by 5 months), there were substantial variations, as the intra- and interscreen reproducibility of two genome-scale small interfering RNA screens was influenced by the methodology of the analysis and ranged from 32–99%”
"Among the more obvious yet unquantifiable reasons, there is immense competition among laboratories and a pressure to publish. It is conceivable that this may sometimes result in negligence over the control or reporting of experimental conditions (for example, a variation in cell-line stocks and suppliers, or insufficient description of materials and methods). "
这里还有篇类似的文章,就不详细介绍了:
http://www.nature.com/nrd/journal/v10/n5/full/nrd3439.htmlNature Reviews Drug Discovery 10, 328-329 (May 2011) | doi:10.1038/nrd3439
John Arrowsmith
为毛出错?为毛重复不了?上面已经提到很多时候为了生存而出现的糟糕的实验设计(flexible,呵呵),然后灵活性非常大的materials & methods的介绍,然后select data(flexible吧),然后就是同样flexible的统计分析。当然不见得写一篇文章时提到的所有问题都会出现,但欢迎对号入座,全部出现者请留言发表感想。
下面这个技术性比较强的文章介绍了neuroscience field里面paper不强的统计结果说服力,当然后面还有很多质疑这篇文章以及作者的回应,有兴趣的同学可以自行寻找:
http://www.nature.com/nrn/journal/v14/n5/full/nrn3475.htmlNature Reviews Neuroscience 14, 365-376 (May 2013) | doi:10.1038/nrn3475
Katherine S. Button et. al.
"Three main problems contribute to producing unreliable findings in studies with low power, even when all other research practices are ideal. They are: the low probability of finding true effects; the low positive predictive value (PPV; see
Box 1 for definitions of key statistical terms) when an effect is claimed; and an exaggerated estimate of the magnitude of the effect when a true effect is discovered."
Summary


  • Low statistical power undermines the purpose of scientific research; it reduces the chance of detecting a true effect.
  • Perhaps less intuitively, low power also reduces the likelihood that a statistically significant result reflects a true effect.
  • Empirically, we estimate the median statistical power of studies in the neurosciences is between ~8% and ~31%.
  • We discuss the consequences of such low statistical power, which include overestimates of effect size and low reproducibility of results.
  • There are ethical dimensions to the problem of low power; unreliable research is inefficient and wasteful.
  • Improving reproducibility in neuroscience is a key priority and requires attention to well-established, but often ignored, methodological principles.
  • We discuss how problems associated with low power can be addressed by adopting current best-practice and make clear recommendations for how to achieve this.
还有例子,比如这个
Carp, J.
The secret lives of experiments: Methods reporting in the fMRI literature. Neuroimage 63, 289–300 (2012).
This article reviews methods reporting and methodological choices across 241 recent fMRI studies and shows that there were nearly as many unique analytical pipelines as there were studies. In addition, many studies were underpowered to detect plausible effects.
呵呵,还真的是一千个人眼里有一千个哈姆莱特啊。当然我不是做这个领域的,但好像得到的raw data都是测量一个指标吧,有必要出现这么多分析方法么?欢迎业内人士拍砖。
下面再送出我部分“珍藏”的文章:
Evaluation of the Potential Excess of Statistically Significant Findings in Published Genetic Association Studies: Application         to Alzheimer's DiseaseAm. J. Epidemiol. (2008) 168(8): 855-865.doi: 10.1093/aje/kwn206
Systematic survey of the design, statistical analysis, and reporting of studies


Journal of Cerebral Blood Flow & Metabolism (2011) 31, 1064–1072; doi:10.1038/jcbfm.2010.217; published online 15 December 2010
PLOS ONE: A Survey on Data Reproducibility in Cancer Research Provides Insights into Our Limited Ability to Translate Findings from the Laboratory to the Clinic
PLoS ONE 8(5): e63221. doi:10.1371/journal.pone.0063221
PLOS ONE: Systematic Review of the Empirical Evidence of Study Publication Bias and Outcome Reporting Bias
PLoS ONE 3(8): e3081. doi:10.1371/journal.pone.0003081
PLOS Medicine: Can Animal Models of Disease Reliably Inform Human Studies?
PLoS Med 7(3): e1000245. doi:10.1371/journal.pmed.1000245
http://www.plosbiology.org/article/info%3Adoi%2F10.1371%2Fjournal.pbio.1000344
PLoS Biol 8(3): e1000344. doi:10.1371/journal.pbio.1000344
**********以下是个人情感的分割线,不喜请无视**********
生物,我曾经热爱的领域,从小学时候翻我爸同事的初中教材开始。后来高中义无反顾地报了生物竞赛(为毛为毛为毛?因为我觉得我自己以后就一直做生物了(cursing self, how brilliant!)数学物理计算机太差(小时候千万不能自卑啊,放弃数理化计算机一生做生物不幸福!),化学么又不想每天听我老爸唠叨(我爸教化学))。然后是省赛差0.5分一等奖,没保送,考了SCU,继续学生物(万劫不复,失策),然后保送号称要打造“top 5”的CAS某所(没出去,再次失策),现在,终于想明白,老子不干了!
原因,上面已经有不少了,以前觉得神圣无比的生物实验原来如此,呵呵呵,感觉就像你的女神原来turn out是快餐800,包夜1500的货色。然后至少个人得到的训练根本和市场脱节。所谓实验技能,呵呵,你照着protocol用commercial kit做实验很了不起么。然后所谓数据分析,就是用excel算t-test,根本就不管前提条件。每天卖苦力,然后看着flexible的种种,身心俱疲。我才不要喜当爹!
这里有几篇文章,描述了学术界的一些现状,供大家参考。
Publish-or-perish: Peer review and the corruption of scienceThe Corruption of Science in America -- Sott.net
Biomedical burnout : Naturejobs
现在想想,生物重复性差,说明根本就没有标准化规范化可言,一部分wet lab还停留在类似炼金术的时候,做不出来就简单重复呗,偶尔有一个positive的好赶紧收着,要是不严谨点就干脆用着一个好了。所谓某人做实验做得好,为毛别人无法重复?还是同一个实验室的人的呢?这种手工匠人式的搞法,很多时候搭配了“灵活的”设计,数据收集和分析,所以,我呵呵吧。
以后应该是数学物理基础好的人往生物领域猛扎的时代,DNA的编辑,细胞内反应的model,甚至model整个brain的活动......是这些只知PCR,western,CoIP的wet lab的人能做的么?做这些事情需要phd degree么,呵呵。传统的hypothesis driven的wet lab的日子还剩多少,拭目以待吧。
回复 支持 反对

使用道具 举报

发表于 2025-3-3 08:08 | 显示全部楼层
我认为生物学实验的可重复性并不差。当我们纯粹的谈论科学时,几乎一切现象都可以套用因果关系来解释。只要因果关系是成立的,那么实验就应该是可重复的。

但是,即使是CNS级别(Cell, Nature, Science三大期刊)的文章,也会有很多实验结果是重复不出来的。原则上,能够发表的数据,都应该是可以重复的。重复不出来只有两种可能,要么数据是不成立的,要么操作有问题。

如果一个实验结果,需要特定的人在特定的时间和地点来重复,那么这只能是一个站不住脚的,片面的实验。因果关系没有搞清楚,这个数据的权威性就要受到质疑。

至于操作的问题。很久以前,我也认为微升(μl)级别的分子生物学实验应该是极为精确的。师兄师姐和我说这些实验很粗放,我还不理解。慢慢地,我发现那些公认的结果,只要操作别太离谱,基本上怎么做怎么有,误差会存在,但不会有绝对的影响。
什么样是靠谱的操作呢?
比如一把1000 μl的移液器,我要调到800 μl,应该从大往小调,即使现在在600 μl的位置,也应该调到800 μl以上再调回来;
比如配制生理盐水的时候用容量瓶;
比如用进口试剂,天平调至水平,离心之前先配平……
这些都不用太在意!大部分公认的结果也是可以重复出来的。
但是有些操作太离谱了!比如辣根过氧化物酶偶联的抗体,是不能接触叠氮化钠的!说明书上白纸黑字写的清清楚楚,一遍又一遍做不出来怪谁?比如该换枪头的时候不换枪头,该喷酒精的时候不喷酒精,实验台堆得乱七八糟,自己懒的配试剂,不管过期与否拿来就用。

大多数情况下的操作失误是可以理解的。因为我们知道的总是有限的,在突飞猛进的开展课题时,难免力不从心。但是,能否避免这些失误,很大程度上决定着一个课题的成败。这就是执行力!
上本科的时候还是idea重要的年代。现在谁还管你有什么idea啊?没有执行力等于零!
我一个外单位的朋友,做的东西和美国科学院院士是一样的。他刚开始做的时候人家还不是院士,到现在做了四五年,人家文章成果无数。他每天要关心的问题是怎么养好小鼠,哪种试剂有效。有一次他们实验室要换装备,新的还没到货,旧的东西全扔了……需要做实验的同学去找,没了!这不扯淡吗?
没有执行力,idea越好越可惜!

回复 支持 反对

使用道具 举报

发表于 2025-3-3 08:09 | 显示全部楼层
生物学实验的可重复性有多差?
很差。
不是同一个人操作,结果不可能一样。
就算是同一个人操作,每次也都有那么点不一样。
最简单的、单纯的有机化学反应,不同的人、相同方法做出来的相同物质,纯度也有高低之分。
而这个高低之分,和操作者的动作熟练程度、对化学反应的理解程度、对细节的控制程度、实验过程中人品爆发程度息息相关。。
生物学实验涉及到的不是单一的化学反应,而是个反应同时进行。(注意,这里的的数量级至少应该和房价差不多。。。)
人类就算有能力单独解释清楚所有的化学反应,但多种反应同时进行。。。(这个要是能弄清楚了我们的中药就宇宙霹雳无敌主宰了。)
就从我正在做的生物大分子实验说:(小硕毕业也好难阿 T^T)
蛋白质是个很有个性的东西,酸碱度(pH)不同、温度不同、浓度不同、溶剂不同,它都能盘曲折叠出不同的空间结构。有时盘曲折叠的不好呢,它会露出肚皮,有时候又把头盖住。当它把脸露出来的时候……啊!!是隔壁的王蜀黍啊!!!!来来来,胃里有一坨东西你帮我把它消化掉。
微小的差别,蛋白质就会有不同的型态和功能。而受到影响的指标(人工、环境)又太多,以目前技术和设备的水平,难以达到实验条件完全不发生变化的理想状态。
所以,重复性差。情理之外,意料之中。
------------------------------------------------------------------------------------------------------------
个人见解:
我们普遍认为的重复粗来的实验,也只是在我们所关注的几个指标上的差值在可以接受的范围内,但不等于几次实验完全一致。
回复 支持 反对

使用道具 举报

发表于 2025-3-3 08:09 | 显示全部楼层
Too long no read的一句话回答(个人见解):生物学试验的可重复性有多差?μg级分子学实验比较差,没办法量化这个差的程度,反正比有机合成要差。为什么这么差?实验影响因素多,耗时长,需要人工操作的地方多,人类本身就是最大的污染源和操作误差来源,无可避免。另外就是设计的实验本身从根子上就不稳定。
--------------------------------我是实验素质还不如大专学历专职实验室民工的分割线---------------------
看见这个问题我心里默默留下了眼泪。我以前是学药学,毕设做的有机合成,后来转投合成生物学做研究生毕设,实验重复性问题起码让我一年的时间有半年在通过反复摸索条件做实验,都快用穷举法测试了。有时一次实验做出来很顺,下次再用同一个条件做,就不出结果了,然后开始挠墙,到底是样品有所变更导致条件不再适用,还是用的酶、试剂有问题等等。无奈之下只好反复测试,用消耗劳动力的方法往前冲。
以毕设为例,从初始质粒基因序列设计架构开始做到酵母荧光蛋白表达,基本是个from scratch的架势。其实说起来涉及到的实验就是PCR, plasmid extraction, electrophoresis, transformation in E.coil, transformation in yeast, E.coil and yeast cell culture, SDS-PAGE, RNA extraction, cDNA reverse transcription, RT-qPCR。重复性问题往往存在在需要数据的分子级实验上,养细菌这种粗暴的事情就无所谓了。
真正让我因为重复性烦躁到爆的实验,先排除掉electrophoresis和SDS-PAGE,电泳这东西简单粗暴,基本不存在重复性的问题。cell culture也排除掉,大肠和酵母比哺乳动物细胞耐操的多,基本都能乖乖生长(不考虑杂菌污染问题)。plasmid extraction对后续实验没什么影响,只要提出足够多的质粒供transformation就行,反正用来extraction的原料E.coil和yeast多的很,随便养过夜/2,3天就是一管子浓浓的菌/酵母。
剩下的就很痛苦了
1. PCR, RT-qPCR
PCR的问题在于,正常20多30多个cycle,都是指数倍的增长,初始PCR管里的量又很少,不能和粗暴的有机合成比,一般一个PCR管里也就20~50μl的总量(模板DNA,dNTP,酶,水blabla),模板DNA可能有1-10μg,逼急了20μg的量我也放过。酶也就放1μl左右,用的枪头最小是0.5μl,那么问题就开始出现了,小枪头稍微不注意沾一点点没下去,或者点到PCR管壁上没充分混合(vortex不彻底,或者漏到PCR管的管帽与管之间),初始量就不太一致了,再加上后面指数倍的增长,误差就大了。上PCR机的时候,未必和以前用的是同一台(组里总共4台,都要分别预定时间),即使是设定的相同条件也会有微妙的影响。影响PCR的问题太多了,没能力一一详述,网上很多。
RT-qPCR和PCR差不多,但材料用的是珍贵的cDNA,一旦做仆街了,很不方便分辨是PCR过程的问题,还是原料cDNA制备有问题,为寻找问题优化实验带来困扰。同时制备cDNA是基于下面要说的RNA extraction,一个试剂盒好几千块,本科没做过,研究生才第一次做,我区区一个硕士生何德何能反复试错,这就是超越实验本身的现实考量了。
2. RNA extraction, cDNA reverse transcription
RNA要在RNA室里提取,之前样品存放在-80℃冰箱里,在RNA室里戴手套口罩,用奇怪的液体喷桌子喷手套喷枪,尽量去除掉无处不在的RNA酶。虽然是用试剂盒,但提取的时候从细胞破碎开始做,做到RNA提取完用安捷伦的chip测浓度,基本就从中午做到晚上8点了,这么长时间的实验,影响因素无处不在,偏偏提取出来的量浓度又低,一般是几十μg/ml,误差反应出来可想而知。
3. transformation in yeast
我至今觉得想通过homologous recombination将一段基因transformation到yeast genome上属于理论很美好,现实很坑爹的事情,实验重复率极其可悲,可能我自己就是个实验技术极差的衰人,说起来都是眼泪。想转进去的基因上面自带antibody marker,最后皿里面好一点长几十个菌落很给面子,次一点长那么几个菌落也圆乎乎挺饱满的,衰一点就长一个,比长不出来还惨的是出一堆永远长不大的细微白点。货真价实的是通过反复试,才凑够最后的11种不同的engineer yeast。更更可悲的是我至今不知道是什么影响了实验重现性,为什么相同条件,基本大小一致的片段,有的就能成功转进去,长那么几十个,有的就长不出来。
质粒转到E.coil里倒是简单粗暴,基本没什么重复性问题。可能还是真核酵母太娇气,而且不是转质粒进去而是试图整合到基因组上去,成功率很低。
4. fluorescent protein expression
其实蛋白表达倒还好,一旦基因整合上去了,基本蛋白上还是能保持稳定表达的,毕竟基因组上的基因还是比质粒基因要稳定,另外你虽然不知道一个酵母里有几个质粒,但一个酵母里根据最初设计确实就整合了一段设计序列。做三份酵母平行样品表达荧光蛋白,最后测荧光强度计算RSD(标准差/平均值)低于10%我就谢天谢地了(没有强制要求,当然越低越好)。相比较而言,药典记载HPLC外标法重现性要求,对照品平行测5次样,峰面积RSD低于2%。
说了一堆废话,感觉没办法实质性的帮到题主,见谅
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表