مقالات

العواقب العرضية: مخاطر النشر وتحيز الاستشهاد

غارث لينغ ورودري لينغ - ترجمة: سمية العتيبي

يبدو أن نظام تبادل المعلومات العلمية أكثر هشاشة مما كان يعتقد في السابق.

عندما روّج الرئيس دونالد ترامب الهيدروكسيكلوروكين علاجًا لكوفيد 19، لم يتردد الدكتور أنتوني فاوتشي -مستشار البيت الأبيض حول فيروس كورونا المستجد- في دحض ما قال؛ حيث صرح فاوتشي أن جميع البيانات العلمية «الصحيحة» أظهرت أن الدواء غير فعال في علاج المرض.

ما فعله ترامب بالتحديد  لم يكن غريبًا  فقد «اختار بعناية» أدلة تدعم ادعاءً ألزم نفسه به دون تمحيص، متجاهلًا ضعف الأدلة الداعمة لموقفه، ودون الإقرار بقوة الأدلة المعارضة واستفاضتها.

كان فاوتشي، في معارضته ادعاء ترامب، ينفذ ما يعدّه العديد من العلماء أمرًا أخلاقيًا في العلم؛ ألا وهو، النظر إلى جميع الأدلة ذات الصلة، و تقييمها بمعايير موضوعية بعيدًا عن العاطفة. ومع أن العلماء سيقرون دون تردد بأن هذا هو ما ينبغي عليهم القيام به، إلا أنهم قد يقصّرون في تحقيق هذا المعيار في أبحاثهم. وقد بدأ البعض مؤخرًا في فحص جودة الأدلة في الأدبيات العلمية، وكيف تستخدم تلك الأدلة، وكيف تنتشر في المجتمع العلمي وتشكّل رأيه. ومما يثير قلقًا كبيرًا لدى العلماء -وبشكل متزايد لدى الجمهور العام القارئ للعلم- هو تحيزات النشر. ويثير وجود مثل هذه التحيزات قلقًا مفاده أن نزاهة العلم تتعرض للتقويض، وأن الأساطير أو أنصاف الحقائق قد تنتشر بسرعة عبر الأدبيات العلمية.

تحيز النشر

وأشهر هذه التحيزات هو التحيز في النشر، الذي ينشأ عن تفضيل العلماء لنشر التجارب ذات النتائج التي لها دلالة إحصائية – statistically significant («إيجابية»). ففي عام 1979، صاغ عالم النفس روبرت روزنتال مصطلح «مشكلة درج الملفات»، والمشكلة هي حين يتحفَّظ الباحثون على نشر نتائج لا تدعم فرضياتهم وإبقائها مخفية عن الأنظار.

كان روزنتال يخشى أن تجنّب نشر النتائج التي فشلت في الوصول إلى دلالة إحصائية، أو وجدت تأثيرًا معاكسًا لذلك الذي توقعه الباحث، سيؤدي إلى انحراف الأدبيات العلمية لصالح النتائج الإيجابية. وهذا بدوره قد يؤدي إلى المبالغة في تقدير فوائد علاجات معينة، والمشورة العلمية الناقصة، والبحوث المهملة.

وبحلول أواخر الثمانينات، أصبح التحيز في النشر معروفًا بتأثيره الضار على المشورة الطبية. في عام 1987، سأل كاي ديكرسين وزملاؤه 318 مؤلفًا لتجارب عشوائية متحكم بها عما إذا كانوا قد شاركوا في أي تجربة لم تنشر. أفاد المؤلفون ال 156 الذين أجابوا بوجود 271 تجربة غير منشورة؛ أي حوالي 26 في المئة من جميع التجارب التي شاركوا فيها. ومن بين التجارب غير المنشورة، تم الانتهاء من 178 تجربة، وأيدت 14 % فقط من هذه التجارب النظرية  قيد البحث، مقارنة بنسبة 55% من التجارب المنشورة. ويبدو أن المؤلفين لم يكلفوا أنفسهم عناء كتابة نتائج التجارب السلبية وتقديمها للنشر. ومنذ ذلك الحين، حُددت أشكال مختلفة من التحيز في النشر، بما في ذلك:

  • التحيز في التأخر الزمني: حيث تنشر التجارب ذات النتائج الإيجابية المثيرة للإعجاب (أي التي لها حجم تأثير كبير [effect size]، أو دلالة إحصائية) بسرعة أكبر من التجارب ذات النتائج السلبية أو المتساوية [قد تكون سلبية أو إيجابية].
  • التحيز في نشر النتائج: وهو نشر النتائج ذات الدلالة الإحصائية أو النتائج لصالح دعوى معينة فقط، بينما تحسب النتائج لصالح دعوى معارضة، ولكن لا تنشر.
  • التحيز في الموقع: وهو نشر نتائج ليس لها دلالة إحصائية، أو متساوية، أو غير داعمة لفرضية البحث، في مجلات علمية ذات مكانة أقل من غيرها، في حين تميل الدراسات التي تقدم نتائج إيجابية ذات دلالة إحصائية إلى أن تنشر في مجلات معروفة.

هذه المشكلة لم تزول. ففي عام 2010 أجرى المعهد القومي الأميركي للبحوث الصحية دراسة منهجية لدراسات التدخل في مجال الرعاية الصحية. ووجد أن الدراسات ذات النتائج الهامة أو الإيجابية كانت أكثر عرضة للنشر من تلك التي لها نتائج غير ذات دلالة إحصائية، أو سلبية، وغالبًا ما تنشر تلك الدراسات في وقت أقصر. تميل الدراسات المنشورة إلى الإبلاغ عن تأثير علاجي أكبر من الدراسات غير المنشورة، وقد أثّر هذا التحيز على الإجماع حول استنتاجات المراجعات المنهجية.

فحص ميشال كيسيينسكي وزملاؤه في عام 2015، 1106 تحليلًا بعديًا (meta-analysis) نشرتها هيئة كوكرين حول فعالية علاجات معينة أو سلامتها. وفي حالة التحليلات البعدية التي ركزت على الفعالية، كان من المرجح أن تدرج التجارب الإيجابية وذات الدلالة الإحصائية في التحليلات البعدية أكثر من التجارب الأخرى. وعلى العكس من ذلك بالنسبة للتحليلات البعدية التي ركزت على السلامة؛ إذْ «كان احتمال دخول النتائج التي لا تشير إلى آثار عكسية، إلى التحليل البعدي أعلى بنسبة 78 % من النتائج ذات الدلالة الإحصائية التي تظهر وجود آثار عكسية».

وكانت هذه النتائج مثيرة للقلق. فمراجعات كوكرين تعدُّ المعيار الذي يحتذى به في مجال الطب الحيوي، ولكن حتى هنا كان يوجد تحيز. وقد يكون التفسير إما أن (1) التجارب التي تنتج نتائج ليس لها دلالة إحصائية، أو متساوية، أو غير داعمة لفرضية البحث، لا تُنشر، أو (2) أنها تنشر ولكن تتجاهلها التحليلات البعدية.

تحيز الاستشهاد

لاحظ الباحثون في الثمانينيات أن الدراسات التي أبلغت عن نتائج إيجابية ذات دلالة إحصائية اُستُشهد بها أكثر من الدراسات التي توصلت إلى نتائج ليس لها دلالة إحصائية أو سلبية. وكانت أول دراسة منهجية لهذا الأمر، دراسة التجارب السريرية للأدوية المضادة للالتهابات في علاج التهاب المفاصل الروماتويدي لبيتر غوتشه في عام 1987.

 درس غوتشه كيف استشهد الباحثون بالتجارب السابقة لنفس الدواء؛ فقد بحث في الأدبيات للعثور على جميع التجارب المنشورة، وصنف كل ورقة بناء على ما إذا فسر الباحثون نتيجة دواء ما على أنها «إيجابية» أو «غير إيجابية»، ثم بحث عن دليل على التحيز في الشواهد والأدلة. واعتبر أن التحيز الإيجابي قد حدث إذا أشارت القائمة المرجعية بشكل غير متناسب إلى تجارب ذات نتائج إيجابية. ومن 76 ورقة يمكن أن يحدث فيها مثل هذا التحيز، أظهرت 44 ورقة تحيزًا إيجابيًا، وقد استشهد العديد من الباحثين بشكل تفضيلي بالأدلة التي أظهرت نتيجة إيجابية للدواء الذي اختبروه.

وفي عام 1992، درس أوفي رافنسكوف الاستشهاد بتجارب التدخلات الغذائية لأمراض القلب التاجية. ووجد رافنسكوف أن التجارب التي دعمت فعاليتها استُشهد بها، في المتوسط، 40 مرة في السنة، لكن التجارب المخالفة استشهد بها سبع مرات فقط في السنة. لم يرتبط عدد مرات الاستشهاد بتجربة معينة بحجمها، ولا بجودة المجلة التي نشرت فيها؛ حيث نشرت ثماني تجارب داعمة في المجلات الكبرى، واستشهد بهذه التجارب في المتوسط 61 مرة في السنة، بينما توجد عشر تجارب في مجلات مماثلة، ولم يستشهد بها إلا ثماني مرات فقط في السنة. واستنتج رافنسكوف أن «التأثير الوقائي لمثل هذا العلاج كان مبالغًا فيه بسبب غلبة أن تستشهد تقارير التجارب، والمراجعات وغيرها من الأوراق العلمية، بالنتائج الداعمة دون غيرها».

والتحيز في الاستشهاد أصبح الآن ظاهرة موثقة توثيقًا جيدًا أيضًا؛ ففي عام 2012، فحصت آن صوفي جانوت وفريق من الباحثين 242 تحليلًا بعديًا نُشرت في قاعدة بيانات كوكرين للمراجعات المنهجية بين يناير ومارس 2010، والتي تشمل اهتمامات بحثية متنوعة؛ بما في ذلك أمراض القلب، والأمراض المعدية، والطب النفسي، وقد أشارت التحليلات البعدية البالغ عددها 242 إلى  470 تجربة فريدة من نوعها. في المتوسط، التجارب التي لها نتائج ذات دلالة إحصائية للمتغيّرات الأساسية لها ضعف عدد الاستشهادات مقارنة بتلك التجارب التي لم يكن لها نتائج ذات دلالة إحصائية للمتغيّرات الأساسية.

وفي عام 2017، راجع برام دويك وزملاؤه 52 دراسة عن التحيز في الاستشهاد: 38 دراسة منها عن التحيز في أدبيات الطب الحيوي، وسبع دراسات في العلوم الاجتماعية، وست دراسات في العلوم الطبيعية، وواحدة تركز على عدة مجالات؛ حيث أفادوا بأن «تحليلاتنا البعدية تُبيّن أن المقالات ذات النتائج الإيجابية يستشهد بها حوالي ضعف عدد مرات الاستشهاد بالمقالات ذات النتائج السلبية»، وأضافوا «تشير نتائجنا إلى أن الاستشهادات تستند في الغالب إلى الاستنتاج الذي يستخلصه الباحثون بدلًا من البيانات الأساسية».

ومع ذلك ، فبالمقارنة مع تحيز النشر، لم ينل تحيز الاستشهاد اهتمامًا بحثيًا حتى سببت ورقة طبيب الأعصاب ستيفن غرينبرغ صدمة في مجتمع الطب الحيوي عام 2009.

كان غرينبرغ مهتمًا بما إذا كان الادعاء الذي شاهده بانتظام في الأوراق العلمية مدعمًا فعليًا بالأدلة المتاحة.  فقد كان من المعروف على نطاق واسع أن بروتين معين، وهو ببيتد بيتا النشواني (β-amyloid)، كان حاضرًا حضورًا غريبًا في ألياف عضلات المرضى الذين يعانون من «التهاب العضلات المشتمل» ، وهو مرض يسبب ضعف العضلات، وكان لهذا الادعاء آثار مهمة على العلاج، وقد شاهده غرينبرغ يتكرر في ما لا يقل عن 200 ورقة أعطت الانطباع بأن هذه »حقيقة«، ولكنه أراد أن يجد الدليل على ذلك.

لكن غرينبرغ لم يتمكن من العثور إلا على 12 ورقة بحثت مباشرة في الادعاء؛ حيث دعمه ستة وخالفه البقية. فعند قراءته، كانت هناك نقاط ضعف كبيرة من ناحية تخصصية في الأدلة الداعمة، ومما يثير القلق أن الأوراق الأربع الأولى الداعمة جاءت جميعها من نفس المختبر، واثنتين من هذه الأوراق «ربما أبلغا عن نفس البيانات دون أن يُستشهد ببعضهما».

أراد غرينبرغ أن يفهم كيف أصبح هذا الادعاء، الذي بدا له مشكوكًا فيه، «حقيقة» واضحة: نُشرت جميع الدراسات العشر الأولى من الدراسات الأولية بين عامي 1992 و1995، ودرسَ كيف ذُكرت في ما يليها من سنوات حتى عام 2007؛ فوجد 242 ورقة ناقشت ادعاء ببيتد بيتا النشواني(β-amyloid)، وتضمنت هذه الاستشهادات 214 استشهادًا بالدراسات الأولية المبكرة. ولكن 94 % من هذه الدراسات كانت للدراسات الداعمة الأربع، 6% فقط إلى الدراسات الست المخالفة. لقد أشارت الأدبيات بأغلبية ساحقة إلى أدلة داعمة، بينما أهملت الأدلة المخالفة.

إذن، كيف حدث هذا؟ حلل غرينبرغ كيف يمكن أن تكون أدلة التجربة قد انتشرت من ورقة إلى ورقة وذلك بواسطة تتبع روابط الاقتباس بين الأوراق. وبهذا، أظهر أن أوراق المراجعات أدت دورًا رئيسيًا في توجيه العلماء إلى الأدلة؛ فقد استمدت المعلومات حول ببيتد بيتا النشواني من أربع مراجعات: 95 % من جميع المسارات – أي سلاسل الاستشهاد التي تربط الأوراق معًا – المؤدية إلى البيانات الأولية الأصلية مرت عبر هذه المراجعات، وقد استشهدت هذه المراجعات بالأوراق الأولية الأربع الداعمة، وتجاهلت الدراسات المخالفة؛ فقد وجّهت المراجعاتُ الانتباه إلى الدراسات التي دعمت ادعاء  ببيتد بيتا النشواني.

وقد أثبت غرينبرغ أن التحيز في الاستشهاد قد يؤدي إلى تحريفات جسيمة في الفهم العلمي. إنّ قرارات فرادى العلماء بذكر أوراق معينة دون غيرها قد تكون لها عواقب غير متوقعة تشوّش على الأدبيات ذات الصلة؛ حيث تشكل الأدلة التي يختار العلماء الآخرون الاستشهاد بها.

ولكن مشاكل الاقتباس لا تنتهي عند هذا الحد.

كتاب «مسألة الحقائق: الشك والإقناع ، والدليل في العلوم» The Matter of Facts: Skepticism, Persuasion, and Evidence in Science، الذي اُقتبست منه هذه المقالة.

تحريف الاقتباس

ففي عام 1980، نشر جين بورتر وهيرشيل جيك رسالة من خمس جمل في مجلة نيو إنجلاند الطبية حملت عنوان: «الإدمان نادر في المرضى الذين عولجوا بالمواد المخدرة [Narcotics]». وقد فحصوا سجلات 11882 مريضًا، وصف لهم مخدر واحد على الأقل ولم يعثروا إلا على أربع حالات إدمان:

وأكدوا أنه «على الرغم من الاستخدام الشائع للمواد المخدرة في المستشفيات، إلا أن ظهور الإدمان نادر لدى المرضى الذين ليس لديهم تاريخ من الإدمان».

ولكن في عام 2017، في رسالة أخرى في مجلة نيو إنجلاند الطبية، ذكرت باميلا ليونغ وزملاؤها أن رسالة بورتر وجيك قد استُشهد بها في 608 ورقة بين عامي 1981 و2017، وقرأوا كل من هذه الأوراق لمعرفة بمَ استشهد بها: استخدمه 439 منهم أي (72 %) دليلًا على أن الإدمان نادر في المرضى الذين عولجوا بالمواد الأفيونية [opioids]، والأهم من ذلك أن 491 من الأوراق المذكورة لم تذكر أن الرسالة وصفت تجربة المرضى الذين أدخلوا المستشفى؛ أي المرضى في بيئة آمنة وخاضعة للرقابة بشكل جيد تحت إشراف متمعن ومستمر. واستنتجت ليونغ وزملاؤها ما يلي:

«استشهد برسالة من خمس جمل نشرت في المجلة في عام 1980 استشهادًا واسعًا وغير نقدي كدليل على أن الإدمان نادر مع العلاج بالمواد الأفيونية على مدى طويل، ونحن نعتقد أن هذا النمط من الاستشهاد ساهم في أزمة المواد الأفيونية في أمريكا الشمالية من خلال المساعدة في تشكيل السرد الذي خفف من مخاوف الذين وصف لهم العلاج حول خطر الإدمان المرتبط بالعلاج الأفيوني على المدى الطويل، لذلك تسلط النتائج التي توصلنا إليها الضوء على العواقب المحتملة للاستشهاد غير الدقيق، وتؤكد الحاجة إلى الاجتهاد عند الاستشهاد بدراسات منشورة سابقًا».

هنا، هُدِم معنى الدراسة من خلال سلاسل من الاستشهاد.

و في عام 2010، نشر أندرياس ستانغ نقدًا لمقياس نيوكاسل-أوتاوا، وهو مقياس يستخدم في التحليلات البعدية لتقييم جودة الدراسات القائمة على الملاحظة. وتوصل إلى استنتاج نقدي صريح:

«يبدو أن الصيغة الحالية لا تعد صيغة مقبولة في تصنيف الجودة لكل من «دراسات الحالات والشواهد» [case-control studies] و«الدراسات الحشدية» [cohort studies] في التحليلات البعدية،  وقد يؤدي استخدام هذا المقياس في المراجعات القائمة على الأدلة والتحليلات البعدية إلى نتائج اعتباطية للغاية».

وبعد ثماني سنوات، أشار ستانغ إلى أن ورقته عام 2010 استشهد بها أكثر من 1000 مرة، ولكن جميعها تقريبًا كانت تشير إليها بشكل خاطئ؛ كما لو أنها تؤيد استخدام مقياس نيوكاسل-أوتاوا! ولإظهار حجم هذا الاقتباس الخاطئ ، فحص ستانغ وزملاؤه استشهاد لمراجعات منهجية، ففي 94 من المراجعات ال 96 التي حددوها، استشهد بنقد ستانغ بطريقة توحي بأنه كان داعمًا لمقياس نيوكاسل-أوتاوا.

وبحلول أيلول/سبتمبر 2020، استُشهد بنقد ستانغ للمقياس 088 5 مرة؛ ولكن لم يكن الاستشهاد أدق من ذي قبل؛ لذلك يبدو أن محاولته لمكافحة انتشار هذا الاقتباس الخاطئ لم تلق آذانًا صاغية؛ فقد استُشهد بتحليله اللاحق خمس مرات فقط.

ولكن ما مدى شيوع أخطاء الاستشهاد هذه؟

راجع هانا جيرجاس وكريستوفر بيثج 27 دراسة حول دقة الاستشهادات في الأدبيات الطبية الحيوية، وحددا (1) الأخطاء الرئيسية التي حرفت بشكل كبير الورقة المشار إليها أو لم تستشهد بها على الوجه الصحيح؛ و(2) أخطاء طفيفة تتضمن عدم دقة في الحقائق، واستنتجا أن حوالي استشهادًا من كل أربعة استشهادات عموما «خاطئ أو إشكالي»، في حين أن استشهادًا من كل ثمانية أو تسعة استشهادات «واقع في أخطاء جسيمة».

وفي بعض الأحيان تنسخ المراجع [أو الاستشهادات – references] ببساطة من ورقة إلى أخرى. ويصعب معرفة مدى شيوع ذلك، ولكن بيتر كروننبرغ، وهو إحصائي هولندي، اكتشف ورقة وهمية اُستشهد بها أكثر من 400 مرة. وقد ذكرت الورقة الوهمية على النحو التالي:

Van der Geer, J., Hanraads, J. A. J., Lupton, R. A. 2010. The art of writing a scientific article. J Sci. Commun. 163 (2) 51–59.

نشأ هذا كمثال افتراضي استخدمته دار نشر ودورية إلزيفير (Elsevier) في توضيح أسلوب كتابة الاستشهاد والمراجع في دوريات علمية معينة. وقد تأكدنا من ذلك من خلال بحث في شبكة العلوم [Web of Science]، أنه اُستُشهد به أكثر من 480 مرة بحلول عام 2019، ومعظم الاستشهادات من ملخصات الأوراق لوقائع مؤتمرات، ويبدو من المرجح أن العديد من الباحثين قد أساؤوا فهم أن هذا مثال على كيفية الاستشهاد، وليس مثالًا على شيء ينبغي الاستشهاد به، لكن الاستشهاد ظهر أيضًا في 79 ورقة في مجلات علمية. ومن بين هذه الأوراق، ربطت 13 ورقة معًا بواسطة المراجع، وفي هذه المراجع، استخدم المرجع بشكل غريب لدعم الادعاء بأن مركبًا يسمى روتين يمكن أن يخفف الدم، ويقلل من نفاذية الأوعية الدموية، ويخفض ضغط الدم. وفي هذه الحالة، على ما يبدو، أن المرجع نُسخ ببساطة من ورقة إلى أخرى.

نقص في استخدام الأدلة

لفهم مدى الاستفادة من الأدلة المتاحة، فحص الباحثان كارين روبنسون وستيفن غودمان عدد المرات التي استشهد باحثو التجارب السريرية بتجارب سابقة مماثلة لتجاربهم هذه. وقد حددا 1523 تجربة، وتتبعا كيف استشهدت بتجارب أخرى في نفس الموضوع. وجدا أنه لم يُستشهد إلا بربع التجارب ذات الصلة، وهذه التجارب بدورها لم تشكل إلا ربع عدد المشاركين في التجارب ذات الصلة. والغريب أن وسيطَ (median) ما يستشهد به هو تجربتان بصرف النظر عن عدد التجارب التي أجريت. يبدو أن العلماء لا يحتاجون إلا إلى كتفين لا غير ليروا أبعد ممن سبقوهم، بصرف النظر عن عدد الأكتاف الموجودة!

واستنتج الباحثون أن «الآثار المحتملة تشمل تجارب غير مبررة أخلاقيًا، وموارد ضائعة، واستنتاجات خاطئة، ومخاطر غير ضرورية للمشاركين في التجربة».

العواقب

يبدو أن نظام تبادل المعلومات العلمية أكثر هشاشة مما كان يعتقد في السابق؛ فهو يتأثر بقرارات الباحثين بشأن ما يجب نشره وما ينبغي الاستشهاد به. فالقرارات التي يتخذها الأفراد – أي أفراد لهم أهداف بحثية معينة، وخبرة في مجال محدد، وذاكرة محدودة، وميل فطري إلى الخطأ – قد تؤثر على ما يؤمن به الآخرون بطرق ما زلنا لا نفهمها تمامًا.

إذا لم تُنشر الأدلة، فقد تحرم الآخرين من فرصة نقد موقف ما. وإذا كان تحيز الاستشهاد شائعًا، فإنه من المرجح أن يبني العلماء فهمهم على مجموعة جزئية فقط من الأدلة. ولكن في حين أننا قد نشير إلى الهدر وقت البحث والتمويل إذا أهملت الأدلة الموجودة بشكل كامل، والمشاكل المتأصلة في صحة الدعاوى العلمية، فإن الحل ليس واضحًا. ومع أن هذه المشاكل تبدو في ازدياد، فإن ذلك قد يعكس ببساطة اعترافًا أكبر بها، وهذا الاعتراف الأكبر قد يدفع في حد ذاته إلى التصحيح الذاتي في سلوك العلماء.


غاريث لينغ: أستاذ علم وظائف الأعضاء التجريبي بجامعة إدنبرة، ومؤلف كتاب «قلب الدماغ: الهايبوتلاموس وهرموناته» The Heart of the Brain: The Hypothalamus and Its Hormones، كما شارك (مع رودري إيفور لينج) في تأليف كتاب «مسألة الحقائق: الشك والإقناع ، والدليل في العلوم» The Matter of Facts: Skepticism, Persuasion, and Evidence in Science، الذي اُقتبست منه هذه المقالة.

رودري إيفور لينغ: زميل مجلس البحوث الإقتصادية والاجتماعية في جامعة إدنبرة، متخصص في تحليل شبكة الاستشهادات (citation network analysis).

المصدر (ضمن اتفاقية ترجمة خاصة بمنصة معنى).

مقالات ذات صلة

زر الذهاب إلى الأعلى