كيف تفوق الذكاء الاصطناعي على الأطباء في تشخيص الطوارئ؟
تناولت دراسة علمية منشورة في مجلة Science بتاريخ 30 أبريل 2026 أداء نماذج اللغة الكبيرة في مهام التفكير السريري، وهي من أكثر المهام تعقيداً في الطب الحديث.
دراسة حملت عنوان "Performance of a large language model on the reasoning tasks of a physician”، وأُجريت بقيادة فريق بحثي من كلية الطب بجامعة هارفارد ومركز "بيث إسرائيل ديكونيس" الطبي، بمشاركة أكثر من 15 باحثاً وخبيراً .
وتميزت الدراسة بأنها لا تقتصر على بيئات محاكاة، بل امتدت لتشمل حالات طبية حقيقية، ما يعزز من مصداقية نتائجها ويضعها ضمن أهم الدراسات الحديثة في تقاطع الذكاء الاصطناعي والطب.
تصميم التجارب السريرية وتعدد بيئات التقييم الطبي
اعتمدت الدراسة على منهجية متعددة المستويات، حيث تم اختبار نموذج OpenAI o1 عبر ستة أنواع مختلفة من الحالات السريرية، شملت حالات منشورة في مجلات طبية، وسيناريوهات تدريبية، إضافة إلى بيانات حقيقية من المستشفيات.
ومن أبرز هذه التجارب تحليل 76 حالة حقيقية من قسم الطوارئ، إضافة إلى 143 حالة تشخيصية من مؤتمرات NEJM، و20 حالة محاكاة سريرية متقدمة، فضلاً عن اختبار قدرات النموذج في تقدير الاحتمالات الطبية باستخدام بيانات من 553 ممارساً صحياً. هذا التنوع في البيانات مكّن الباحثين من تقييم الأداء في سياقات واقعية ومعقدة، تتراوح بين التشخيص الأولي واتخاذ القرار العلاجي.
أداء النموذج في حالات الطوارئ تحت ضغط الوقت ونقص المعلومات
أظهرت النتائج أن نموذج o1 تفوق بشكل ملحوظ في بيئات الطوارئ، حيث تكون المعلومات محدودة والقرارات حاسمة. ففي مرحلة الفرز الأولي (Triage)، تمكن النموذج من الوصول إلى تشخيص دقيق أو قريب في 67.1% من الحالات ، مقارنة بـ 55.3% و50% لطبيبين مختصين .
ومع تقدم مراحل التقييم وتوفر معلومات إضافية، ارتفعت دقة النموذج إلى 72.4% أثناء الفحص السريري ، ثم إلى 81.6% عند إدخال المريض للمستشفى أو العناية المركزة، متجاوزاً أداء الأطباء في جميع المراحل. وتُظهر هذه الأرقام أن الفجوة الأكبر كانت في المرحلة الأولى، حيث يكون الضغط الزمني أعلى والبيانات أقل.
دقة التشخيص التفريقي وقدرة النموذج على تحديد الاحتمالات الطبية
في اختبارات التشخيص التفريقي، أظهر النموذج قدرة عالية على إدراج التشخيص الصحيح ضمن قائمة الاحتمالات بنسبة 78.3%، بينما ارتفعت هذه النسبة إلى 97.9% عند احتساب التشخيصات القريبة أو المحتملة.
كما نجح في تقديم التشخيص الصحيح كخيار أول في 52% من الحالات، وهو مؤشر قوي على جودة ترتيب الأولويات التشخيصية. وفي المقابل، أظهر الأطباء تفاوتاً أكبر في الأداء، مع اختلافات ملحوظة في دقة التقدير، ما يعكس استقراراً أعلى في أداء النموذج مقارنة بالبشر.
كفاءة اختيار الفحوصات والخطط العلاجية مقارنة بالأطباء
لم يقتصر تفوق النموذج على التشخيص فقط، بل امتد إلى اختيار الفحوصات الطبية المناسبة، حيث تمكن من اختيار الاختبار الصحيح في 87.5% من الحالات ، وقدم خيارات مفيدة في 11% إضافية ، بينما كانت نسبة القرارات غير المفيدة لا تتجاوز 1.5%.
وفي تقييم خطط إدارة الحالات، سجل النموذج متوسط أداء بلغ 89%، متفوقاً بشكل واضح على GPT-4 الذي سجل نحو 42%، وكذلك على الأطباء الذين استخدموا أدوات تقليدية أو حتى مدعومة بالذكاء الاصطناعي، بفارق وصل إلى أكثر من 40 نقطة مئوية.
تفوق النموذج في مهارات التفكير السريري المركب
في اختبارات التفكير السريري المعقد، حقق نموذج o1 نتائج شبه مثالية، حيث حصل على تقييم كامل في 78 من أصل 80 حالة، متفوقاً على الأطباء الاستشاريين الذين حققوا نتائج كاملة في 28 حالة فقط، وعلى الأطباء المقيمين الذين لم تتجاوز نتائجهم الكاملة 16 حالة.
كما أظهر قدرة عالية على تحديد الحالات الخطرة التي لا يمكن تفويتها، بنسبة وسطية بلغت 92%، ما يعكس مستوى متقدماً من الفهم السريري وليس مجرد تحليل بيانات.
دلالات النتائج
تشير نتائج الدراسة إلى أن نماذج اللغة الكبيرة تجاوزت العديد من المعايير التقليدية في التفكير السريري، ما يفتح الباب أمام استخدامها كمساعد فعال في اتخاذ القرار الطبي.
ومع ذلك، شدد الباحثون على أن هذه النتائج لا تعني جاهزية الذكاء الاصطناعي لاتخاذ قرارات حاسمة بشكل مستقل، بل تؤكد الحاجة إلى إجراء تجارب مستقبلية في بيئات حقيقية، إضافة إلى تطوير أطر تنظيمية تضمن السلامة والمساءلة.
كما لفتت الدراسة إلى أن الأداء الحالي يقتصر على البيانات النصية، في حين لا تزال النماذج أقل كفاءة في التعامل مع المدخلات البصرية أو السمعية، وهي عناصر أساسية في الممارسة الطبية اليومية.