طور باحثون من جوجل وديب مايند "ميد-جيميني" (Med-Gemini)، وهي عائلة جديدة من نماذج الذكاء الاصطناعي متعددة الوسائط عالية القدرة المتخصصة في الطب. تستند الورقة البحثية، التي نُشرت أمس، على نماذج جيميني 1.0 و1.5 التي صدرت في عام 2023، والتي أظهرت قدرات رائدة في اللغة والفهم متعدد الوسائط والاستدلال طويل المدى.
وذكرت الورقة البحثية أن "ميد-جيميني يرث قدرات جيميني الأساسية في اللغة والمحادثات والفهم متعدد الوسائط والاستدلال طويل المدى".
يجلب النموذج إمكانيات جديدة للذكاء الاصطناعي في الطب، مثل المساعدة في التحديات التشخيصية المعقدة، والمشاركة في الحوار الطبي متعدد الوسائط، ومعالجة السجلات الصحية الإلكترونية المطولة.
قام الباحثون بتخصص نماذج جيميني للطب باستخدام تقنيات مثل التدريب الذاتي مع تكامل البحث على الويب، والضبط الدقيق متعدد الوسائط، والترميز المخصص.
لتقييم أداء ميد-جيميني، اختبر الباحثون النماذج على مجموعة شاملة من 25 مهمة عبر 14 معيارًا طبيًا. كانت النتائج مثيرة للإعجاب، حيث حقق ميد-جيميني أداءً متطورًا جديدًا في 10 معايير قياسية. على معيار ميد كيو إيه، الذي يقيم قدرات الإجابة على الأسئلة الطبية، حقق ميد-جيميني دقة 91.1%، متجاوزًا أفضل نتيجة سابقة بنسبة 4.6%. في المهام متعددة الوسائط، تفوقت النماذج على جي بي تي-4 بمتوسط 44.5%.
وراء المعايير القياسية، يُظهر ميد-جيميني إمكانية الاستخدام في العالم الحقيقي. تفوقت النماذج على الخبراء البشريين في مهام مثل تلخيص النصوص الطبية وتوليد خطابات الإحالة. بالإضافة إلى ذلك، عرض ميد-جيميني قدرات رائعة في معالجة السياق الطويل في المهام الصعبة مثل استرجاع "الإبرة في كومة قش" من السجلات الصحية الشاملة.
وأوضحت الورقة البحثية: "إن الطبيعة الفريدة للبيانات الطبية والحاجة الماسة للسلامة تتطلب مطالبات متخصصة أو ضبطًا دقيقًا أو ربما كلاهما جنبًا إلى جنب مع المواءمة الدقيقة لهذه النماذج".
"بالنسبة للمهام اللغوية، نعزز قدرة النماذج على استخدام البحث على الويب من خلال التدريب الذاتي ونقدم استراتيجية بحث موجهة بعدم اليقين في وقت الاستدلال ضمن إطار وكيل. يُمكّن هذا المزيج النموذج من تقديم نتائج أكثر دقة وموثوقية ودقة للمهام المعقدة للاستدلال السريري".
تسمح القدرات متعددة الوسائط لميد-جيميني للنماذج بمعالجة وتحليل مجموعة واسعة من البيانات الطبية، بما في ذلك النصوص والصور ومقاطع الفيديو وحتى مدخلات المستشعر الخام مثل مخططات كهربية القلب (ECGs).
يُظهر الباحثون قدرة ميد-جيميني على المشاركة في الحوارات الطبية متعددة الوسائط، حيث يمكن للنماذج طلب معلومات إضافية، مثل الصور، عند الحاجة وتقديم تفسيرات لطريقة تفكيرهم. تُبرز هذه القدرات إمكانات الذكاء الاصطناعي لدعم تفاعلات أكثر طبيعية وشمولية بين مقدمي الرعاية الصحية والمرضى.
كانت جوجل رائدة في تطوير الذكاء الاصطناعي في مجال الرعاية الصحية مع نماذج متعددة في المجال مثل ميد-بالم 2 وألفافولد وف Flan-PaLM.