الأوامر متعددة الوسائط
العمل مع الصور والصوت والفيديو
على مدار معظم التاريخ، كانت أجهزة الكمبيوتر تعمل مع نوع واحد من البيانات في كل مرة: النص في برنامج واحد، والصور في برنامج آخر، والصوت في مكان آخر. لكن البشر لا يختبرون العالم بهذه الطريقة. نحن نرى ونسمع ونقرأ ونتحدث في آنٍ واحد، نجمع كل هذه المدخلات لفهم بيئتنا.
الذكاء الاصطناعي متعدد الوسائط يغير كل شيء. هذه النماذج يمكنها معالجة أنواع متعددة من المعلومات معًا—تحليل صورة أثناء قراءة سؤالك عنها، أو توليد صور من أوصافك النصية. يعلمك هذا الفصل كيفية التواصل بفعالية مع هذه الأنظمة القوية.
"متعدد" تعني كثير، و"الوسائط" تشير إلى أنماط أو أنواع البيانات. النموذج متعدد الوسائط يمكنه العمل مع وسائط متعددة: النص والصور والصوت والفيديو أو حتى الكود البرمجي. بدلاً من أدوات منفصلة لكل نوع، نموذج واحد يفهمها جميعًا معًا.
لماذا تعدد الوسائط مهم
الذكاء الاصطناعي التقليدي كان يتطلب منك وصف كل شيء بالكلمات. تريد أن تسأل عن صورة؟ كان عليك وصفها أولاً. تريد تحليل مستند؟ كنت بحاجة إلى نسخه يدويًا. النماذج متعددة الوسائط تزيل هذه الحواجز.
ارفع صورة واطرح أسئلة عنها مباشرة—لا حاجة لوصفها
"ما الخطأ في هذا المخطط الكهربائي؟"
صف ما تريده وولّد صورًا أو صوتًا أو فيديو
"غروب الشمس فوق الجبال بأسلوب الألوان المائية"
امزج النص والصور ووسائط أخرى في محادثة واحدة
"قارن بين هذين التصميمين وأخبرني أيهما أفضل للهاتف المحمول"
استخرج المعلومات من صور المستندات والإيصالات ولقطات الشاشة
"استخرج جميع البنود من صورة هذه الفاتورة"
لماذا صياغة الأوامر أكثر أهمية للنماذج متعددة الوسائط
مع النماذج النصية فقط، يتلقى الذكاء الاصطناعي بالضبط ما تكتبه. لكن مع النماذج متعددة الوسائط، يجب على الذكاء الاصطناعي تفسير المعلومات المرئية أو الصوتية—والتفسير يتطلب توجيهًا.
أمر متعدد الوسائط غامض
ماذا ترى في هذه الصورة؟ [صورة للوحة تحكم معقدة]
أمر متعدد الوسائط موجه
هذه لقطة شاشة للوحة التحليلات الخاصة بنا. ركز على: 1. رسم معدل التحويل في أعلى اليمين 2. أي مؤشرات خطأ أو تحذيرات 3. هل تبدو البيانات طبيعية أم غير عادية [صورة للوحة تحكم معقدة]
بدون توجيه، قد يصف النموذج الألوان والتخطيط أو تفاصيل غير ذات صلة. مع التوجيه، يركز على ما يهمك فعلاً.
عندما تنظر إلى صورة، تعرف فورًا ما هو المهم بناءً على سياقك وأهدافك. الذكاء الاصطناعي لا يملك هذا السياق إلا إذا قدمته له. صورة لشق في الجدار يمكن أن تكون: مشكلة هندسية إنشائية، أو نسيج فني، أو خلفية غير ذات صلة. أمرك يحدد كيف يفسرها الذكاء الاصطناعي.
المشهد متعدد الوسائط
النماذج المختلفة لها قدرات مختلفة. إليك ما هو متاح في عام 2025:
نماذج الفهم (المدخلات ← التحليل)
هذه النماذج تقبل أنواعًا مختلفة من الوسائط وتنتج تحليلاً نصيًا أو استجابات.
النص + الصور + الصوت ← النص. النموذج الرئيسي من OpenAI مع سياق 128 ألف رمز، قدرات إبداعية واستدلالية قوية، معدلات هلوسة منخفضة.
النص + الصور ← النص. نموذج Anthropic المركز على السلامة مع استدلال متقدم، ممتاز للبرمجة والمهام المعقدة متعددة الخطوات.
النص + الصور + الصوت + الفيديو ← النص. نموذج Google مع سياق مليون رمز، التحقق الذاتي من الحقائق، معالجة سريعة للبرمجة والبحث.
النص + الصور + الفيديو ← النص. نموذج Meta مفتوح المصدر مع سياق ضخم 10 ملايين رمز للمستندات الطويلة وقواعد الكود.
النص + الصور ← النص. نموذج xAI مع وصول للبيانات في الوقت الفعلي وتكامل مع وسائل التواصل الاجتماعي للحصول على ردود محدثة.
نماذج التوليد (النص ← الوسائط)
هذه النماذج تنشئ صورًا أو صوتًا أو فيديو من الأوصاف النصية.
النص ← الصور. مولد الصور من OpenAI بدقة عالية لوصف الأوامر.
النص + الصور ← الصور. معروف بالجودة الفنية والتحكم في الأسلوب والمخرجات الجمالية.
النص ← الفيديو. نموذج توليد الفيديو من OpenAI لإنشاء مقاطع من الأوصاف.
الصوت ← النص. تحويل الكلام إلى نص من OpenAI بدقة عالية عبر اللغات.
المشهد متعدد الوسائط يتغير بسرعة. نماذج جديدة تُطلق بشكل متكرر، والنماذج الحالية تكتسب قدرات من خلال التحديثات. تحقق دائمًا من أحدث الوثائق للميزات والقيود الحالية.
أوامر فهم الصور
حالة الاستخدام متعددة الوسائط الأكثر شيوعًا هي طلب تحليل الصور من الذكاء الاصطناعي. المفتاح هو توفير السياق حول ما تحتاجه.
تحليل الصور الأساسي
ابدأ بهيكل طلب واضح. أخبر النموذج بالجوانب التي يجب التركيز عليها.
هذا الأمر يوفر إطارًا واضحًا لتحليل الصور. يعرف النموذج بالضبط ما المعلومات التي تحتاجها.
حلل هذه الصورة وصف:
1. **الموضوع الرئيسي**: ما هو التركيز الأساسي لهذه الصورة؟
2. **المكان**: أين يبدو أن هذا يحدث؟ (داخلي/خارجي، نوع الموقع)
3. **المزاج**: ما النغمة العاطفية أو الأجواء التي تنقلها؟
4. **المحتوى النصي**: أي نص مرئي أو لافتات أو تسميات؟
5. **تفاصيل ملحوظة**: ما الذي قد يفوته شخص ما للوهلة الأولى؟
6. **الجودة التقنية**: كيف هي الإضاءة والتركيز والتكوين؟
[الصق أو صف الصورة التي تريد تحليلها]
وصف الصورة أو الرابط: ${imageDescription}المخرجات المنظمة للصور
عندما تحتاج لمعالجة تحليل الصور برمجيًا، اطلب مخرجات JSON.
احصل على بيانات منظمة من تحليل الصور يسهل تحليلها واستخدامها في التطبيقات.
حلل هذه الصورة وأرجع كائن JSON بالهيكل التالي:
{
"summary": "وصف من جملة واحدة",
"objects": ["قائمة بالأشياء الرئيسية المرئية"],
"people": {
"count": "عدد أو 'لا يوجد'",
"activities": ["ماذا يفعلون، إن وجد"]
},
"text_detected": ["أي نص مرئي في الصورة"],
"colors": {
"dominant": ["أعلى 3 ألوان"],
"mood": "دافئ/بارد/محايد"
},
"setting": {
"type": "داخلي/خارجي/غير معروف",
"description": "وصف أكثر تحديدًا للموقع"
},
"technical": {
"quality": "عالية/متوسطة/منخفضة",
"lighting": "وصف الإضاءة",
"composition": "وصف الإطار/التكوين"
},
"confidence": "عالية/متوسطة/منخفضة"
}
الصورة للتحليل: ${imageDescription}التحليل المقارن
مقارنة صور متعددة تتطلب تسمية واضحة ومعايير مقارنة محددة.
قارن بين صورتين أو أكثر بمعايير محددة تهم قرارك.
قارن هذه الصور لـ ${purpose}:
**الصورة أ**: ${imageA}
**الصورة ب**: ${imageB}
حلل كل صورة وفق هذه المعايير:
1. ${criterion1} (الأهمية: عالية)
2. ${criterion2} (الأهمية: متوسطة)
3. ${criterion3} (الأهمية: منخفضة)
قدم:
- مقارنة جنبًا إلى جنب لكل معيار
- نقاط القوة والضعف لكل صورة
- توصية واضحة مع التبرير
- أي مخاوف أو تحفظاتتحليل المستندات ولقطات الشاشة
أحد أكثر التطبيقات العملية للذكاء الاصطناعي متعدد الوسائط هو تحليل المستندات ولقطات الشاشة وعناصر واجهة المستخدم. هذا يوفر ساعات من النسخ والمراجعة اليدوية.
استخراج المستندات
المستندات الممسوحة ضوئيًا وصور الإيصالات وملفات PDF كصور يمكن معالجتها جميعًا. المفتاح هو إخبار النموذج بنوع المستند والمعلومات التي تحتاجها.
استخرج البيانات المنظمة من صور المستندات والإيصالات والفواتير أو النماذج.
هذه صورة/مسح ضوئي لـ ${documentType}.
استخرج جميع المعلومات بتنسيق JSON منظم:
{
"document_type": "النوع المكتشف",
"date": "إذا وجد",
"key_fields": {
"اسم_الحقل": "القيمة"
},
"line_items": [
{"description": "", "amount": ""}
],
"totals": {
"subtotal": "",
"tax": "",
"total": ""
},
"handwritten_notes": ["أي نص مكتوب بخط اليد"],
"unclear_sections": ["المناطق التي صعب قراءتها"],
"confidence": "عالية/متوسطة/منخفضة"
}
هام: إذا كان أي نص غير واضح، دونه في "unclear_sections" بدلاً من التخمين. حدد الثقة بـ "منخفضة" إذا كانت أجزاء كبيرة صعبة القراءة.
وصف المستند: ${documentDescription}تحليل لقطات الشاشة وواجهة المستخدم
لقطات الشاشة كنوز لتصحيح الأخطاء ومراجعة تجربة المستخدم والتوثيق. وجه الذكاء الاصطناعي للتركيز على ما يهم.
احصل على تحليل مفصل للقطات الشاشة لتصحيح الأخطاء أو مراجعة تجربة المستخدم أو التوثيق.
هذه لقطة شاشة لـ ${applicationName}.
حلل هذه الواجهة:
**التعريف**
- ما هذه الشاشة/الصفحة/الحالة؟
- ما الذي يحاول المستخدم إنجازه على الأرجح هنا؟
**عناصر واجهة المستخدم**
- العناصر التفاعلية الرئيسية (الأزرار، النماذج، القوائم)
- الحالة الحالية (هل هناك شيء محدد أو معبأ أو موسع؟)
- أي رسائل خطأ أو تحذيرات أو إشعارات؟
**تقييم تجربة المستخدم**
- هل التخطيط واضح وبديهي؟
- أي عناصر مربكة أو تسميات غير واضحة؟
- مخاوف إمكانية الوصول (التباين، حجم النص، إلخ)؟
**المشكلات المكتشفة**
- أخطاء بصرية أو عدم محاذاة؟
- نص مقطوع أو مشاكل تجاوز؟
- تنسيق غير متسق؟
وصف لقطة الشاشة: ${screenshotDescription}تحليل رسائل الخطأ
عندما تواجه خطأ، لقطة الشاشة غالبًا تحتوي على سياق أكثر من مجرد نسخ نص الخطأ.
احصل على شروحات بلغة بسيطة وحلول لرسائل الخطأ في لقطات الشاشة.
أرى هذا الخطأ في ${context}.
[صف أو الصق رسالة الخطأ/لقطة الشاشة]
تفاصيل الخطأ: ${errorDetails}
يرجى تقديم:
1. **شرح بلغة بسيطة**: ماذا يعني هذا الخطأ فعلاً؟
2. **الأسباب المحتملة** (مرتبة حسب الاحتمالية):
- الأكثر احتمالاً:
- ممكن أيضًا:
- أقل شيوعًا:
3. **خطوات الإصلاح**:
- أولاً، جرب...
- إذا لم ينجح ذلك...
- كملاذ أخير...
4. **الوقاية**: كيفية تجنب هذا الخطأ في المستقبل
5. **علامات التحذير**: متى قد يشير هذا الخطأ إلى مشكلة أكثر خطورةأوامر توليد الصور
توليد الصور من الأوصاف النصية هو شكل من أشكال الفن. كلما كان أمرك أكثر تحديدًا وتنظيمًا، كلما اقتربت النتيجة من رؤيتك.
تشريح أمر الصورة
أوامر توليد الصور الفعالة لها عدة مكونات:
ما هو التركيز الرئيسي للصورة؟
كلب جولدن ريتريفر يلعب في أوراق الخريف
ما الأسلوب الفني أو الوسيط؟
لوحة مائية، فن رقمي، واقعية تصويرية
كيف يتم ترتيب المشهد؟
صورة قريبة، منظر طبيعي واسع، رؤية من الأعلى
ما مصدر وجودة الضوء؟
ضوء صباحي ناعم، ظلال درامية، توهج نيون
ما الشعور الذي يجب أن تثيره؟
هادئ، نشيط، غامض، حنين
عناصر محددة للتضمين أو التجنب
تضمين: زهور. تجنب: نص، علامات مائية
توليد الصور الأساسي
استخدم هذا القالب لإنشاء أوامر توليد صور مفصلة ومحددة.
أنشئ صورة بهذه المواصفات:
**الموضوع**: ${subject}
**الأسلوب**: ${style}
**الوسيط**: ${medium} (مثل: لوحة زيتية، فن رقمي، صورة فوتوغرافية)
**التكوين**:
- الإطار: ${framing} (قريب، لقطة متوسطة، زاوية واسعة)
- المنظور: ${perspective} (مستوى العين، زاوية منخفضة، من الأعلى)
- التركيز: ${focusArea}
**الإضاءة**:
- المصدر: ${lightSource}
- الجودة: ${lightQuality} (ناعمة، قاسية، منتشرة)
- وقت اليوم: ${timeOfDay}
**لوحة الألوان**: ${colors}
**المزاج/الأجواء**: ${mood}
**يجب تضمين**: ${includeElements}
**يجب تجنب**: ${avoidElements}
**تقني**: نسبة العرض إلى الارتفاع ${aspectRatio}، جودة عاليةبناء المشهد
للمشاهد المعقدة، صف الطبقات من المقدمة إلى الخلفية.
ابنِ مشاهد معقدة بوصف ما يظهر في كل طبقة من العمق.
ولّد مشهدًا مفصلاً:
**المكان**: ${setting}
**المقدمة** (الأقرب للمشاهد):
${foreground}
**الأرضية الوسطى** (منطقة الحدث الرئيسي):
${middleGround}
**الخلفية** (العناصر البعيدة):
${background}
**التفاصيل الجوية**:
- الطقس/الهواء: ${weather}
- الإضاءة: ${lighting}
- الوقت: ${timeOfDay}
**الأسلوب**: ${artisticStyle}
**المزاج**: ${mood}
**لوحة الألوان**: ${colors}
تفاصيل إضافية للتضمين: ${additionalDetails}أوامر الصوت
معالجة الصوت تفتح إمكانيات النسخ والتحليل وفهم المحتوى المنطوق. المفتاح هو توفير السياق حول ما يحتويه الصوت.
النسخ المحسّن
النسخ الأساسي هو مجرد البداية. مع الأوامر الجيدة، يمكنك الحصول على تحديد المتحدثين والطوابع الزمنية والدقة الخاصة بالمجال.
احصل على نسخ دقيقة مع تسميات المتحدثين والطوابع الزمنية ومعالجة الأقسام غير الواضحة.
انسخ هذا التسجيل الصوتي.
**السياق**: ${recordingType} (اجتماع، مقابلة، بودكاست، محاضرة، إلخ)
**المتحدثون المتوقعون**: ${speakerCount} (${speakerRoles})
**المجال**: ${domain} (المصطلحات التقنية المتوقعة: ${technicalTerms})
**تنسيق المخرجات**:
[00:00] **المتحدث 1 (الاسم/الدور)**: النص المنسوخ هنا.
[00:15] **المتحدث 2 (الاسم/الدور)**: ردهم هنا.
**التعليمات**:
- ضمّن الطوابع الزمنية عند الفواصل الطبيعية (كل 30-60 ثانية أو عند تغيير المتحدث)
- حدد الأقسام غير الواضحة كـ [غير مسموع] أو [غير واضح: أفضل تخمين؟]
- دوّن الأصوات غير الكلامية بين أقواس: [ضحك]، [رنين هاتف]، [صمت طويل]
- احتفظ بكلمات الحشو فقط إذا كانت ذات معنى (يمكن إزالة آه، أم)
- حدد أي عناصر عمل أو قرارات برمز ←
وصف الصوت: ${audioDescription}تحليل محتوى الصوت
بالإضافة إلى النسخ، يمكن للذكاء الاصطناعي تحليل المحتوى والنبرة واللحظات المهمة في الصوت.
احصل على تحليل شامل لمحتوى الصوت يشمل الملخص واللحظات الرئيسية والمشاعر.
حلل هذا التسجيل الصوتي:
وصف الصوت: ${audioDescription}
قدم:
**1. ملخص تنفيذي** (2-3 جمل)
عن ماذا هذا التسجيل؟ ما الاستنتاج الرئيسي؟
**2. المتحدثون**
- كم عدد المتحدثين المميزين؟
- الخصائص (إذا أمكن تمييزها): النبرة، أسلوب الكلام، مستوى الخبرة
**3. تفصيل المحتوى**
- المواضيع الرئيسية التي نوقشت (مع الطوابع الزمنية التقريبية)
- النقاط الرئيسية المطروحة
- الأسئلة المثارة
**4. التحليل العاطفي**
- النبرة العامة (رسمية، عادية، متوترة، ودية)
- اللحظات العاطفية الملحوظة
- مستوى الطاقة طوال التسجيل
**5. العناصر القابلة للتنفيذ**
- القرارات المتخذة
- عناصر العمل المذكورة
- المتابعات المطلوبة
**6. اقتباسات ملحوظة**
استخرج 2-3 اقتباسات مهمة مع الطوابع الزمنية
**7. جودة الصوت**
- الوضوح العام
- أي مشاكل (ضوضاء خلفية، انقطاعات، مشاكل تقنية)أوامر الفيديو
الفيديو يجمع بين التحليل البصري والصوتي عبر الوقت. التحدي هو توجيه الذكاء الاصطناعي للتركيز على الجوانب ذات الصلة طوال المدة الكاملة.
فهم الفيديو
احصل على تفصيل منظم لمحتوى الفيديو يشمل الجدول الزمني والعناصر البصرية واللحظات الرئيسية.
حلل هذا الفيديو: ${videoDescription}
قدم تحليلاً شاملاً:
**1. نظرة عامة** (2-3 جمل)
عن ماذا هذا الفيديو؟ ما الرسالة أو الغرض الرئيسي؟
**2. الجدول الزمني للحظات الرئيسية**
| الطابع الزمني | الحدث | الأهمية |
|---------------|-------|---------|
| 0:00 | ... | ... |
**3. التحليل البصري**
- المكان/الموقع: أين يحدث هذا؟
- الأشخاص: من يظهر؟ ماذا يفعلون؟
- الأشياء: العناصر أو الدعائم الرئيسية المعروضة
- الأسلوب البصري: الجودة، التحرير، الرسومات المستخدمة
**4. التحليل الصوتي**
- الكلام: النقاط الرئيسية المطروحة (إذا كان هناك حوار)
- الموسيقى: النوع، المزاج، كيفية استخدامها
- المؤثرات الصوتية: العناصر الصوتية الملحوظة
**5. جودة الإنتاج**
- جودة الفيديو والتحرير
- الإيقاع والهيكل
- الفعالية لغرضه
**6. الجمهور المستهدف**
لمن صُنع هذا الفيديو؟ هل يخدمهم جيدًا؟
**7. النقاط الرئيسية**
ما الذي يجب أن يتذكره المشاهد من هذا الفيديو؟استخراج محتوى الفيديو
لاستخراج معلومات محددة من الفيديوهات، كن دقيقًا حول ما تحتاجه.
استخرج معلومات محددة من الفيديوهات مع الطوابع الزمنية والمخرجات المنظمة.
استخرج معلومات محددة من هذا الفيديو:
نوع الفيديو: ${videoType}
وصف الفيديو: ${videoDescription}
**المعلومات المطلوب استخراجها**:
1. ${extractItem1}
2. ${extractItem2}
3. ${extractItem3}
**تنسيق المخرجات**:
{
"video_summary": "وصف موجز",
"duration": "الطول المقدر",
"extracted_data": [
{
"timestamp": "MM:SS",
"item": "ما تم العثور عليه",
"details": "سياق إضافي",
"confidence": "عالية/متوسطة/منخفضة"
}
],
"items_not_found": ["قائمة بأي شيء مطلوب لكنه غير موجود"],
"additional_observations": "أي شيء ذي صلة لم يُطلب صراحة"
}التركيبات متعددة الوسائط
القوة الحقيقية للذكاء الاصطناعي متعدد الوسائط تظهر عندما تجمع أنواعًا مختلفة من المدخلات. هذه التركيبات تمكن من تحليل سيكون مستحيلاً مع وسيط واحد فقط.
التحقق من الصورة + النص
تحقق مما إذا كانت الصور وأوصافها متطابقة—ضروري للتجارة الإلكترونية ومراقبة المحتوى وضمان الجودة.
تحقق من أن الصور تمثل أوصافها النصية بدقة والعكس.
حلل هذه الصورة ونصها المرافق للتوافق:
**الصورة**: ${imageDescription}
**الوصف النصي**: "${textDescription}"
قيّم:
**1. تطابق الدقة**
- هل تُظهر الصورة ما يصفه النص؟
- النتيجة: [1-10] مع التفسير
**2. الادعاءات النصية مقابل الواقع البصري**
| الادعاء في النص | مرئي في الصورة؟ | ملاحظات |
|-----------------|------------------|---------|
| ... | نعم/لا/جزئي | ... |
**3. العناصر البصرية غير المذكورة**
ما هو المرئي في الصورة لكنه غير موصوف في النص؟
**4. الادعاءات النصية غير المرئية**
ما هو الموصوف في النص لكن لا يمكن التحقق منه من الصورة؟
**5. التوصيات**
- للنص: [تحسينات لمطابقة الصورة]
- للصورة: [تحسينات لمطابقة النص]
**6. التقييم العام**
هل هذا الزوج من الصورة والنص موثوق به لـ ${purpose}؟تصحيح الأخطاء بلقطة الشاشة + الكود
أحد أقوى التركيبات للمطورين: رؤية الخلل البصري إلى جانب الكود.
صحح مشاكل واجهة المستخدم بتحليل كل من المخرجات البصرية والكود المصدري معًا.
لدي خلل في واجهة المستخدم. إليك ما أراه والكود الخاص بي:
**وصف لقطة الشاشة**: ${screenshotDescription}
**ما هو الخطأ**: ${bugDescription}
**السلوك المتوقع**: ${expectedBehavior}
**الكود ذو الصلة**:
```${language}
${code}
```
يرجى مساعدتي في:
**1. تحليل السبب الجذري**
- ما في الكود يسبب هذه المشكلة البصرية؟
- أي سطر (أسطر) مسؤول؟
**2. الشرح**
- لماذا ينتج هذا الكود هذه النتيجة البصرية؟
- ما هي الآلية الأساسية؟
**3. الإصلاح**
```${language}
// الكود المصحح هنا
```
**4. الوقاية**
- كيفية تجنب هذا النوع من الأخطاء في المستقبل
- أي مشاكل ذات صلة يجب التحقق منهاصنع القرار متعدد الصور
عند الاختيار بين الخيارات، المقارنة المنظمة تساعد في اتخاذ قرارات أفضل.
قارن صورًا متعددة بشكل منهجي وفق معاييرك لاتخاذ قرارات مستنيرة.
أنا أختار بين هذه الخيارات لـ ${purpose}:
**الخيار أ**: ${optionA}
**الخيار ب**: ${optionB}
**الخيار ج**: ${optionC}
**معاييري** (بترتيب الأهمية):
1. ${criterion1} (الوزن: عالي)
2. ${criterion2} (الوزن: متوسط)
3. ${criterion3} (الوزن: منخفض)
قدم:
**مصفوفة المقارنة**
| المعيار | الخيار أ | الخيار ب | الخيار ج |
|---------|----------|----------|----------|
| ${criterion1} | النتيجة + ملاحظات | ... | ... |
| ${criterion2} | ... | ... | ... |
| ${criterion3} | ... | ... | ... |
**النتائج المرجحة**
- الخيار أ: X/10
- الخيار ب: X/10
- الخيار ج: X/10
**التوصية**
بناءً على أولوياتك المذكورة، أوصي بـ [الخيار] لأن...
**التحفظات**
- إذا [الحالة]، فكر في [البديل] بدلاً من ذلك
- احذر من [المشكلة المحتملة]أفضل الممارسات للأوامر متعددة الوسائط
الحصول على نتائج رائعة من الذكاء الاصطناعي متعدد الوسائط يتطلب فهم قدراته وقيوده.
ما الذي يجعل الأوامر متعددة الوسائط فعالة
أخبر النموذج ما هي الوسائط ولماذا تحللها
"هذه صورة منتج لموقع التجارة الإلكترونية الخاص بنا..."
اسأل عن عناصر معينة بدلاً من الانطباعات العامة
"ركز على جدول الأسعار في الزاوية العلوية اليمنى"
حدد مناطق معينة باستخدام اللغة المكانية
"في الربع السفلي الأيسر..."
اشرح لماذا ستستخدم التحليل
"أحتاج أن أقرر إذا كانت هذه الصورة تصلح لتطبيقنا المحمول"
المزالق الشائعة التي يجب تجنبها
قد تفوت النماذج التفاصيل الصغيرة، خاصة في الصور منخفضة الدقة
لا تسأل عن نص 8 نقاط في لقطة شاشة مضغوطة
الكتابة اليدوية والخطوط غير المعتادة والتخطيطات المعقدة قد تسبب أخطاء
تحقق من النص المستخرج من الإيصالات والنماذج
النماذج لها قيود على أنواع معينة من المحتوى
لن تحدد أفرادًا محددين أو تحلل محتوى غير لائق
تحقق دائمًا من المعلومات الحرجة المستخرجة من الوسائط
تحقق مرتين من الأرقام والتواريخ والأسماء من استخراج المستندات
التعامل مع القيود بأناقة
هذا الأمر يتعامل صراحة مع الحالات التي لا يستطيع فيها النموذج الرؤية بوضوح أو غير متأكد.
حلل هذه الصورة: ${imageDescription}
**تعليمات للتعامل مع عدم اليقين**:
إذا لم تستطع رؤية شيء بوضوح:
- لا تخمن أو تختلق تفاصيل
- قل: "أستطيع رؤية [ما هو مرئي] لكن لا أستطيع تمييز [العنصر غير الواضح] بوضوح"
- اقترح ما المعلومات الإضافية التي ستساعد
إذا بدا المحتوى مقيدًا:
- اشرح ما يمكنك وما لا يمكنك تحليله
- ركز على الجوانب المسموح بها من التحليل
إذا سُئلت عن أشخاص:
- صف الأفعال والمواقع والخصائص العامة
- لا تحاول تحديد أفراد محددين
- ركز على: عدد الأشخاص، الأنشطة، التعبيرات، الملابس
**تحليلك**:
[تابع التحليل، مطبقًا هذه الإرشادات]لماذا صياغة الأوامر أكثر أهمية للنماذج متعددة الوسائط من النماذج النصية فقط؟