多模态大模型(如GPT-4V、Gemini)的指令需结合模态特性设计:
文本模态:侧重逻辑结构与语言约束(如“用三段论论证观点”);
图像模态:需明确图像内容指向(如“分析图中柱状图的增长趋势,指出2010-2020年增速最快的类别”)或任务类型(如“描述图片中的场景,识别所有文字内容”);
音频模态:需指定音频特征提取目标(如“提取这段对话的情感基调,标注语速变化节点”);
跨模态指令:需关联多模态信息(如“结合图片中的流程图与文本说明,解释该技术的核心步骤”)。设计时需确保指令清晰指向目标模态,避免跨模态信息混淆。
相关阅读