大模型应用开发:核心技术与领域实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4.1 多模态能力

多模态是指结合了文本、图像、语音、视频等多种数据形式的模型。OpenAI发布的GPT-4V,不仅仅可以通过文字来对话,还可以通过语音和图片进行沟通。文生视频模型Sora充分利用GPT-4V多模态认知模型为视频训练标注的高质量数据,能够生成分钟级时长的视频。尤其是Sora对物理规律的模仿,已经具备了一定程度的世界模拟器能力,有望向世界模型进化。Google发布的多模态大模型Gemini,无缝跨域文本、图像、音频和视频,可实现对超长文本的处理以及对长时音视频的理解,进一步丰富了应用场景。

多模态技术的持续进步,在丰富用户多维和沉浸式体验、提高多模态数据处理效率、理解复杂的现实世界场景、创新各种新产品形态和新服务形式等多方面,将产生巨大的价值。结合行业知识,多模态大模型有望应用于视频内容分析、语音识别结合文本理解、互动广告、交通态势感知、制造业产品研发设计、农业生产检测和优质育种等众多场景。