1.4.1 多模态能力_大模型应用开发：核心技术与领域实践-QQ阅读女生幻言网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.4.1 多模态能力

多模态是指结合了文本、图像、语音、视频等多种数据形式的模型。OpenAI发布的GPT-4V，不仅仅可以通过文字来对话，还可以通过语音和图片进行沟通。文生视频模型Sora充分利用GPT-4V多模态认知模型为视频训练标注的高质量数据，能够生成分钟级时长的视频。尤其是Sora对物理规律的模仿，已经具备了一定程度的世界模拟器能力，有望向世界模型进化。Google发布的多模态大模型Gemini，无缝跨域文本、图像、音频和视频，可实现对超长文本的处理以及对长时音视频的理解，进一步丰富了应用场景。

多模态技术的持续进步，在丰富用户多维和沉浸式体验、提高多模态数据处理效率、理解复杂的现实世界场景、创新各种新产品形态和新服务形式等多方面，将产生巨大的价值。结合行业知识，多模态大模型有望应用于视频内容分析、语音识别结合文本理解、互动广告、交通态势感知、制造业产品研发设计、农业生产检测和优质育种等众多场景。

本周热推：

Arduino开发实战指南：机器人卷智能机器人制作完全手册互联网下半场 AI源码解读：推荐系统案例（Python版）Serverless架构下的AI应用开发：入门、实战与性能优化