推特看到关于GPT-4的预测,103万查看[胜利]。 如果GPT-4是多模态的,我
推特看到关于GPT-4的预测,103万查看[胜利]。如果GPT-4是多模态的,我们可以合理地预测GPT-4可能具备什么能力,考虑到微软之前的工作Kosmos-1: - 视觉智商测试:是的,就是人类参加的那种! - 无OCR阅读理解:输入屏幕截图、扫描文档、街道标志或任何包含文本像素。直接推断内容而不需要明确使用OCR。这对于在多媒体网页上解锁AI应用程序或来自真实世界摄像头的“野外文字”非常有用。 - 多模态聊天:关于一张图片进行对话。甚至可以在中途提供“后续”图像。- 广泛的视觉理解能力,如字幕、视觉问答、物体检测、场非会员试读19%,加入社区后可阅读全文
页:
[1]