LMM将会全面替代大语言模型?人工智能新里程碑GPT-V美国预先公测,医疗领域/OCR实践+166页GPT-V试用报告首发解读

ChatGPT Vision,亦被广泛称为GPT-V或GPT-4V,代表了人工智能技术的新里程碑。作为LMM (Large Multimodal Model) 的代表,它不仅继承了LLM (Large Language Model) 的文本处理能力,还加入了图像处理的功能,实现了文本与图像的多模态交互。与传统的LLM相比,GPT-V更加强大和灵活,能够更深入地理解和生成与图像相关的内容。这种进化打开了无数新的应用可能性,从图像描述、创意设计到复杂的图文结合任务,GPT-4V都展现出了卓越的性能和广泛的潜力。
使用方法:GPT-V目前对于美国区ChatGPT Plus账户开放。
相关链接:ChatGPT can now see, hear, and speak
相关介绍:GPTV_System_Card.pdf
166页GPT-V试用报告:Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
性能:对于ChatGPT4,速度比纯文本中文Prompt慢40%左右。(注意,当从GPT4切换到GPT-V后,纯文本中文Prompt速度提升了大概200%)
花费:$20美元一月,限速3小时25条,尚未开放API
调研版本:10-12 ChatGPT Vision(图片聊天/GPT多模态功能) ChatGPT September 25 Version
本文图片部分为实践(OCR/医学等),部分来自网络(推特/Arxiv试用报告),题图由ChatGPT DALL-E 3生成。
本文尝试从以下案例,对AI新里程碑LMM进行探索:

TLDR总结:
ChatGPT Vision更偏向于有创造性的图片理解,而非机器性细节识别。
ChatGPT Vision试图以大模型的涌现能力,从高层次理解整个图片,将图片如同文字一般对待,而非是OCR式的匹配识别。ChatGPT Vision和OCR的区别,与语义搜索和关键词搜索的区别类似。
ChatGPT Vision具有较大幻觉问题,Few-shot/CoT等Prompting方法也无法改善这一点(涌现能力不足),说明ChatGPT Vision仍处于像当年ChatGPT v3一样的初期阶段。预计未来几年随着参数规模的进一步提升,多模态大模型可能会复现文本大模型的发展路径。

(图1:Few-shot方法不能提高GPT-4V获取仪表板信息的准确性,红色代表回答错误)

(图2:CoT方法不能稳定质变提高GPT-4V数苹果的准确性,红色代表回答错误,绿色代表正确)
适用场景:
上下文概念性工作,如文章头图的自动审核初筛、皮肤病的照片辅助筛选,DR/CT照片影像学诊断,提供HTML alt text等。
图片创意性工作,如1.3节 商品销售文案生成、商品使用建议生成、商品创意名称生成等。
不适用场景:
有精确性要求的文字工作:如1.1节 患者诊疗单等OCR场景。
主体过多的复杂图片,如1.3节 前端网页代码复刻。
有潜力的场景:
清晰图片/截图的总结性工作,包括1.3节 图片的复杂理性/感性分析,如网络热图解释、教育场景
高纬度大模型推理,如1.3节 辨别电影/景点、客服、气候分析、设计图/网站设计建议等

(图3:研究者输入了多张购物账单小票/菜单图片,GPT-4V做出了正确回答)

(图4:对于使用箭头/画圈标识的图片,GPT-4V能做出了正确理解和回答)


患者诊疗单(给GPT的是原图,以下图片经过二次处理模糊了患者信息)



muin on X: "GPT-4V will be able to transcribe and translate manuscripts and texts. I am excited to try out Arabic manuscripts to see how well it does. It does a phenomenal job with transcription even better than most humans. 8faK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6@1i4K6u0W2j5$3!0Q4x3V1k6w2y4Y4V1$3g2$3k6X3e0s2k6*7" / X
图像来源:GitHub - linhandev/dataset: 医学影像数据集列表 『An Index for Medical Imaging Datasets』1ceK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6Y4K9i4c8Z5N6h3u0Q4x3X3g2U0L8$3#2Q4x3V1k6D9K9h3&6Z5j5h3&6V1k6i4k6Q4x3V1k6V1j5i4c8S2M7$3g2@1 43eK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6%4N6%4N6Q4x3X3g2C8j5h3N6Y4L8r3g2Q4x3X3g2U0L8$3#2Q4x3V1k6V1j5i4c8S2M7$3g2@1M7#2)9J5c8X3&6A6K9q4)9J5k6r3y4Z5k6i4y4@1i4K6u0V1P5s2u0S2P5i4y4Q4x3V1k6V1j5i4c8S2i4K6t1K6i4K6y4m8i4K6N6q4i4K6y4m8N6r3g2^5N6q4)9K6c8p5y4D9j5i4y4K6i4K6t1#2x3U0m8V1k6i4y4U0M7X3W2H3N6r3W2G2L8Y4y4Q4x3V1y4t1k6i4u0F1K9h3p5`.

1.肺炎:
◦置信度: 0.7
◦原因: X光片上下肺区的密度增加可能提示肺炎的存在,但根据图片无法明确确定。
2.肺水肿:
◦置信度: 0.6
◦原因: 下肺区的密度增加可能与液体积聚有关,如心力衰竭导致的肺水肿。
3.间质性肺病:
◦置信度: 0.5
◦原因: 有一些间质改变的迹象,但需要与先前的影像进行比较。
4.支气管炎:
◦置信度: 0.4
◦原因: 慢性支气管炎可能导致一些观察到的不透明度。
5.结核病:
◦置信度: 0.3
◦原因: 尽管结核病可表现为不透明和可能的固实化,但该图像并不强烈地表现出结核病的典型特征。
6.肺癌:
◦置信度: 0.2
◦原因: 虽然没有明确的结节或肿块,但由于X光在显示其他结构后面的小结节时的局限性,肺癌不能完全排除。
数据源:ISIC Archive
10fK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6Y4j5h3I4D9k6i4u0&6i4K6u0W2K9i4y4A6j5#2)9J5k6r3q4J5j5$3S2A6N6X3g2Q4x3X3g2U0L8$3#2Q4x3V1k6Q4x3U0y4Q4x3U0q4Q4x3V1k6@1L8%4m8i4K9i4c8Z5d9r3g2S2k6r3g2J5i4K6u0r3L8$3&6D9P5f1S2W2j5h3c8W2M7W2c8G2M7q4)9J5c8X3N6S2L8r3I4W2M7Y4W2Q4x3@1k6X3K9h3I4@1k6i4u0Q4x3@1c8Q4x3U0f1#2b7W2)9J5y4e0g2p5

◦ 信心分数: 0.6
▪ 原因: 该皮损表现出与常见痣相似的特征,中央有深色区域。50岁左右的人群中很常见。
◦ 信心分数: 0.4
▪ 原因: 老年性角化病是老年人中常见的非癌性皮肤生长,颜色可能会有所不同。
◦ 信心分数: 0.5
▪ 原因: 这类痣与常见痣有所不同,通常较大。鉴于大小 (1.4mm) 和位置 (下肢),需要考虑此诊断。
◦ 信心分数: 0.3
▪ 原因: 黑色素瘤是一种皮肤癌,虽然所提供的图像有可能与黑色素瘤一致的特征,但需要皮肤科医生进行全面评估才能确诊。
◦ 信心分数: 0.2
▪ 原因: 它是最常见的皮肤癌形式,但所提供的图像没有基底细胞癌的典型迹象。但鉴于患者的年龄,仍需考虑。
◦ 信心分数: 0.2
▪ 原因: 血管瘤是由血管组成的良性肿瘤。图像中的红色可能暗示这一点,但从整体外观看,可能性较小。
数据源:ISIC Archive

老年疣 - 置信度:0.7
黑色素痣 - 置信度:0.5
基底细胞癌 - 置信度:0.4
日光角化症 - 置信度:0.4
鳞状细胞癌 - 置信度:0.3
该图像显示了皮肤的放大视图,老年疣在头部和颈部区域较为常见,且经常出现在中老年人群中,因此我给予了较高的置信度。
(绿色代表正确,红色代表错误,黄色代表幻觉)





红色代表错误







Abran Maldonado on X: "One of my favorite demos I tested out, in honor of football season, ChatGPT Vision will forever change coaching and sports analytics. Whether i build it or not, ChatGPT for coaching will be on every sideline in the league. Mark my words. fa8K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6@1i4K6u0W2j5$3!0Q4x3V1k6#2g2g2W2Z5M7@1E0H3c8f1N6Z5" / X
幻觉(该运动员使用的是反手Backhand,而非正手forehand):




X: "ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). af8K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6@1i4K6u0W2j5$3!0Q4x3V1k6#2e0W2A6B7k6$3u0d9y4f1u0E0 521K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6@1i4K6u0W2j5$3!0Q4x3V1k6H3j5f1M7H3K9p5#2K6K9q4S2T1" / X



结果:

Mckay Wrigley on X: "You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane. b47K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6@1i4K6u0W2j5$3!0Q4x3V1k6T1c8#2N6f1y4h3u0g2z5p5#2w2" / X
c62K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6@1N6$3W2@1N6r3g2J5i4K6u0W2j5$3!0E0i4K6u0r3L8h3y4C8j5i4W2%4M7X3W2Y4L8r3g2&6i4K6u0r3M7%4c8S2N6s2g2K6i4K6u0r3x3e0M7H3y4K6p5H3x3e0b7$3y4e0V1J5x3U0b7#2x3K6M7H3x3b7`.`.
Pietro Schirano on X: "This is absolutely wild. I am completely speechless. 95eK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6@1i4K6u0W2j5$3!0Q4x3V1k6%4c8#2c8m8P5o6q4Z5c8X3N6e0" / X
bddK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6@1N6$3W2@1N6r3g2J5i4K6u0W2j5$3!0E0i4K6u0r3M7$3E0A6M7X3q4F1L8#2)9J5c8Y4y4@1j5i4c8#2M7#2)9J5c8U0p5%4x3o6j5^5y4K6b7K6x3o6V1I4x3U0b7I4z5e0b7%4x3o6N6Q4x3@1j5`.

Mckay Wrigley on X: "ChatGPT breaks down this diagram of a human cell for a 9th grader. This is the future of education. 6f1K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6@1i4K6u0W2j5$3!0Q4x3V1k6x3x3q4A6S2x3q4A6n7y4i4u0K6" / X
Alex Northstar on X: "Thanks ChatGPT, that can read & understand better than humans! 4e7K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6@1i4K6u0W2j5$3!0Q4x3V1k6f1k6#2k6e0N6f1S2Y4k6U0S2B7" / X
359K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6@1N6$3W2@1N6r3g2J5i4K6u0W2j5$3!0E0i4K6u0r3e0X3!0J5N6r3S2K6N6r3q4J5b7Y4u0S2K9h3&6Q4x3V1k6K6N6r3q4@1N6i4y4Q4x3V1j5I4y4K6l9%4y4U0j5^5y4U0l9H3x3U0R3I4x3o6j5K6y4e0p5@1

(图中,用户以不可见的浅色字添加了Sephora化妆品促销水印,人眼无法察觉,但GPT-V可感知)

(图中,用户以不可见的浅色字使GPT-4V一定对这份简历会给出雇佣建议)
当 GPT-4 在2023年3月首次发布时,GPT-4V面部识别功能可能存在安全和隐私问题,因此 GPT-4V(具备视觉功能的 GPT-4)被暂缓发布。
在早期的模型中,用户本可以理论上上传人物照片,并要求识别他们,这显然是对隐私的侵犯。根据技术论文,GPT-4V(为 ChatGPT Vision 提供支持)现在拒绝此类请求的时间达到了98%。

GPT-4V(ision) technical work and authors
作者:京东健康 李卓伦
来源:京东云开发者社区 转载请注明来源