前沿热点：AIGC技术周报｜图灵测试不是AGI的智力标准；SegGPT：在上下文中分割一切；ChatGPT能玩好文字游戏吗？

来源：CSDN博客　2023-04-10 10:04:14

牙科的未来：从多模态大型语言模型窥探

ChatGPT 是由 OpenAI 开发的具有数十亿参数的里程碑式大型语言模型（LLM）之一。LLM 因其在自然语言处理任务中令人印象深刻的技能对广泛的领域产生了深远的影响。一项最新的研究探讨了 LLM 在牙科领域的未来应用。研究介绍了牙科中两种主要的 LLM 部署方法，分别是自动牙科诊断和跨模态牙科诊断。下图展示了根据带有自然语言生成（NLG）的关键字生成的患者记录的叙述输出示例。其中，借助配备的跨模态编码器，单个 LLM 可以管理多源数据并进行高级自然语言推理以执行复杂的临床操作。研究通过提出一个用例来展示全自动多模态 LLM AI 系统在牙科临床应用中的潜力。虽然 LLM 提供了显着的潜在好处，但数据隐私、数据质量和模型偏差等挑战需要进一步研究。总体而言，LLM 有可能彻底改变牙科诊断和治疗，这表明牙科临床应用和研究的前景广阔。

(相关资料图)

论文链接：

https://arxiv.org/abs/2304.03086

扮演佐克，ChatGPT能玩好文字游戏吗？

ChatGPT 和 GPT-4 等 LLM 展示了它们与人类用户交流的卓越能力。一项最新发布的技术报告调查了它们玩文字游戏的能力。在这种游戏中，玩家必须通过与游戏世界的对话来了解环境并做出反应。 Zork I（佐克）是一款非常经典的迷宫类文字游戏，需要角色遵循文化语言命令在大地下帝国中寻找宝藏：它在不同地点之间移动，并与物体互动；游戏程序充当叙述者，描述玩家的位置和动作的后果。 ChatGPT 在人类玩家的帮助下扮演 Zork。下图展示了这个过程的开始：游戏给出的内容被标为紫色；ChatGPT 所说的内容被标为绿色。

研究表明，与所有现有其他系统相比，ChatGPT 表现出了更好的性能，但仍然为较低的智能水平。确切地说，ChatGPT 无法通过玩游戏甚至阅读游戏手册来构建世界模型；它可能无法利用它已经拥有的世界知识；它无法随着比赛的进行推断出每一步的目标。

论文链接：

https://arxiv.org/abs/2304.02868

ChatGPT还需要思维链提示吗？

思维链（CoT）提示可以有效地从 LLM 中引出复杂的多步骤推理。例如，只需在 MultiArith 数据集的每个输入查询中添加 CoT 指令“让我们一步一步地思考”，GPT-3 的准确率就可以从 17.7% 提高到 78.7%。研究表明，在 ChatGPT 上，CoT 对某些任务（如算术推理）不再有效，而对其他推理任务仍然有效。似乎 ChatGPT 已经使用 CoT 进行了这些任务的训练，从而记住了指令，因此在应用于相同的查询时，即使没有 CoT，它也会隐含地遵循这样的指令。下图展示了由不同 LLM 在没有任何提示的情况下生成的算术推理任务的示例。研究观察到，ChatGPT 能够在没有 CoT 提示的指导下生成逐步的基本原理。GPT-3 和 Codex 在没有任何提醒的情况下无法生成推理步骤。

论文链接：

https://arxiv.org/abs/2304.03262

SegGPT：在上下文中分割一切

一项研究提出了一种名为 SegGPT 的通用模型，用于在上下文中对所有内容进行分割。将各种分割任务统一成一个通用的上下文学习框架，通过将它们转换成图像的相同格式来适应不同类型的分割数据。

SegGPT 的训练被制定为一个上下文着色问题，每个数据样本都采用随机颜色映射。目标是根据上下文完成各种任务，而不是依赖特定颜色。经过训练后，SegGPT 可以在图像中执行任意分割任务或通过上下文推理的视频，如对象实例、素材、部分、轮廓和文本。结果表明，无论是定性还是定量，都能很好地分割域内和域外目标。如下图所示，对于每个样本，左侧的橙色框显示示例/提示图像及其相应的掩码，而右侧的蓝色框显示输入图像和生成的掩码输出。掩码表示附加到图像的明亮区域。每个样本的说明（在黄色框中）仅用于说明。

值得注意的是，SegGPT 可以执行任意对象分割（分割场景的不同组件，如大红球、所有球、所有球的轮廓、顶部表面和阴影），多部分分割（自由女神像的特定部分）、彩虹分割、视频对象分割（没有训练视频）和可学习提示调整的密集语义分割。

参考链接：

https://arxiv.org/abs/2304.03284

图灵测试依然是AGI的标准吗？

即使在最前沿的通用人工智能（AGI）领域，人工系统和人类的差距也是极其明显的。尽管这种差异从根本上划分了每个人的能力，但人类水平的智能（HLI）几十年来一直是 AGI 的目标。该研究反对图灵测试的二元性，讨论了 AI 专家如何将模仿游戏误解为将计算机系统拟人化的一种手段，并断言 HLI 分散了当前对相关问题的研究。研究认为，图灵测试应该仅仅被视为 AGI 能力的展示，而不是其智力标准。同时，承认人类和 AI 两个系统之间的基本上下文差异需要区分每个系统的任务。二者应该专注于他们最擅长的任务：分别是抽象问题和专注的个人任务。

参考链接：

https://arxiv.org/abs/2304.00002

推荐DIY文章