austin theory - 搜索 News

14 天

打脸！GPT-4o输出长度8k都勉强，陈丹琦团队新基准测试：所有模型 ...

目前现有的长上下文语言模型（long-context language models）的评估基准主要集中在长上下文回忆任务上，这些任务要求模型在处理大量无关信息的同时生成简短的响应，没有充分评估模型在整合分散信息和生成长输出方面的能力。

腾讯网15 天

打脸！GPT-4o输出长度8k都勉强，测试显示：模型输出都低于标称长度

目前现有的长上下文语言模型（long-context language models）的评估基准主要集中在长上下文回忆任务上，这些任务要求模型在处理大量无关信息的同时生成简短的响应，没有充分评估模型在整合分散信息和生成长输出方面的能力。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果