Page 1 of 1

文论证过随机位置编码可以增强

Posted: Thu Dec 26, 2024 9:32 am
by rifat177
-Txt的挑战性主要源于它允许显式控制分布外泛化。然而每个问题都有清晰的多项式时间解法这意味当今典型M的参数量应该足以解决这些问题。 该数据集每种算法的每种输入规模包含一万个样本总共万个数据点其中用于训练用于验证。 训练细节 实验将th大小设置为训练了个h并使用m优化器学习率为-。 如前所述在所有hhm的旋转位置编码之上应用随机位置编码最大长度为且训练期间保持冻结。评估指标 作者提出合适的评估指标应该反映模型在特定样本上失败的原因且需要度量型输出与正确答案的接近程度。因此使用精确字符串匹配来计算模型准确性是绝对不可行的。



论文选择的性能指标 美国电话号码表 包括以下三个 . 形状分数一个二元指标用于判断输出是否具有正确的形状。例如在排序任务中输出应与输入有完全相同的元素数量。或者如果输出是一个矩阵我们需要确保其形状与输入和任务一致。 . 解析分数一个二元指标用于判断输出是否不含任何非法字符。例如在对数字列表进行排序的任务中输出不应包含任何字母。 .分数输出中与真实答案匹配的元素百分比也常用于-测试。形状分数为时分数也会自动置零。 这种多方面的指标设计能够捕捉到M在文本上进行推理任务的各种失败模式。 比如在某个问题规模上过度专门化训练导致输出的形状不正确无法处理看不见的数字组合导致解析错误由于推理错误造成的答案不一致则由分数反映。



结果 实验结果显示T整体上显著优于Tm模型在动态规划几何图贪心算法排序字符串等任务上的推理能力都有大幅提升。 并且在大多数单个算法上无论是在分布内还是分布外都表现更佳。 特别值得注意的是这种方法不仅增强了Tm原有的泛化能力还激发了一些模型先前完全不具备的能力。 比如hm扫描hm_最长公子串长度_th强连通分量这些经典问题中基线模型得分为零或接近零但T却实现了突破。 分析形状分数可以进一步解释为什么T表现如此出色。 首先回顾一下如果形状不匹配得分必然为零。 从形状得分来看将Tm的输出建立在嵌入基础上显著提高了答案中形状正确的比例——这表明T缓解了一种特定的M故障模式。