本文第一作者是徐婷,是香港中文大学博士生,主要研究兴趣是大模型的后训练;通讯作者分别是黄志超和程善伯,来自字节跳动Seed团队。 现在,这些问题迎来了新的解决方案。来自香港中文大学、字节跳动 Seed 和斯坦福大学的研究团队联手提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT) 该方法将同传任务巧妙地建模为序贯决策过程,通过优化完整的决策序列,显著提升了翻译质量,同时有效控制了延迟,其性能直逼、甚至在某些方面超越了同等大小的离线翻译模型。 同声传译的核心在于机器需要动态地决定 “继续听”(READ)还是 “开始说”(WRITE)。这个决策直接影响最终的翻译效果。例如,当模型接收到英文单词 “bark” 时,它面临一个困境:如果立即翻译,可能会译为 “狗叫”,但若后文出现 “of the tree”,则正确翻译应为 “树皮”。 传统的同传方法,它每一步决策(是继续听,还是开始翻译)都是孤立的。它可能会因为眼前的 “小利”(比如翻译出一个词)而牺牲掉全局的 “大利”(整个句子的流畅度和准确性)。 针对这一难点,该论文提出了 SeqPO-SiMT 框架。其核心思想是将同声传译任务建模为一个序贯决策问题,综合评估整个翻译流程的翻译质量和延迟,并对整个决策序贯进行端到端的优化。 该方法的主要特点是:它不再孤立地评估每一步决策的好坏,而是将一整句话的翻译过程(即一个完整的决策序贯)视为一个整体,更符合人类对同传的评估过程。 为了验证方法的有效性,研究者们在多个公开的英汉互译测试集上进行了实验,并与多种现有的同传模型进行了对比。实验结果显示:在低延迟水平下,SeqPO-SiMT 框架生成的译文质量相较于基线模型有明显提升。 本文将 SeqPO-SiMT 的实时同传结果与多个高性能模型的离线翻译结果进行对比。结果显示,SeqPO-SiMT 的翻译质量不仅优于监督微调(SFT)的离线模型及 LLaMA-3-8B,其表现甚至能媲美乃至超越 Qwen-2.5-7B 的离线翻译水平。这表明该方法在 70 亿参数(7B)规模上实现了业界顶尖(SoTA)的性能。 总的来说,SeqPO-SiMT 这项工作的主要贡献在于,为解决同声传译中的质量 - 延迟权衡问题提供了一个新的视角。它强调了对决策 “序贯” 进行整体优化的重要性。该研究提出的方法,对于需要进行实时、连续决策的自然语言处理任务具有一定的参考意义,并为未来开发更高效、更智能的同声传译系统提供了有价值的探索。
XL上司第2季末增减“为皇马效力是梦想成真,我不需要多说皇马,我们都知道。它是欧冠冠军最多、世界上最好的俱乐部。这是我人生中的一个新的挑战,非常美好。”今年灰熊将从贝恩交易中获得的魔术无保护首轮签上移5个顺位,这笔交易价值存疑。这并非否定科沃德(他在我的纯数据模型中排名第13),但我会等到科沃德或卡特-布莱恩特(第14顺位)其中之一被选走后再行动。XL上司第2季末增减床上108种插杆方式例如,在初始摄像机图像中没有完全显示标签,Helix就可以调用前一时刻的图像帧,并控制手部将包裹旋转至标签可见的记忆角度。迪马济奥表示,尤文已开始在转会市场上有所行动,其引援目标不仅局限于攻击线。事实上,尤文希望引进一名实力强劲的中场球员来增强中场的实力。
20250815 💌 XL上司第2季末增减对于这些深入人心的影视角色,用户在一些更为细节的发音特征上或许感知并不是很强烈,但在讯飞星火App自定义创建声音的场景中,用户对发音人复刻效果的要求更高,这对声音复刻功能提出了更大挑战。17c这种仿佛美军在长期的伊拉克和阿富汗战争时期的偏科最终导致伊朗在本次战争中吞下了致命的苦果:其空军部队不止无法拦截入侵者的航空器与弹药,甚至还要羞辱地避战保机。
📸 方俊荣记者 凌俊恒 摄
20250815 👄 XL上司第2季末增减由于Papi症状严重,高度疑似中毒,李依涵带着它转移到顺义区一家更大的宠物医院做血透。Papi求生意志顽强,医生也尽全力抢救,可惜小狗最终还是在晚上7时10分死亡。少女国产免费观看高清电视剧大全“本周我与部分新兴市场投资基金经理沟通发现,他们认为年内人民币汇率再度跌回7.2的几率相对较低,除非美元突然大幅回升。但近期中东局势紧张并未令美元避险属性发酵与美元快速回升,令他们更有底气看好人民币未来升值前景。”这位香港银行外汇交易员向记者指出。
📸 陈希军记者 席俊 摄
💦 整整四个小时的演出,本该是密集 “抖包袱” 逗大家乐的相声表演,结果岳云鹏花了不少时间唱歌,还带着观众大合唱,生生把相声专场变成了 “KTV 现场” 。姐姐让我戴上避孕套歌曲原唱