卡内基梅隆大学的研究人员推出了一个开源的自动代码生成器模型 PolyCoder,具有 27B 参数,基于 GPT-2 架构,在一台机器上对跨越 12 种编程语言的 249GB 代码进行了训练。训练结果表明,在 C 编程语言中,PolyCoder 优于包括 Codex 在内的所有模型。
“最近,代码的大型语言模型(LM)在完成代码和从自然语言描述中合成代码方面显示出巨大的前景。然而,目前最先进的代码 LM(如 Codex)并没有公开提供,留下许多关于他们的模型和数据设计决策的疑问。我们的目标是通过对各种编程语言中最大的现有模型的系统评估来填补其中的一些空白:Codex、GPT-J、GPT-Neo、GPT-NeoX20B 和 CodeParrot。尽管 Codex 本身不是开源的,但我们发现现有的开源模型在一些编程语言中确实取得了接近的结果,虽然主要针对的是自然语言建模。我们进一步确定了一个重要的缺失部分,即专门在多语言的代码语料库中训练的大型开源模型。”
研究人员指出,OpenAI 的 Codex 于去年 8 月https://arxiv.org/pdf/2202.13169.pdf
(文/开源中国)