OpenAI如何格式化我的微调数据?

109次阅读
没有评论

要有效地进行微调,您需要正确设置数据格式,以便为模型提供关于从何处开始和停止生成文本的线索。

指标字符串

指示符字符串是您附加到提示末尾的符号或符号序列,以告诉模型您希望它在此字符串之后开始生成文本。

例如,如果您希望模型将项目分类为颜色,您可以使用像“->”这样的指示符字符串。数据集中的提示如下所示:

  • ‘香蕉->’

  • ‘石灰->’

  • ‘番茄->’

您可以使用任何字符串作为指示符字符串,只要它没有出现在数据集中的其他任何地方。我们建议使用“\n###\n”。

停止序列

停止序列是另一个特殊符号或符号序列,用于告诉模型您希望它在该点之后停止生成文本。

例如,如果您希望模型生成一个单词作为补全,您可以使用“\n”(换行符)或“.”等停止序列。(period) 来标记完成的结束,像这样:

  • ‘提示’:’香蕉->’,’完成’:’黄色\ n’

  • ‘提示’:’石灰->’,’完成’:’绿色\ n’

  • ‘提示’:’番茄->’,’完成’:’红色\ n’

调用模型

调用模型时,您应该使用数据集中使用的相同符号。如果您使用上面的数据集,您应该使用 ‘\n’ 作为停止序列。您还应该将“->”作为指示符字符串附加到您的提示中(例如提示:“柠檬 ->”)

对指示符字符串和停止序列使用一致且唯一的符号非常重要,并且它们不会出现在数据中的其他任何地方。否则,模型可能会混淆并生成不需要的或不正确的文本。

额外推荐

我们还建议在输出的开头附加一个空格字符。

准备好数据集后,您还可以使用我们的命令行工具来帮助格式化数据集。

ChatGPT中国体验版点击进入https://yundongfang.com/chatgpt.php

正文完
 
Windows12系统管理员
版权声明:本站原创文章,由 Windows12系统管理员 2023-02-09发表,共计674字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)