您可以在下表中找到基本参数
Posted: Wed Jan 29, 2025 4:13 am
在我们继续之前,我想快速浏览一下设置 Luminous 时应了解的最重要参数。 Aleph Alpha 主页上有相应的文档。有些参数是强制性的,必须始终指定,其他参数是可选的。在 Aleph Alpha,您可以了解不同的任务。例如,一项任务是将文本嵌入语言模型可以使用的数学表示形式,或者总结文本输入。
最重要的终点是完成。您可以使用它来设计自己的摘要、评估或问答说明,然后嵌入和解释。您不需要更多端点来实现您的想法。
必修/选修 描述
强制的 Luminous 模型家族包括各种成员。
强制的 提示是与语言模型交互的自然语言指令。本文稍后将详细介绍这一点。 Luminous 的最大上下文长度 = 2,048 个标记(相当于大约 2.5 个 DIN A4 页)。这意味着您的输入和输出总计不应超过大约 2,048 个令牌。
强制的 指定要生成的令牌的最大数量。然后输出被取消。
选修的 模型输出的创造力会受到温度的影响。或者从统计学上来说:输出的“随机概率”受到影响。温度 = 0 会减少机会或迫使模型具有确定性。这对于文档分类或命名实体识别领域的应用尤为重要。高温允许更多 医疗邮件列表 的机会,这意味着出现概率较低的输出候选也有“机会”。这在生成新文本时特别有利。
选修的 从某种意义上说,top_k 的作用与温度相同。同样,较高的值会鼓励模型输出更加随机。也就是说,例如,如果 k = 3,则将随机选择三个最有可能的候选者之一,而不是最有可能的候选者。
选修的
在某种程度上,Top_p 与 Top_k 做同样的事情,但这里的值 p 不是表示为整数,而是表示为连续数。选择一组最佳候选者,其总和导致概率大于设定值top_p。
温度、top_k和top_p不能同时使用。
选修的 已经生成的令牌再次生成的机会减少了。不依赖现有令牌。要求:repetition_penalties_include_prompt = true。
选修的 该参数与presence_penalty有类似的功能。但是,这取决于已存在的令牌数量。要求:repetition_penalties_include_prompt = true。
选修的 较高的值会降低生成已包含在提示中的令牌的概率。要求:repetition_penalties_include_prompt = true。
选修的 遵循前面解释的三个参数提示的先决条件。如果不打算重复模型输出,这一点尤其重要。
选修的 上述三个参数的输出中考虑的先决条件。如果不打算重复模型输出,这一点尤其重要。
选修的 最好的n个候选输出被输出。
选修的 将中止语音生成的字符列表。
强制性(“解释”) 这是要解释的输出结果。此条目仅与“解释”相关。
可选(用于“解释”) 可以选择解释的粒度。选择:标记、单词、句子、段落、自定义。此条目仅与“解释”相关。
参数名称
模型(字符串)
提示(对象)
最大令牌(整数)
温度(数)
top_k(整数)
顶部_p(数字)
存在惩罚(数量)
频率惩罚(数量)
序列惩罚(数字)
repetition_penalties_include_prompt(布尔值)
repetition_penalties_include_completion(布尔值)
最好的(整数)
停止序列(字符串)
目标(字符串)
提示粒度(对象)
R前提条件
为了能够使用 R 访问 Aleph Alpha API,您需要图 4 中第 9 行到第 10 行所示的库。您需要用于解析 PDF 文档的 PDF 工具(第 27 至 28 行)和 Reticulate 才能使用 Python。您需要的其他 Python 包如第 16 至 19 行所示。我们将在下一节中介绍 Python 和 Jinja 文件。例如,在图 4 中,我加载了一份(公开可用的)法院判决,我希望获得(由机器)生成的特定页面的简短摘要。您可以在控制台或图 5 中找到生成的摘要。
最重要的终点是完成。您可以使用它来设计自己的摘要、评估或问答说明,然后嵌入和解释。您不需要更多端点来实现您的想法。
必修/选修 描述
强制的 Luminous 模型家族包括各种成员。
强制的 提示是与语言模型交互的自然语言指令。本文稍后将详细介绍这一点。 Luminous 的最大上下文长度 = 2,048 个标记(相当于大约 2.5 个 DIN A4 页)。这意味着您的输入和输出总计不应超过大约 2,048 个令牌。
强制的 指定要生成的令牌的最大数量。然后输出被取消。
选修的 模型输出的创造力会受到温度的影响。或者从统计学上来说:输出的“随机概率”受到影响。温度 = 0 会减少机会或迫使模型具有确定性。这对于文档分类或命名实体识别领域的应用尤为重要。高温允许更多 医疗邮件列表 的机会,这意味着出现概率较低的输出候选也有“机会”。这在生成新文本时特别有利。
选修的 从某种意义上说,top_k 的作用与温度相同。同样,较高的值会鼓励模型输出更加随机。也就是说,例如,如果 k = 3,则将随机选择三个最有可能的候选者之一,而不是最有可能的候选者。
选修的
在某种程度上,Top_p 与 Top_k 做同样的事情,但这里的值 p 不是表示为整数,而是表示为连续数。选择一组最佳候选者,其总和导致概率大于设定值top_p。
温度、top_k和top_p不能同时使用。
选修的 已经生成的令牌再次生成的机会减少了。不依赖现有令牌。要求:repetition_penalties_include_prompt = true。
选修的 该参数与presence_penalty有类似的功能。但是,这取决于已存在的令牌数量。要求:repetition_penalties_include_prompt = true。
选修的 较高的值会降低生成已包含在提示中的令牌的概率。要求:repetition_penalties_include_prompt = true。
选修的 遵循前面解释的三个参数提示的先决条件。如果不打算重复模型输出,这一点尤其重要。
选修的 上述三个参数的输出中考虑的先决条件。如果不打算重复模型输出,这一点尤其重要。
选修的 最好的n个候选输出被输出。
选修的 将中止语音生成的字符列表。
强制性(“解释”) 这是要解释的输出结果。此条目仅与“解释”相关。
可选(用于“解释”) 可以选择解释的粒度。选择:标记、单词、句子、段落、自定义。此条目仅与“解释”相关。
参数名称
模型(字符串)
提示(对象)
最大令牌(整数)
温度(数)
top_k(整数)
顶部_p(数字)
存在惩罚(数量)
频率惩罚(数量)
序列惩罚(数字)
repetition_penalties_include_prompt(布尔值)
repetition_penalties_include_completion(布尔值)
最好的(整数)
停止序列(字符串)
目标(字符串)
提示粒度(对象)
R前提条件
为了能够使用 R 访问 Aleph Alpha API,您需要图 4 中第 9 行到第 10 行所示的库。您需要用于解析 PDF 文档的 PDF 工具(第 27 至 28 行)和 Reticulate 才能使用 Python。您需要的其他 Python 包如第 16 至 19 行所示。我们将在下一节中介绍 Python 和 Jinja 文件。例如,在图 4 中,我加载了一份(公开可用的)法院判决,我希望获得(由机器)生成的特定页面的简短摘要。您可以在控制台或图 5 中找到生成的摘要。