EU Data

Posted: **Wed Jan 29, 2025 4:13 am**

在我们继续之前，我想快速浏览一下设置 Luminous 时应了解的最重要参数。 Aleph Alpha 主页上有相应的文档。有些参数是强制性的，必须始终指定，其他参数是可选的。在 Aleph Alpha，您可以了解不同的任务。例如，一项任务是将文本嵌入语言模型可以使用的数学表示形式，或者总结文本输入。

最重要的终点是完成。您可以使用它来设计自己的摘要、评估或问答说明，然后嵌入和解释。您不需要更多端点来实现您的想法。

必修/选修描述
强制的 Luminous 模型家族包括各种成员。
强制的提示是与语言模型交互的自然语言指令。本文稍后将详细介绍这一点。 Luminous 的最大上下文长度 = 2,048 个标记（相当于大约 2.5 个 DIN A4 页）。这意味着您的输入和输出总计不应超过大约 2,048 个令牌。
强制的指定要生成的令牌的最大数量。然后输出被取消。
选修的模型输出的创造力会受到温度的影响。或者从统计学上来说：输出的“随机概率”受到影响。温度 = 0 会减少机会或迫使模型具有确定性。这对于文档分类或命名实体识别领域的应用尤为重要。高温允许更多医疗邮件列表的机会，这意味着出现概率较低的输出候选也有“机会”。这在生成新文本时特别有利。
选修的从某种意义上说，top_k 的作用与温度相同。同样，较高的值会鼓励模型输出更加随机。也就是说，例如，如果 k = 3，则将随机选择三个最有可能的候选者之一，而不是最有可能的候选者。
选修的
在某种程度上，Top_p 与 Top_k 做同样的事情，但这里的值 p 不是表示为整数，而是表示为连续数。选择一组最佳候选者，其总和导致概率大于设定值top_p。

温度、top_k和top_p不能同时使用。
选修的已经生成的令牌再次生成的机会减少了。不依赖现有令牌。要求：repetition_penalties_include_prompt = true。
选修的该参数与presence_penalty有类似的功能。但是，这取决于已存在的令牌数量。要求：repetition_penalties_include_prompt = true。
选修的较高的值会降低生成已包含在提示中的令牌的概率。要求：repetition_penalties_include_prompt = true。
选修的遵循前面解释的三个参数提示的先决条件。如果不打算重复模型输出，这一点尤其重要。
选修的上述三个参数的输出中考虑的先决条件。如果不打算重复模型输出，这一点尤其重要。
选修的最好的n个候选输出被输出。
选修的将中止语音生成的字符列表。
强制性（“解释”）这是要解释的输出结果。此条目仅与“解释”相关。
可选（用于“解释”）可以选择解释的粒度。选择：标记、单词、句子、段落、自定义。此条目仅与“解释”相关。
参数名称
模型（字符串）
提示（对象）
最大令牌（整数）
温度（数）
top_k（整数）
顶部_p（数字）
存在惩罚（数量）
频率惩罚（数量）
序列惩罚（数字）
repetition_penalties_include_prompt（布尔值）
repetition_penalties_include_completion（布尔值）
最好的（整数）
停止序列（字符串）
目标（字符串）
提示粒度（对象）
R前提条件
为了能够使用 R 访问 Aleph Alpha API，您需要图 4 中第 9 行到第 10 行所示的库。您需要用于解析 PDF 文档的 PDF 工具（第 27 至 28 行）和 Reticulate 才能使用 Python。您需要的其他 Python 包如第 16 至 19 行所示。我们将在下一节中介绍 Python 和 Jinja 文件。例如，在图 4 中，我加载了一份（公开可用的）法院判决，我希望获得（由机器）生成的特定页面的简短摘要。您可以在控制台或图 5 中找到生成的摘要。

EU Data

您可以在下表中找到基本参数

您可以在下表中找到基本参数