Self-directed Learning

创建Azure Llama2 虚拟机

2023/09/09

具体步骤

在登录Azure Machine Leaning Studio之前,需要在Azure门户上新建一个资源组

Untitled

登录Azure Machine Leaning Studio

Untitled

新建workspace,选择之前创建的资源组

Untitled

进入到新的workspace,选择Model catalog,可以看到Introducing Llama2标签页

Untitled

选择需要创建的模型,使用Real-time endpoint的方式部署

Untitled

Real-time endpoint 以及 Batch endpoint

  • 联机终结点(Real-time endpoint):用于进行实时推理,当调用终结点时,会在终结点的响应中返回结果
  • 批处理终结点(Batch endpint):用于进行长时间运行的批处理推理,每次调用批处理终结点时,都会执行实际工作的批处理作业

根据用例需求,决定何时使用联机终结点和批处理终结点

  • 使用联机终结点来操作处理同步低延迟请求中的实时推理的模型,建议在下列情况中使用:
    • 有低延迟的需求(实际延迟根据所选设备的推理时间决定)
    • 需要模型在相对短的时间内响应请求
    • 模型的输入适合请求的HTTP有效负载
    • 需要根据请求数量进行纵向扩展(可以拆分流量)
  • 使用批处理终结点来操作模型或管道(预览),以便处理长时间运行的异步推理。建议在以下情况中使用:
    • 需要较长时间才能运行的高开销模型或管道
    • 希望操作机器学习管道并重用组建
    • 需要对分布在多个文件中的大量数据执行推理
    • 没有低延迟的要求
    • 模型的输入存储在Azure存储账户或Azure机器学习数据资产中

跳过Deploy with Azure AI Content Safety

Untitled

部署中会遇到配额不足的问题

Untitled

点击Click here to view and request quota申请配额,从对应的机型可以看到我们需要申请Standard NCSv3系列的配额,在列表中找到所需要的机型后勾选,在列表上端选择Request quota

Untitled

输入需要的配额数量,从对应的机型中可以看到两个型号:NC12s_v3NC24s_v3,表示两个型号的虚拟机每台各需要12核和24核的vCPU,根据所需要部署虚拟机的数量输入实际需要的配额,点击Submit提交

Untitled

在申请配额时会遇到一些其他问题:

  1. 没有模型所需要的虚拟机类型

Untitled

这种情况的问题是,创建Azure Machine Leaning Studio所在的region没有所需要的机型。例如:我在创建资源组时选择的regionUK South,但在这个区域是没有Llama2-70b模型可以适配的机型Standard_ND96asr_v4。我们可以在 Products available by region 中找到该机型可用的region,并在这个区域创建machine leaning workspace

Untitled

  1. 申请配额失败

Untitled

目前这个错误,您可以在线提交工单来解决这个问题,在workspace页面点击右上角的问号,选择New support request

Untitled

选择创建支持请求,根据向导提示完成工单的创建,等待客服人员的回复。

Untitled

在申请到配额之后,可以在配额页面看到所有配额,并重新配置工作区的配额。

Untitled

这样我们再创建Llama2-7b模型的时候,就会显示适配模型的机型了

Untitled

点击部署等待VM创建和模型预配完成,预配的时间比较长,需要耐心等待一段时间。

Untitled

当模型预配成功之后,切换到使用标签,获取REST Endpoint,以及Access Key

Untitled

现在来测试一下模型,为了快速测试我使用了Postman,新建一个Http Request,使用POST方法,填入之前获取的 REST Endpoint ,并在 Authorization 标签页中设置 Bearer Token ,填入 Access Key

Untitled

切换到 Body 标签页,选中 raw ,切换到 JSON ,并填入以下内容:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
{
"input_data": {
"input_string":
[
{"role": "system", "content": "You are a robot assistant answering math questions"},
{"role": "user", "content": "What is the square of the sum of 7 plus 14? "}
],
"parameters":
{
"max_length": 400,
"temperature": 1,
"top_p": 1,
"do_sample": true,
"max_new_tokens": 500
}
}
}

点击 Send , 我们将会看到调用返回:

Untitled

CATALOG
  1. 1. 具体步骤