具体步骤
在登录Azure Machine Leaning Studio之前,需要在Azure门户上新建一个资源组

登录Azure Machine Leaning Studio

新建workspace,选择之前创建的资源组

进入到新的workspace,选择Model catalog,可以看到Introducing Llama2标签页

选择需要创建的模型,使用Real-time endpoint的方式部署

Real-time endpoint 以及 Batch endpoint
- 联机终结点(
Real-time endpoint):用于进行实时推理,当调用终结点时,会在终结点的响应中返回结果 - 批处理终结点(
Batch endpint):用于进行长时间运行的批处理推理,每次调用批处理终结点时,都会执行实际工作的批处理作业
根据用例需求,决定何时使用联机终结点和批处理终结点
- 使用联机终结点来操作处理同步低延迟请求中的实时推理的模型,建议在下列情况中使用:
- 有低延迟的需求(实际延迟根据所选设备的推理时间决定)
- 需要模型在相对短的时间内响应请求
- 模型的输入适合请求的HTTP有效负载
- 需要根据请求数量进行纵向扩展(可以拆分流量)
- 使用批处理终结点来操作模型或管道(预览),以便处理长时间运行的异步推理。建议在以下情况中使用:
- 需要较长时间才能运行的高开销模型或管道
- 希望操作机器学习管道并重用组建
- 需要对分布在多个文件中的大量数据执行推理
- 没有低延迟的要求
- 模型的输入存储在Azure存储账户或Azure机器学习数据资产中
跳过Deploy with Azure AI Content Safety

部署中会遇到配额不足的问题

点击Click here to view and request quota申请配额,从对应的机型可以看到我们需要申请Standard NCSv3系列的配额,在列表中找到所需要的机型后勾选,在列表上端选择Request quota

输入需要的配额数量,从对应的机型中可以看到两个型号:NC12s_v3和NC24s_v3,表示两个型号的虚拟机每台各需要12核和24核的vCPU,根据所需要部署虚拟机的数量输入实际需要的配额,点击Submit提交

在申请配额时会遇到一些其他问题:
- 没有模型所需要的虚拟机类型

这种情况的问题是,创建Azure Machine Leaning Studio所在的region没有所需要的机型。例如:我在创建资源组时选择的region是UK South,但在这个区域是没有Llama2-70b模型可以适配的机型Standard_ND96asr_v4。我们可以在 Products available by region 中找到该机型可用的region,并在这个区域创建machine leaning workspace

- 申请配额失败

目前这个错误,您可以在线提交工单来解决这个问题,在workspace页面点击右上角的问号,选择New support request

选择创建支持请求,根据向导提示完成工单的创建,等待客服人员的回复。

在申请到配额之后,可以在配额页面看到所有配额,并重新配置工作区的配额。

这样我们再创建Llama2-7b模型的时候,就会显示适配模型的机型了

点击部署等待VM创建和模型预配完成,预配的时间比较长,需要耐心等待一段时间。

当模型预配成功之后,切换到使用标签,获取REST Endpoint,以及Access Key

现在来测试一下模型,为了快速测试我使用了Postman,新建一个Http Request,使用POST方法,填入之前获取的 REST Endpoint ,并在 Authorization 标签页中设置 Bearer Token ,填入 Access Key

切换到 Body 标签页,选中 raw ,切换到 JSON ,并填入以下内容:
1 | { |
点击 Send , 我们将会看到调用返回:
