Windows 下 Ollama 的安装与配置 | 人工智能 | 文章中心

Ollama 是一个开源的大型语言模型（LLM）平台，旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。它提供了一个简单的方式来加载和使用各种预训练的语言模型，支持文本生成、翻译、代码编写、问答等多种自然语言处理任务。其特点在于它不仅仅提供了现成的模型和工具集，还提供了方便的界面和 API，使得从文本生成、对话系统到语义分析等任务都能快速实现。

一、修改默认安装路径

Ollama的默认安装路径为：C:\Program Files\Ollama，如需指定其他安装路径（例如 D:\Ollama），请以管理员身份打开 CMD / PowerShell，执行以下命令：

.\OllamaSetup.exe /DIR="D:\ollama"

二、修改模型存储位置

修改环境变量，在“新建系统变量”窗口中，输入变量名OLLAMA_MODELS，变量值为希望的模型存储路径（例如 D:\AI_Models）。

三、基础环境变量配置

1、CUDA 环境配置

参数	值/作用说明	示例值
CUDA_PATH	CUDA Toolkit安装路径	C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6
CUDA_PATH_V12_6	CUDA 12.6专用路径	同上
CUDA_VISIBLE_DEVICES	指定可见GPU设备（通过 nvidia-smi 查询 ID）	0,1（启用GPU 0和1）

2、Ollama 环境配置

环境与变量	功能说明
OLLAMA_MODELS	表示模型文件的存放目录，默认目录为当前用户目录即 C:\Users%username%.ollama\models
OLLAMA_HOST	表示 Ollama 服务监听的网络地址，默认为127.0.0.1，如果想要允许其他电脑访问 Ollama（如局域网中的其他电脑），建议设置成 0.0.0.0
OLLAMA_PORT	表示 Ollama 服务监听的默认端口，默认为11434，如果端口有冲突，可以修改设置成其他端口（如8080等）
OLLAMA_ORIGINS	表示 HTTP 客户端的请求来源，使用半角逗号分隔列表，如果本地使用不受限制，可以设置成星号*
OLLAMA_MAX_QUEUE	表示请求队列长度，默认值为512，建议按照实际需求进行调整，超过队列长度的请求会被抛弃
OLLAMA_DEBUG	表示输出 Debug 日志，应用研发阶段可以设置成1 （即输出详细日志信息，便于排查问题）
OLLAMA_MAX_LOADED_MODELS	表示最多同时加载到内存中模型的数量，默认为1 （即只能有 1 个模型在内存中）

四、高级环境变量配置

1、GPU 资源管理

环境变量	功能说明	推荐值
OLLAMA_GPU_LAYER	强制使用CUDA分配GPU资源	cuda
OLLAMA_NUM_GPU	启用GPU数量（需与 `CUDA_VISIBLE_DEVICES`匹配）	2
OLLAMA_SCHED_SPREAD	GPU负载均衡策略（1=自动均衡）	1
OLLAMA_MAX_LOADED_MODELS	单GPU最大加载模型数（防止显存溢出）	3

2、服务与并发控制

参数	功能说明	推荐值
OLLAMA_HOST	表示 Ollama 服务监听的网络地址，默认为127.0.0.1，如果想要允许其他电脑访问 Ollama（如局域网中的其他电脑），建议设置成 0.0.0.0 = 允许所有IP访问	0.0.0.0
LLAMA_NUM_PARALLEL	表示请求处理的并发数量，默认为 1（即单并发串行处理请求，根据 GPU 算力调整）	3
OLLAMA_KEEP_ALIVE	表示大模型加载到内存中后的存活时间，默认为 5m 即 5 分钟（如纯数字300 代表 300 秒，0 代表处理请求响应后立即卸载模型。模型驻留时间（`-1`=永久驻留显存，避免重复加载）	-1