当前位置:首页>文章中心>人工智能>Windows 下 Ollama 的安装与配置

Windows 下 Ollama 的安装与配置

发布时间:2025-09-11 点击次数:13

Ollama 是一个开源的大型语言模型(LLM)平台,旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。它提供了一个简单的方式来加载和使用各种预训练的语言模型,支持文本生成、翻译、代码编写、问答等多种自然语言处理任务。其特点在于它不仅仅提供了现成的模型和工具集,还提供了方便的界面和 API,使得从文本生成、对话系统到语义分析等任务都能快速实现。

一、修改默认安装路径

Ollama的默认安装路径为:C:\Program Files\Ollama,如需指定其他安装路径(例如 D:\Ollama),请以管理员身份打开 CMD / PowerShell,执行以下命令:

.\OllamaSetup.exe /DIR="D:\ollama"

二、修改模型存储位置

修改环境变量,在“新建系统变量”窗口中,输入变量名OLLAMA_MODELS,变量值为希望的模型存储路径(例如 D:\AI_Models)。

三、基础环境变量配置

1、CUDA 环境配置

参数 值/作用说明 示例值
CUDA_PATH CUDA Toolkit安装路径 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6
CUDA_PATH_V12_6 CUDA 12.6专用路径 同上
CUDA_VISIBLE_DEVICES 指定可见GPU设备(通过 nvidia-smi 查询 ID) 0,1(启用GPU 0和1)

2、Ollama 环境配置

环境与变量 功能说明
OLLAMA_MODELS 表示模型文件的存放目录,默认目录为当前用户目录即 C:\Users%username%.ollama\models
OLLAMA_HOST 表示 Ollama 服务监听的网络地址,默认为127.0.0.1,如果想要允许其他电脑访问 Ollama(如局域网中的其他电脑),建议设置成 0.0.0.0
OLLAMA_PORT 表示 Ollama 服务监听的默认端口,默认为11434,如果端口有冲突,可以修改设置成其他端口(如8080等)
OLLAMA_ORIGINS 表示 HTTP 客户端的请求来源,使用半角逗号分隔列表,如果本地使用不受限制,可以设置成星号*
OLLAMA_MAX_QUEUE 表示请求队列长度,默认值为512,建议按照实际需求进行调整,超过队列长度的请求会被抛弃
OLLAMA_DEBUG 表示输出 Debug 日志,应用研发阶段可以设置成1 (即输出详细日志信息,便于排查问题)
OLLAMA_MAX_LOADED_MODELS 表示最多同时加载到内存中模型的数量,默认为1 (即只能有 1 个模型在内存中)

四、高级环境变量配置

1、GPU 资源管理

环境变量 功能说明 推荐值
OLLAMA_GPU_LAYER 强制使用CUDA分配GPU资源 cuda
OLLAMA_NUM_GPU 启用GPU数量(需与 CUDA_VISIBLE_DEVICES匹配) 2
OLLAMA_SCHED_SPREAD GPU负载均衡策略(1=自动均衡) 1
OLLAMA_MAX_LOADED_MODELS 单GPU最大加载模型数(防止显存溢出) 3

2、服务与并发控制

参数 功能说明 推荐值
OLLAMA_HOST 表示 Ollama 服务监听的网络地址,默认为127.0.0.1,如果想要允许其他电脑访问 Ollama(如局域网中的其他电脑),建议设置成 0.0.0.0 = 允许所有IP访问 0.0.0.0
LLAMA_NUM_PARALLEL 表示请求处理的并发数量,默认为 1(即单并发串行处理请求,根据 GPU 算力调整) 3
OLLAMA_KEEP_ALIVE 表示大模型加载到内存中后的存活时间,默认为 5m 即 5 分钟(如纯数字300 代表 300 秒,0 代表处理请求响应后立即卸载模型。模型驻留时间(-1=永久驻留显存,避免重复加载) -1

微信公众号

028-13085881145