目录

服务器Linux新账户搭建Pytorch深度学习环境

服务器(Linux)新账户搭建Pytorch深度学习环境

以前都是用Anaconda管理环境,这次试试Miniconda。二者创建新环境的能力上是完全一样的,区别仅仅在于初始的base环境中预装的东西多少。

1. 下载并运行Miniconda安装脚本

可以在官网找到相应安装命令:

先判断自己的系统类型,命令行输入

uname -m
# 我这里的输出:x86_64

然后找到对应系统类型的安装命令

mkdir -p ~/miniconda3

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh

bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3

rm ~/miniconda3/miniconda.sh

安装完成后刷新一下

source ~/miniconda3/bin/activate

初始化conda

conda init --all

输入以下命令检查是否安装成功

conda --version
conda -V
# 两个命令功能相同

如果不想自动激活base环境

conda config --set auto_activate_base false

最后为了以防万一,再刷新一下

source ~/.bashrc

2. 配置国内镜像源(根据需要配置)

我这里直接把我以前用过的全加进来了,具体哪个是有用的我也不清楚(。ì _ í。)

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2/linux-64
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2/noarch
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/linux-64
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/noarch
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r/linux-64
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r/noarch
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/linux-64
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/noarch
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/noarch
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/msys2/linux-64
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/msys2/noarch
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/r/linux-64
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/r/noarch
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/linux-64
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/noarch

conda config --set show_channel_urls yes

设置完成后可以用下面的命令查看

conda info

3. conda环境管理的基本命令

# 创建 python = 3.9 的新环境
conda create -n <env_name> python=3.9
 
# 激活环境
conda activate <env_name>
 
# 退出环境
conda deactivate
 
# 列出所有环境
conda env list
 
# 删除环境
conda env remove -n <env_name>

4. 安装CUDA

这个是直接安装版本的,要安装在虚拟环境里面可以直接跳到第6步,建议安装在虚拟环境里面。****没有管理员权限的安装在虚拟环境里会容易很多。

查看服务器支持的CUDA版本

nvidia-smi

安装的CUDA版本要 ≤ 查询到的版本,并且要有与之对应的Pytorch版本(可以再Pytorch官网查询: )。

https://i-blog.csdnimg.cn/direct/cbd22b5e4647465882e1b90d0c8e6453.png

https://i-blog.csdnimg.cn/direct/a9c752a85002454ab3cdffcd352a0e8f.png

最好不要安装最新版本的,要不然后面可能会有一系列的问题出现。。。这里我安装CUDA 12.6,这个是支持Ubuntu24.04的第一个版本

https://i-blog.csdnimg.cn/direct/727bc4ce56774094a4489d7ccf5e803d.png

输入以下命令安装

wget https://developer.download.nvidia.com/compute/cuda/12.6.0/local_installers/cuda_12.6.0_560.28.03_linux.run

sudo sh cuda_12.6.0_560.28.03_linux.run

# 非root用户可以不敲 sudo

https://i-blog.csdnimg.cn/direct/5ae4335368444c65b509dc6ce4bb4ba6.png

这里accept

https://i-blog.csdnimg.cn/direct/26eedc4dd5984b6b8886734071176ab1.png

只安装CUDA Toolkit就行,Driver勾选的话会报错(方向键和空格控制)

然后进入Options选项

https://i-blog.csdnimg.cn/direct/e5f667f5f950482f992ff92576034d09.png

修改Toolkit Options路径,选择Change Toolkit Install Path,将默认路径修改至个人目录下,点击Enter确认

https://i-blog.csdnimg.cn/direct/277743bc8c874984b74b4695c3e72536.png

将下面的选项取消选定,选择Done,确认退出

https://i-blog.csdnimg.cn/direct/ad3c9ac3869249c9a371d2aeae681015.png

选择Library install path (Blank for system default)添加之前一样的路径并Enter确认退出

https://i-blog.csdnimg.cn/direct/977df92e2ff04bea9db2f902384424ae.png

然后选择Done,回到之前步骤Install安装

https://i-blog.csdnimg.cn/direct/b7e2df6d1e614839a005f61a4a10dcfd.png

安装完成会报提示

https://i-blog.csdnimg.cn/direct/d2ac54703a584dd1a38cf8f936251cd4.png

修改环境变量,命令行输入vim ~/.bashrc,添加以下信息

export CUDA_HOME=$CUDA_HOME:/{your_path}/CUDA12.6
export PATH=$PATH:/{your_path}/CUDA12.6/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/{your_path}/CUDA12.6/lib64

然后刷新一下

source ~/.bashrc

到这里CUDA就安装完成了。可以用 nvcc -V 命令验证是否安装成功

https://i-blog.csdnimg.cn/direct/91f912ce231c4c5eac2c5150c9b4abeb.png

5. 安装cuDNN

查看cuDNN与CUDA版本对应表

https://i-blog.csdnimg.cn/direct/2d26083d614b4ef287b54fc654b99599.png

通过官网 下载cuDNN

https://i-blog.csdnimg.cn/direct/7f2a20418bdf4d1f80a50ef72c58c677.png

wget https://developer.download.nvidia.com/compute/cudnn/9.8.0/local_installers/cudnn-local-repo-ubuntu2404-9.8.0_1.0-1_amd64.deb

安装cuDNN

sudo dpkg -i cudnn-local-repo-ubuntu2404-9.8.0_1.0-1_amd64.deb

sudo cp /var/cudnn-local-repo-ubuntu2404-9.8.0/cudnn-*-keyring.gpg /usr/share/keyrings/

sudo apt-get update

sudo apt-get -y install cudnn-cuda-12

到这里,如果没有root权限,无法sudo安装的话,上面这个安装方式是行不通的,智能安装8.x版本的cuDNN,下载其压缩包,解压后替换相应文件(如果有9.x的压缩包可以在评论区留个链接,好人一生平安(。ì _ í。))

https://i-blog.csdnimg.cn/direct/099910704b754e74a84fb255d33913b1.png

选择需要的版本,下载下来上传到服务器,然后解压文件

tar -zxvf cudnn*.tgz

此时当前目录下会出现一个cuda文件夹,复制其中的文件到CUDA安装目录

cp cuda/include/cudnn.h ../CUDA12.6/include/
cp cuda/lib64/libcudnn* ../CUDA12.6/lib64/

修改权限后,cudnn安装完成

chmod a+r ../CUDA12.6/include/cudnn.h ../CUDA12.6/lib64/libcudnn*

6. conda虚拟环境安装CUDA和cuDNN

虚拟环境里安装省事,省心,强烈推荐!!!

首先查看源内所有的cuda 版本以及下载地址

conda search cudatoolkit --info

https://i-blog.csdnimg.cn/direct/fe0b5878507c459ca5cfaec71eeef748.png

复制url字段里的下载链接,然后执行如下代码下载

wget https://repo.anaconda.com/pkgs/main/linux-64/cudatoolkit-11.8.0-h6a678d5_0.conda

进入目标环境后(conda activate py39)再执行安装命令

conda install cudatoolkit-11.8.0-h6a678d5_0.conda

卸载CUDA可用如下命令

conda remove cuda

查看cudnn支持的cuda版本,注意cudnn的版本一定要和刚刚下载的cuda版本对应。

conda search cudnn --info

https://i-blog.csdnimg.cn/direct/f20ecae4e7d44a2488f407bbb3152b23.png

还是使用wget + url下载,然后安装

wget https://repo.anaconda.com/pkgs/main/linux-64/cudnn-8.9.2.26-cuda11_0.conda

conda install cudnn-8.9.2.26-cuda11_0.conda

在虚拟环境中安装完cuda和cudnn想要测试是否安装成功,不能使用nvcc -V命令测试,需要在虚拟环境中安装pytorch包进行测试。

7. 安装Pytorch

在官网 找到所需版本,根据给出的命令安装,安装的时候也是进入虚拟环境后再执行官网给出的命令

https://i-blog.csdnimg.cn/direct/62a4e868021e43cfada519788dd9d0c1.png

测试是否安装成功(CUDA,cuDNN和pytorch)

import torch

print(torch.__version__)
print(torch.cuda.is_available())
print(torch.version.cuda)
print(torch.backends.cudnn.version())

显示如下结果,表示安装成功。

https://i-blog.csdnimg.cn/direct/8861ae7295434150a90e4899bc9b7f72.png

以上内容均为本人多次踩坑后成功搭建好环境的过程记录,希望能帮到有需要的人。