1860 字
9 分钟
GPU服务器开局教程
2024-08-17

GPU服务器开局教程#

本次实验环境:Ubuntu 22.04 LTS#

CAUTION

拥有一个良好的网络环境是此类折腾的基础

旁边要有个正常的AI随时可以问

网络代理#

  1. 最优解决方案设置旁路由,将流量发到旁路由之上

  2. 使用xray(XTLS/Xray-install: Easiest way to install & upgrade Xray. (github.com)配置运行 | Project X (xtls.github.io)

    1. 设置终端走代理(让终端走代理的几种方法 | 王志文 (zwwangoo.github.io)

    2. 变相实现透明代理

      1. 使用mihomo转发全局流量(利用Clash进行透明代理的抓包新姿势 - Is Yang’s Blog (isisy.com)
      2. 使用tun2socks转发全局流量(Examples · xjasonlyu/tun2socks Wiki (github.com)
XTLS
/
Xray-install
Waiting for api.github.com...
00K
0K
0K
Waiting...
MetaCubeX
/
mihomo
Waiting for api.github.com...
00K
0K
0K
Waiting...
  1. 使用mihomo(Linux 系统 mihomo 安装教程 - axcsz/Collect GitHub Wiki (github-wiki-see.page)
  2. 谁家用web啊?(Debian / Ubuntu - v2rayA

驱动安装#

  • 若为Ubuntu系统,优先使用sudo ubuntu-drivers​,在 8卡 V100中sudo ubuntu-drivers autoinstall​可自动安装显卡驱动以及cuda环境(好评!!!)

    • 在A100中使用上述安装方法(未成功安装),官方源下载奇慢—>换清华源—>驱动缺失cuda

      • 可能原先环境未清除干净

        • 所使用的卸载命令sudo apt purge nvidia*
        • 但cuda目录,以及环境变量未进行清理(猜测环境变量占主要原因)
        • 也有可能是内核中所加载的驱动未进行卸载
  • 使用run方式进行驱动安装

      1. Nvidia驱动下载(下载 NVIDIA 官方驱动 | NVIDIA

      2. 删除原有驱动,安装依赖环境(Options)

        1. sudo apt-get remove --purge nvidia*
        2. sudo apt install gcc
        3. sudo apt install make #安装驱动需要依赖
      3. 禁用nouveau驱动

        1.  sudo gedit /etc/modprobe.d/blacklist.conf
          
        2. 编辑 /etc/modprobe.d/blacklist-nouveau.conf 文件,末行添加

          blacklist nouveau
          
        3.  sudo update-initramfs -u #更新
           reboot
          
      4. 验证nouveau是否已禁用(没有返回信息显示,说明nouveau已被禁用)

        lsmod | grep nouveau
        
      5. 安装nvidia驱动

        sudo chmod a+x NVIDIA-Linux-x86\_64-xxx.xx.run #给文件赋予执行权限
        sudo ./NVIDIA-Linux-x86\_64-xxx.xx.run
        
      6. 安装完毕后重启验证

        nvidia-smi
        

Miniconda3安装#

  1. 下载安装包Index of /anaconda/miniconda/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror
  2.  bash Miniconda3-latest-Linux-x86_64.sh #替换为所下载的sh文件名
    
  3. 换源(Options)

cuda安装#

Torch安装#

  • Start Locally | PyTorch此教程为基础进行安装
  • 注意cuda版本与torch的匹配,高版本cuda可以兼容低版本,为避免问题最好与之相等
  • 可以直接安装cuda然后torch在虚拟环境里面安装。我不好说跨环境引用情况

性能监控#

sudo apt install btop

btop

pip3 install nvitop

nvitop -m

环境测试#

  • cuda检测

    nvcc -version
    
  • Nvidia 系统管理接口

    nvidia-smi
    
  • Torch检测

    import torch
    if torch.cuda.is\_available():
    print("GPU is available")
    else:
    print("GPU is not available")
    

GPU 测试#

新遇到的问题#

具体应用#

  • ollama(已实现,详见另一篇文章)
  • vllm(待实现,据说对多卡推理优化极好)

GPU服务器开局教程
https://blog.sfunction.top/posts/gpu服务器开局教程/
作者
微茫之心
发布于
2024-08-17
许可协议
CC BY-NC-SA 4.0