2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

系统安装、升级讨论
版面规则
我们都知道新人的确很菜,也喜欢抱怨,并且带有浓厚的Windows习惯,但既然在这里询问,我们就应该有责任帮助他们解决问题,而不是直接泼冷水、简单的否定或发表对解决问题没有任何帮助的帖子。乐于分享,以人为本,这正是Ubuntu的精神所在。
OUC_LiuX
帖子: 26
注册时间: 2018-02-06 20:12
系统: ubuntu 16.04 LTS

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#16

帖子 OUC_LiuX » 2018-02-10 11:36

poloshiao 写了:
390为 ubuntu-drivers devices 的 recommended.
https://packages.ubuntu.com/search?suit ... chon=names
Ubuntu 官方套件庫 沒有 nvidia-390

猜測 你加了 某些 ppa 套件庫
是否支援 nvidia-settings ?
待確認
驱动安装方式为ppa 安装;ppa源为 ppa:graphics-drivers/ppa
请问 是否需要卸载并以 .run 文件形式重装驱动?
poloshiao
论坛版主
帖子: 18279
注册时间: 2009-08-04 16:33

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#17

帖子 poloshiao » 2018-02-10 12:13

是否需要卸载并以 .run 文件形式重装驱动?
目前 沒有合適的專有閉源驅動 作用中
先查查
1. sudo lsmod | grep -i nvidia
2. sudo lsmod | grep -i nouveau
3. sudo lsmod | grep -i vulkan
4. sudo dpkg -l | grep -i nvidia
把結果全部複製貼上來
OUC_LiuX
帖子: 26
注册时间: 2018-02-06 20:12
系统: ubuntu 16.04 LTS

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#18

帖子 OUC_LiuX » 2018-02-10 12:29

poloshiao 写了:
是否需要卸载并以 .run 文件形式重装驱动?
目前 沒有合適的專有閉源驅動 作用中
先查查
1. sudo lsmod | grep nvidia
2. sudo lsmod | grep nouveau
3. sudo dpkg -l | grep nvidia
把結果全部複製貼上來
1-1:~$ sudo lsmod | grep nvidia
无输出

1-2:~$ sudo lsmod | grep nouveau
无输出

1-3:~$ sudo dpkg -l | grep nvidia
ii nvidia-384 384.111-0ubuntu0.16.04.1 amd64 NVIDIA binary driver - version 384.111
ii nvidia-opencl-icd-384 384.111-0ubuntu0.16.04.1 amd64 NVIDIA OpenCL ICD
ii nvidia-prime 0.8.2 amd64 Tools to enable NVIDIA's Prime
ii nvidia-settings 390.25-0ubuntu0~gpu16.04.1 amd64 Tool for configuring the NVIDIA graphics driver
poloshiao
论坛版主
帖子: 18279
注册时间: 2009-08-04 16:33

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#19

帖子 poloshiao » 2018-02-10 12:32

追加
sudo lsmod | grep -i vulkan
OUC_LiuX
帖子: 26
注册时间: 2018-02-06 20:12
系统: ubuntu 16.04 LTS

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#20

帖子 OUC_LiuX » 2018-02-10 12:33

poloshiao 写了:追加
sudo lsmod | grep -i vulkan
~$ sudo lsmod | grep -i vulkan
无输出
poloshiao
论坛版主
帖子: 18279
注册时间: 2009-08-04 16:33

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#21

帖子 poloshiao » 2018-02-10 12:38

ii nvidia-settings 390.25-0ubuntu0~gpu16.04.1 amd64 Tool for configuring the NVIDIA graphics driver
把這個移除 重新安裝 nvidia-settings 361 或 384

<因事外出 PM 16:00 以後 繼續 >
OUC_LiuX
帖子: 26
注册时间: 2018-02-06 20:12
系统: ubuntu 16.04 LTS

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#22

帖子 OUC_LiuX » 2018-02-10 15:23

poloshiao 写了:
ii nvidia-settings 390.25-0ubuntu0~gpu16.04.1 amd64 Tool for configuring the NVIDIA graphics driver
把這個移除 重新安裝 nvidia-settings 361 或 384

<因事外出 PM 16:00 以後 繼續 >
已做出相关改动,现在附加驱动如下:
软件和更新_001.png
3 ~$ sudo dpkg -l | grep nvidia
ii nvidia-384 384.111-0ubuntu0.16.04.1 amd64 NVIDIA binary driver - version 384.111
ii nvidia-opencl-icd-384 384.111-0ubuntu0.16.04.1 amd64 NVIDIA OpenCL ICD
ii nvidia-prime 0.8.2 amd64 Tools to enable NVIDIA's Prime
ii nvidia-settings 361.42-0ubuntu1 amd64 Tool for configuring the NVIDIA graphics driver

依然nvidia-smi无命令,
nvidia-settings:
NVIDIA X Server Settings_002.png
nvidia-detector = none
poloshiao
论坛版主
帖子: 18279
注册时间: 2009-08-04 16:33

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#23

帖子 poloshiao » 2018-02-10 16:14

選擇第二項
是什麼內容 ?
附件
2018021010242802.png
OUC_LiuX
帖子: 26
注册时间: 2018-02-06 20:12
系统: ubuntu 16.04 LTS

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#24

帖子 OUC_LiuX » 2018-02-10 16:23

poloshiao 写了:選擇第二項
是什麼內容 ?

是 nvidia-setting的软件配置信息:
NVIDIA X Server Settings_001.png
poloshiao
论坛版主
帖子: 18279
注册时间: 2009-08-04 16:33

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#25

帖子 poloshiao » 2018-02-10 16:27

依然nvidia-smi无命令,
1. http://manpages.ubuntu.com/manpages/pre ... smi.1.html
nvidia-smi [OPTION1 [ARG1]] [OPTION2 [ARG2]] ...
NVSMI provides monitoring information for each of NVIDIA's Tesla devices and each of its high-end Fermi-based and Kepler-based Quadro devices.
2. GM107M [GeForce GTX 950M] 並非 Tesla 系列
2-1. 參閱
2-1-1. https://zh.wikipedia.org/wiki/NVIDIA_Te ... B%E5%88%97
2-1-2. https://zh.wikipedia.org/wiki/NVIDIA%E9 ... 7%E8%A1%A8
poloshiao
论坛版主
帖子: 18279
注册时间: 2009-08-04 16:33

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#26

帖子 poloshiao » 2018-02-10 16:45

ii nvidia-prime 0.8.2 amd64 Tools to enable NVIDIA's Prime
1. 但是
NVIDIA X Server Settings_001.png
沒有 PRIME Profiles
如下

图片

2. 詳細參見 下述網頁 及其連結文章
2-1. https://askubuntu.com/questions/858030/ ... in-16-04-1
nvidia prime in NVIDIA X Server Settings (in 16.04.1)
2-2. 特別是
https://askubuntu.com/questions/661922/ ... idia-prime
How am I supposed to use nvidia-prime?

3. 如果有 PRIME Profiles
可以用來切換 Intel 及 nvidia
OUC_LiuX
帖子: 26
注册时间: 2018-02-06 20:12
系统: ubuntu 16.04 LTS

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#27

帖子 OUC_LiuX » 2018-02-10 17:11

poloshiao 写了:
ii nvidia-prime 0.8.2 amd64 Tools to enable NVIDIA's Prime
1. 但是
NVIDIA X Server Settings_001.png
沒有 PRIME Profiles
如下

图片

2. 詳細參見 下述網頁 及其連結文章
2-1. https://askubuntu.com/questions/858030/ ... in-16-04-1
nvidia prime in NVIDIA X Server Settings (in 16.04.1)
2-2. 特別是
https://askubuntu.com/questions/661922/ ... idia-prime
How am I supposed to use nvidia-prime?

3. 如果有 PRIME Profiles
可以用來切換 Intel 及 nvidia
包括上一条回答中引用的链接内容,我都看过了。
关于nvidia-smi 与 Tesla :
很抱歉我没有对 gpu 相关知识有过学习,我仅仅依靠多次在 GeForce GTX 950m 的笔记本电脑上顺利配置 caffe-gpu 环境的经验作出了 nvidia-smi 命令返回显卡信息 可以作为n卡驱动安装成功并可以应用 的依据 的判断。

关于援引的askubuntu相关问答:
How am I supposed to use nvidia-prime? 提出的问题和我所遇到的问题高度相似,该问题下的回答(包括prime-indicator)都是我所尝试过的方法,然而我认为存在的根本问题,机器无法识别n卡 在 “ lspci | grep -i vga” 条目并未得到解决。

另外,在win10 系统下做测试,结果是n卡可以正常使用。非硬件故障。
poloshiao
论坛版主
帖子: 18279
注册时间: 2009-08-04 16:33

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#28

帖子 poloshiao » 2018-02-10 22:46

我认为存在的根本问题,机器无法识别n卡 在 “ lspci | grep -i vga” 条目并未得到解决。
现在使用lspci:
lspci | grep -i vga
00:02.0 VGA compatible controller: Intel Corporation HD Graphics 530 (rev 06)
lspci | grep -i 3d
01:00.0 3D controller: NVIDIA Corporation GM107M [GeForce GTX 950M] (rev a2)
1. lspci 識別沒問題

2. 開機
把下面指令 複製 貼進終端機 執行
2-1. /usr/bin/nvidia-settings # 不要加 sudo
2-2. sudo apt install pastebinit
2-3. sudo journalctl --no-pager | pastebinit
稍待 會回應 http://paste.ubuntu.com/xxxxxxx # xxxxxxx 是一組數字
2-4. 把 http://paste.ubuntu.com/xxxxxxx 貼上來
nvidia-setting不再包括n卡。
2-5. 目的
要檢查你執行 nvidia-settings 的記錄 以及 有沒有 失敗或錯誤 的記錄
OUC_LiuX
帖子: 26
注册时间: 2018-02-06 20:12
系统: ubuntu 16.04 LTS

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#29

帖子 OUC_LiuX » 2018-02-11 11:22

poloshiao 写了:
我认为存在的根本问题,机器无法识别n卡 在 “ lspci | grep -i vga” 条目并未得到解决。
现在使用lspci:
lspci | grep -i vga
00:02.0 VGA compatible controller: Intel Corporation HD Graphics 530 (rev 06)
lspci | grep -i 3d
01:00.0 3D controller: NVIDIA Corporation GM107M [GeForce GTX 950M] (rev a2)
1. lspci 識別沒問題

2. 開機
把下面指令 複製 貼進終端機 執行
2-1. /usr/bin/nvidia-settings # 不要加 sudo
2-2. sudo apt install pastebinit
2-3. sudo journalctl --no-pager | pastebinit
稍待 會回應 http://paste.ubuntu.com/xxxxxxx # xxxxxxx 是一組數字
2-4. 把 http://paste.ubuntu.com/xxxxxxx 貼上來
nvidia-setting不再包括n卡。
2-5. 目的
要檢查你執行 nvidia-settings 的記錄 以及 有沒有 失敗或錯誤 的記錄
抱歉,上午未登入系统。

~$ sudo journalctl --no-pager | pastebinit
http://paste.ubuntu.com/=ZH2jNp9NHr/
poloshiao
论坛版主
帖子: 18279
注册时间: 2009-08-04 16:33

Re: 2018.02.08更新后ubuntu1604LTS后不能使用nvidia卡做gpu运算的问题

#30

帖子 poloshiao » 2018-02-11 13:35

1. 使用 nvidia 搜尋
Feb 11 11:11:40 liuxiang-Lenovo-XiaoXin-700-15ISK kernel: nvidia: loading module not compiled with retpoline compiler.
Feb 11 11:11:40 liuxiang-Lenovo-XiaoXin-700-15ISK kernel: nvidia: module verification failed: signature and/or required key missing - tainting kernel
Feb 11 11:11:40 liuxiang-Lenovo-XiaoXin-700-15ISK kernel: nvidia: Unknown symbol swiotlb_map_sg_attrs (err 0)
1-1. 先查查 retpoline compiler
1-1-1. http://rglinuxtech.com/?p=2205
There is further protection – retpoline – that depends on compiler features, which have already been incorporated into beta GCC 8.X, and are due to be ‘backported’ to the next mainstream 7.X release – GCC 7.3.
1-1-1-1. 這需要 GCC 8
1-1-1-2. https://packages.ubuntu.com/search?suit ... chon=names
目前 gcc-8 還未進入 ubuntu 官方套件庫
uname -a
Linux liuxiang-Lenovo-XiaoXin-700-15ISK 4.15.0-999-generic #201802062100 SMP Wed Feb 7 02:02:26 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux
2. https://packages.ubuntu.com/search?suit ... chon=names
4.15 的 kernel 版本 還沒進入 Ubuntu 官方套件庫
2-1. 意思是 你在體驗測試版本, 會碰到問題是可以預期的

3. 補充說明
nvidia Optimus 顯卡 需要 linux kernel 及 nvidia-xxx 閉源驅動 相容 或說 相搭
單方面 提昇版本 可能會破壞這種相容相搭關係
3-1. 參見
https://wiki.ubuntu.com/X/Config/Hybrid ... quirements
Feb 11 11:11:40 liuxiang-Lenovo-XiaoXin-700-15ISK kernel: nvidia: module verification failed: signature and/or required key missing - tainting kernel
3-2. https://www.linuxquestions.org/question ... ost5314496
All that means, is that you're loading a kernel module that hasn't been fully tested/integrated with the kernel you're running. This message was intended to identify conditions which may make it difficult to properly troubleshoot a kernel problem.

4. 建議
如果是 Ubuntu 16.04.3
最新的 Ubuntu 官方支援版本 Linux kernel 4.4
目前最新版本 4.4.0-104-generic
4-1. https://wiki.ubuntu.com/XenialXerus/Rel ... kernel_4.4
4-2. https://packages.ubuntu.com/xenial/linu ... 04-generic
4-3. 如果你要使用 Ubuntu 17.04/17.10/18.04 的 kernel 版本 在目前的 16.04 系統
請參見
https://wiki.ubuntu.com/Kernel/RollingL ... ementStack
RollingLTSEnablementStack
4-4. 避免 直接安裝不適合的 kernel 版本
除非你是有興趣體驗或研發
否則不要使用非穩定版本的核心
回复