コンテンツにスキップ

一般

Info

本ページのコマンドライン例では、以下の表記を使用します。
[login]$ : ログインノード
[rNnN]$ : 計算ノード
[login/rNnN]$ : ログインノードまたは計算ノード
[yourPC]$ : ログインノードへの接続元環境

TSUBAME4.0とは何ですか

TSUBAME4.0は東京科学大学 情報基盤センター(CII)が運用管理するスーパーコンピュータです。
TSUBAME4.0 は半精度以上で 952 PFlops の理論演算性能を持ち,従来型 HPC に加えてビッグデータ・ AI など幅広いワークロードを処理する日本最大級のスパコンとなります。

TSUBAMEはどのような目的に利用できますか

TSUBAMEの利用は教育・研究・事務・社会貢献目的に限ります。私的な金銭的利益に直結するような用途に利用することはできません。

TSUBAME4.0を利用するための条件を教えてください。

TSUBAME4.0の利用にはアカウントが必要です。
アカウントの種別は所属や利用する制度によって異なりますので、詳細についてはアカウント取得方法をご参照ください。

TSUBAME4.0利用までの流れについて

ここでいう「利用」はプログラムの実行のことを指します。

TSUBAME4.0を利用するまでに必要な主な作業は以下の通りです。
ログインだけであれば、2までの作業が完了すればログイン可能です。
利用には5までの作業が必要となります。
利用にあたって、25GiB以上のディレクトリの割り当てが必要な場合は6を行う必要があります。

  1. アカウント取得
  2. SSH鍵ペアの作成と公開鍵の登録
  3. グループの作成(グループ管理者)
  4. グループメンバの登録(グループ管理者とグループメンバ)
  5. TSUBAMEポイント購入(グループ管理者)
  6. グループディスクの設定(グループ管理者)

TSUBAMEを利用した論文での謝辞の記載方法を教えてください

謝辞の記載方法の文例は下記のページをご参照ください。
あくまでも例示ですので、他のスパコンや研究資金等の謝辞記載に合わせて記載を調整いただいても構いません。

TSUBAMEを利用した成果発表への謝辞記載のお願い

また、TSUBAMEの活用状況を把握するため、TSUBAMEポータルから書誌情報などの利用成果報告もお願いいたします。 利用報告の投稿方法は、下記利用の手引きをご覧ください。

TSUBAMEポータル利用の手引き 利用報告の管理

ログインノードと計算ノードの相違点

ログインノードと計算ノードの相違点は以下のとおりです。

ログインノード 計算ノード
ノード数 2 240
CPU AMD EPYC 7443 24-Core/2.85GHz x 2 AMD EPYC 9654 96-Core/2.4GHz x 2
メモリ 256GiB 768GiB
GPU なし NVIDIA H100 SXM5 × 4
ローカルストレージ なし 1.92TB

ログインノードは、共有サーバであるため、CPUやメモリを過度に占有するプログラムの実行などは行わないようお願いします。
詳細は利用の手引きをご参照ください。

1ディレクトリ当たりのファイル数の目安を教えてください

1ディレクトリあたりのファイル数が多くなると、当該ディレクトリ配下のファイルに対するメタデータ操作(ファイルの作成・削除・オープン)の際に処理時間が増大したり、ファイルシステムがエラーを出すことでファイルを作れなくなるなどの事象が発生します。

プログラムのファイルアクセス性能の面でも不利になりますので、 グループディスクを利用する場合でも、1ディレクトリ当たり1万ファイル以下を目安に、ファイルを階層的に配置することをお勧めいたします。
過去の問い合わせ例では、1ディレクトリあたり70,000ファイル程度の状況下でメタデータ操作によるアクセス遅延が発生しております。

例:

  • NG: 00000.dat ~ 99999.dat
    • 1ディレクトリに10万ファイルをフラットに配置すると、ファイルアクセス時の負荷が増大し、性能低下・障害の原因になります。
  • OK: 000/00000.dat ~ 000/00999.dat, 001/01000.dat ~ 001/01999.dat, …
    • 階層的に配置することで、1ディレクトリ当たりのファイル数を1000程度に抑えることで、メタデータ操作のコストを最小化できます。

初心者なのですが、何をすればよいのかわかりません

何に対する初心者なのかによって学習して頂く内容が異なります。

UNIX/Linuxの初心者の方

TSUBAME4の利用に際して、ユーザにはUNIX/Linuxの習熟度を要求しております。
UNIX/Linuxについてある程度のことがわかっている前提で、手引書などは準備されております。

手引書の内容がわからない場合は、付属図書館等でUNIX/Linuxの入門図書を読んでいただき、シェルやコマンド等の使い方を把握して下さい。

Info

講習会等のテキストに掲載されている「TSUBAME利用法 入門編(Linux基礎) 」、 P34「ファイル操作」~P70「moduleコマンドについて」に書かれた内容を理解・実践できる程度の習熟度を想定しています。

UNIX/Linuxの操作ならびに関連する用語を把握したあとに次の項目もご確認下さい。

共用計算機(スパコン)の初心者の方

UNIX/Linuxを利用したことがあるが、TSUBAME4.0を含めたスパコンの利用経験がない方を想定します。

  • TSUBAME4.0へのログイン方法がわからない
    TSUBAME4.0へのリモートログインには、基本的にSSHの公開鍵認証方式を使用します。「リモートログイン」「SSH鍵認証」などについては 講習会等のテキストに掲載されている「TSUBAME利用法 入門編(Linux基礎) 」、P21「ログイン」~P33「Tips」をご一読ください。
    また、ターミナルソフト PuTTy を利用したSSH接続の手順についても紹介しています。PuTTY・MobaXtermでのSSH鍵ペアの作成方法およびPuTTYを利用した、TSUBAME4.0へのログイン方法を知りたいをご参照ください。
    なお、TSUBAME4.0ではWebブラウザベースでスーパーコンピューターを気軽に利用できるOpen OnDemandも用意しています。詳細についてはOpen OnDemandの利用の手引きをご参照ください。

  • TSUBAME4.0で計算処理を行う方法がわからない
    TSUBAME4.0では、ジョブスケジューラと呼ばれるシステムを利用して計算ノード上で処理を実施します。ジョブスケジューラの概念については、講習会等のテキストに掲載されている「TSUBAME4.0利用者ガイダンス」、 P39「TSUBAME4.0におけるジョブ投入」~P50「計算ノードの予約利用」をご一読ください。
    詳細な使い方については、TSUBAME4.0利用の手引きのジョブスケジューリングシステムをご確認下さい。

併せて、講習会等のテキストに掲載されている「TSUBAME4.0利用者ガイダンス」もご参照ください。
共用計算機(スパコン)に関連する知識を把握したあとに次の項目もご確認下さい。

TSUBAME4.0の初心者の方

TSUBAME4.0以外のスパコン利用経験がある方を想定します。

  • TSUBAME3.0の利用経験がある方
    TSUBAME3.0の既存ユーザの方は、こちらにTSUBAME4.0の違いをまとめてありますので、ご覧下さい。TSUBAME3.0からTSUBAME4.0への移行
    また、講習会等のテキストに掲載されている「TSUBAME4.0利用者ガイダンス」も参考になるかと思います。

  • TSUBAME以外のスパコン利用経験がある方
    TSUBAME4.0 独自の仕様・ルールなど最低限必要な情報をクイックスタートガイドに纏めています。制限事項などもありますので、ご利用前にご一読ください。

コンパイラ初心者の方

UNIX/Linuxを利用したことがあるが、コマンドラインによるコンパイラを利用したことがない方などを想定します。
利用するコンパイラに合わせて、利用手引きのIntelコンパイラ,NVIDIA HPC SDK,AOCCのいずれかをご確認下さい。
また、Intelコンパイラを利用される方は講習会等のテキストに掲載されている「並列プログラミング」も参考になるかと思います。

並列プログラミング(OpenMP,MPI)初心者の方

講習会等のテキストに掲載されている「並列プログラミング」が参考になるかと思います。

GPUプログラミングの初心者の方

TSUBAME4.0では定期的に利用講習会を実施しております。 講習会のページをご確認下さい。
また、講習会等のテキストに掲載されている「GPUプログラミング」「GPUプログラミング・ハンズオン」も参考になるかと思います。

商用アプリケーションの初心者の方

TSUBAME4.0では定期的に利用講習会を実施しております。 講習会のページをご確認下さい。

ファイル転送について

TSUBAME4.0ではrsync、scp、sftpによるファイル転送が可能です。ログイン同様、TSUBAMEポータルに登録したSSH公開鍵のペアとなるSSH秘密鍵を用いてアクセスする必要があります。

また、利用されているアプリケーションによってはタイムアウトになる場合もありますので、 ご利用されているアプリケーションの設定をよくご確認下さい。

ファイル転送アプリケーションをインストールする場合 (Windows等)

MobaXtermおよびRLoginを利用している場合、これらのソフトウェアにはファイル転送機能が組み込まれているため、そちらを利用するのが簡便です。
PuTTYなどこれら以外のソフトウェアを接続に利用している場合、FileZillaWinSCPなどの、sftp, rsyncプロトコルに対応したファイル転送用アプリケーションをインストールする必要があります。
この場合でもログイン同様、TSUBAMEポータルに登録したSSH公開鍵のペアとなるSSH秘密鍵を用いてアクセスする必要があります。
Filezilla、WinSCPではPuTTYで普段使用している.ppk 形式の鍵ファイルがそのまま利用可能です。

各ソフトウェアの利用方法の詳細は各ソフトウェアのマニュアルを各自ご確認下さい。

また、Windows 10/11のオプション機能の OpenSSH クライアントを有効にすることで、コマンドプロンプトやPowerShellから次項のscp, sftpコマンドを使用することもできます。

Linux/Mac/Cygwin(Windows)を使用している場合 (rsync, scp, sftpコマンド)

これらの環境では rsync、scp、sftp の各コマンドが利用できます。 以下、それぞれの使い方について説明します。

rsyncの場合

ローカルからリモートホストに転送する場合は、以下のようなコマンドを実行して下さい。 鍵ペアの格納場所を標準のパス・ファイル名とした場合には-iオプションは指定不要です。

$ rsync -av --progress -e "ssh -i <秘密鍵ファイル> -l <ログイン名>" <ローカルディレクトリ> <リモートホスト>:<リモートディレクトリ>
<ローカルディレクトリ>が転送元、<リモートホスト>:<リモートディレクトリ> が転送先です。

<>の部分は状況に適したものを入力してください。例えば、ログイン名がTSUBAMEUSER00のユーザが秘密鍵の ~/.ssh/ecdsa を用いて、カレントディレクトリをTSUBAME4の/gs/bs/TSUBAME00にコピーする場合のコマンドは以下になります。

[yourPC]$ rsync -av --progress -e "ssh -i ~/.ssh/ecdsa -l TSUBAMEUSER00" ./ login.t4.gsic.titech.ac.jp:/gs/bs/TSUBAME00

転送元や転送先の指定の仕方などの使用方法の詳細は以下のコマンドを実行して確認して下さい。

$ man rsync

scpの場合

リモートホストからローカルに転送する場合は、以下のようなコマンドを実行して下さい。鍵ペアの格納場所を標準のパス・ファイル名とした場合には-iオプションは指定不要です。

$ scp -i <秘密鍵ファイル> <ログイン名>@<リモートホスト>:<リモートディレクトリ> <ローカルディレクトリ>
<>の部分は状況に適したものを入力してください。

ログイン名がTSUBAMEUSER00のユーザが秘密鍵の ~/.ssh/ecdsa を用いて、カレントディレクトリにTSUBAME4の/gs/bs/TSUBAME00をコピーする場合の例は下記のコマンドとなります。

[login]$ scp -i ~/.ssh/ecdsa TSUBAMEUSER00@login.t4.gsic.titech.ac.jp:/gs/bs/TSUBAME00 .

オプションの詳細は以下のコマンドを実行して確認して下さい。

[login]$ man scp

sftpの場合

インタラクティブに転送を行う場合は以下のようなコマンドを実行して下さい。鍵ペアの格納場所を標準のパス・ファイル名とした場合には-iオプションは指定不要です。

$ sftp -i <秘密鍵ファイル> <ログイン名>@<リモートホスト>
<>の部分は状況に適したものを入力してください。

例えば、ログイン名がTSUBAMEUSER00のユーザが秘密鍵の.ssh/ecdsaを用いて、TSUBAME4にアクセスする場合は下記のコマンドとなります。

[yourPC]$ sftp -i ~/.ssh/ecdsa TSUBAMEUSER00@login.t4.gsic.titech.ac.jp

オプションの詳細は以下のコマンドを実行して確認して下さい。

$ man sftp

CIFSによるアクセスを行う場合

また、学内端末に限りCIFSによるアクセスが可能です。 CIFSサーバは下記です。

\\gshs.t4.gsic.titech.ac.jp

詳細は 学内からのCIFSによるアクセス をご覧下さい。 接続がうまくいかない場合はグループディスクへのCIFS接続ができない, WindowsでTSUBAMEのグループディスクが開けないもご参照ください。

TSUBAME内外で大容量データのコピーを行いたい

TSUBAMEとTSUBAME外の端末間で大容量のデータを転送したい場合以下をご確認ください。

ファイルを適切なサイズに固める

大量の小さなファイルは転送速度の低下を引き起こします。tarコマンドなどで、1GB程度に固めてから転送します。

接続プロトコルを見直す

scp/sftpでパフォーマンスが出ない場合は、rsyncや、CIFS(学内のみ)で接続すると速度が改善するかもしれません。
また、scpを並列実行するmscpを使用することで転送速度が向上する可能性があります。
mscpはコマンドを入力する側の計算機にインストールするだけで利用可能です。TSUBAME4.0にもインストールされておりますのでお試しください。

CIFSでの接続方法については、学内からのCIFSによるアクセス をご覧下さい。 接続がうまくいかない場合はグループディスクへのCIFS接続ができない, WindowsでTSUBAMEのグループディスクが開けないもご参照ください。

ネットワーク経路上のボトルネックを取り除く

  • リンク速度が1000Mbpsを下回るような古いLANケーブル(CAT-3、CAT-5(5eを除く))、スイッチングハブ、ルータ等があれば高速な物に置き換える。
  • ルータ(WiFiルータ,NATルータ,ブロードバンドルータなど)を利用してる場合、端末をルータ外のネットワーク(東京科学大の場合、131.112又は172.16~31で始まるIPアドレス)に直結する。

学内のネットワークの詳細については研究室のネットワーク管理者、不明な場合はその建物、組織毎の支線管理者にお問い合わせください。

(学内利用者のみ)演習室の教育用計算機システム端末(Windows)を利用する

ネットワーク構成変更が難しい場合、HDDをCIIに持ち込んで演習室の教育用計算機システム端末(Windows)に接続してデータを転送することもできます。ただし、利用時間が決められていますのでご注意ください。

利用時間・利用場所

ハードウェア

TSUBAMEと手元マシン・研究室マシンでデータを同期するには

普段は、WinSCPなどのグラフィカルな操作(GUI)が可能なソフトウエアを利用するのが簡単かと思いますが、 大量のデータを一括で同期する場合は rsync コマンドの利用をご検討ください。
rsync コマンドの利点は差分だけを転送する点が挙げられます。 何らかの理由でファイル転送が中断した場合でも続きから再開できますし、一定期間後に再度実行すれば、内容の変更のあったファイルだけを転送できます。 コピー元から削除されたデータはコピー先でも削除して完全に同期することも可能です。

以下にコマンド例を示します。コマンドが途中で失敗している場合を考慮し、ログを確認したり、複数回実行するのが良いでしょう。

手元の端末のデータをTSUBAMEに同期する。

[yourPC]$ rsync -auv (コピー元のディレクトリ) (自分のログイン名)@login.t4.gsic.titech.ac.jp:(コピー先のディレクトリのフルパス)

TSUBAMEのデータを手元の端末に同期する。

[login]$ rsync -auv (自分のログイン名)@login.t4.gsic.titech.ac.jp:(コピー元のディレクトリのフルパス) (コピー先のディレクトリ)

間違って実行してしまったプログラムの停止方法について

ログインノード等のプログラム実行を禁止しているノードで、プログラムを実行してしまった場合は以下の手順でプログラムを停止して下さい。

バッチジョブスケジューラに投入したジョブについてはFAQ「バッチジョブスケジューラに投入したジョブの停止方法について」をご確認下さい。

グループディスク内で他のメンバーが読み書きできるようにするには

Warning

本記事はグループディスク(/gs/bs, /bs/fs)に関してのものです、ホームディレクトリで以下のサンプルを実行しないでください。

利用者が自分のファイルのオーナーを変更することはできません。そのためグループパーミッションを変更して読み書きできるように設定してください。ポイントとしては、

  • 一番上位のディレクトリだけではなく、ディレクトリ以下のすべてのファイル、ディレクトリも権限を変更すること。
  • ファイルには読み込み(r)だけでなく書き込み(w)権限を追加すること。書き込み(w)がないと後で消去できません。
  • ディレクトリには読み込み(r)だけでなく書き込み(w)と実行(x)も追加すること。実行(x)がないとディレクトリにアクセスできません。

以下にコマンド例を示します。ファイルの元々のパーミッションによってはエラーが出ることがあるため、その場合は出力が変わらなくなるまで再実行してみてください。

/gs/bs/tgX-XXXXXX/以下の自分のディレクトリを探してグループのメンバーが読み書き参照ができるようにする。

[login]$ find /gs/bs/tgX-XXXXXX/ -type d -user $USER ! -perm -2770 -print0 | xargs -r0 chmod -v ug+rwx,g+s

/gs/bs/tgX-XXXXXX/以下の自分のファイルを探してグループのメンバーが読み書きできるようにする。

[login]$ find /gs/bs/tgX-XXXXXX/ -type f -user $USER ! -perm -660 -print0 | xargs -r0 chmod -v ug+rw

/gs/bs/tgX-XXXXXX/以下の自分のファイルを探して所有グループをTSUBAMEグループに合わせる。

[login]$ find /gs/bs/tgX-XXXXXX/ -user $USER ! -group (TSUBAMEグループ名) -print0 | xargs -r0 chgrp -v (TSUBAMEグループ名)

Module fileの基本構成について

Module fileの基本構成について記載します。

  • [アプリケーション名]/[バージョン] となっています。
  • module コマンドでバージョンまで指定しなくともデフォルトでloadされる版が設定されています。

複数のバージョンが存在する場合は、デフォルトのバージョンが load されます。

$ module avail cuda
---------------------
cuda/12.0.0  cuda/12.1.0  cuda/12.3.2
$ module list
Currently Loaded Modulefiles:
 1) cuda/12.3.2

  • MPIやアプリケーションなど依存関係があるものについては、自動的に load されます。
$ module load openmpi/5.0.2-intel
Loading openmpi/5.0.2-intel
  Loading requirement: intel/2024.0.2 cuda/12.3.2

資源指定時のCPU/GPUの割り当てについて

AGEでは node_f を除き、指定した資源数に応じた仮想的なCPUID/GPUIDを割り当てます。

  • CPU の場合

CPUを4つのみ確保する資源タイプの cpu_4 とCPUを8つ確保する資源タイプ cpu_8 を例にあげますと、 cpu_4=7 と指定を行った際は、ノードが7つ確保され、各ノードの 4core が割り当てられます。 cpu_8=7 と指定を行った際は、ノードが7つ確保され、各ノードの 8core が割り当てられます。

  • GPU の場合

GPUを1つのみ確保する資源タイプの gpu_1 の場合は、gpu_1=4 と指定を行った際はノードが4つ確保され、各ノードのGPUが仮想的にGPU0として割り当てられます。 4つ確保したからといってGPU0,1,2,3ということにはなりません。

GPUを2個確保する資源タイプである node_h ではノード内でGPUが2割り当てられますが、この場合は GPU0,1が割り当てられます。

Linux/Mac/Windows(Cygwin・OpenSSH)でのSSH鍵ペアの作成方法

Warning

SSH秘密鍵が漏洩すると他人にアカウントを不正利用されることとなりますので、パスフレーズを必ず設定し、管理には細心の注意を払ってください。

Info

TSUBAME4.0のログインノードでは鍵長の短い RSA 鍵 (SHA-1) では接続できません。SSH鍵ペアはecdsa鍵またはed25519鍵を推奨いたします。

Linux/Mac/Windows(CygwinもしくはOpenSSH)でのSSH鍵ペア作成方法は以下のとおりです。
鍵の形式の違いについてはman ssh-keygenコマンドで確認してください。
インストールされているopensshのバージョンによって対応/未対応があります。

ecdsa鍵形式

[yourPC]$ ssh-keygen -t ecdsa

ed25519鍵形式

[yourPC]$ ssh-keygen -t ed25519

上記いずれかのコマンドを実行すると保存場所の指定を聞かれます。 既に同名の鍵ファイルを使用中などの事情がなければ、そのままEnterキーを押してください。 (他のサイト向けに作成したSSH鍵ペアをTSUBAMEで再利用することは問題ありません)

Generating public/private 実行したコマンドの鍵形式 key pair.
Enter file in which to save the key ユーザディレクトリ/.ssh/id_実行したコマンドの鍵形式: (何も入れずに)[Enter]

次にパスフレーズが聞かれますので、入力します。

Enter passphrase (empty for no passphrase): (設定するパスフレーズを入力・画面には表示されません) [Enter]

パスフレーズの確認が入りますので、入力します。

Enter same passphrase again: (上で設定したパスフレーズを再度入力・画面には表示されません) [Enter]

SSH鍵ペアが出力されます。上が秘密鍵、下が公開鍵です。TSUBAMEには公開鍵を登録ください。

our identification has been saved in ユーザディレクトリ/.ssh/id_実行したコマンドの鍵形式 
Your public key has been saved in ユーザディレクトリ/.ssh/id_実行したコマンドの鍵形式 .pub.
The key fingerprint is:
SHA256:乱数:ユーザ@ホスト名
The key's randomart image is:
(鍵ペアに固有の情報が出力されます)

下記コマンドでファイルを確認します。

[yourPC]$ ls ~/.ssh/ -l
drwx------  2 ユーザ グループ  512 Oct 6 10:50 .
drwx------ 31 ユーザ グループ 4096 Oct 6 10:41 ..
-rw-------  1 ユーザ グループ  411 Oct 6 10:50 秘密鍵
-rw-r--r--  1 ユーザ グループ   97 Oct 6 10:50 公開鍵

パーミッションがあってない場合は以下のコマンドで修正します。

[yourPC]$ chmod 700 ~/.ssh
[yourPC]$ chmod 600 ~/.ssh/秘密鍵

PuTTY・MobaXtermでのSSH鍵ペアの作成方法

Warning

SSH秘密鍵が漏洩すると他人にアカウントを不正利用されることとなりますので、パスフレーズを必ず設定し、管理には細心の注意を払ってください。

Info

TSUBAME4.0のログインノードでは鍵長の短い RSA 鍵 (SHA-1) では接続できません。SSH鍵ペアはecdsa鍵またはed25519(EdDSA)鍵を推奨いたします。

PuTTY付属のPuTTYgenを用いてTSUBAME4.0にログインするための鍵ペアを作成する方法について説明します。
MobaXtermのMobaKeyGenも同等の機能・UIを持つため、同様に利用できます。

PuTTYgenを起動すると下記のような画面が出てきます(日本語で表示される場合もあります)

PuTTY 画面イメージ

  1. 「Type of key to generate」にて、鍵タイプを選択します
    ECDSA形式もしくはEdDSA形式を推奨します。それ以外の形式の場合、TSUBAME4に接続できないことがあります。
  2. 「Generate」ボタンを押して、画面の指示に従って鍵ペアを作成します
    最下段のParametersを変更することで生成される鍵ペアの設定を変えることができますが、通常は鍵タイプ以外変更する必要はありません。
  3. 「Key passphrase」「Confirm passphrase」にパスフレーズ(パスワード)を入力し、他者が無断で鍵を利用することを防ぎます。ここで指定したパスフレーズは、ログイン時に使用します。
  4. 「Save private key」ボタンを押すことで、この鍵ペアを使用するために必要なファイル(秘密鍵)を保存します。秘密鍵はTSUBAME4.0にログインするマシンに保存します。
    手順5でTSUBAMEポータルに公開鍵を登録することで、保存した秘密鍵ファイルにアクセスできるすべての人がTSUBAME4.0にログインできるようになりますので、ファイルの管理は十分に注意してください。(USBメモリに入れて持ち歩いたり、メールで送信しないこと。他者と共有してはいけません)
    保存前に「Key passphrase」「Confirm passphrase」にパスフレーズを入力することで、パスフレーズを知らない人が鍵を利用する(TSUBAME4.0を利用する)ことを防ぐことができます。
  5. 「Public key for pasting...」の中に表示されている文字列(公開鍵)をコピーします。公開鍵はTSUBAMEポータルに登録します。TSUBAMEポータルにログインし、SSH公開鍵の登録の手順に基づき、コピーした文字列を追加してください。

Info

画像では公開鍵が3行に見えますが実際は1行です。改行を入れてはいけません。 秘密鍵と公開鍵は一対の関係です。Generateするたびにペアで再生成されますので、ご注意ください。

Warning

ParametersのSSH-1(RSA)は絶対に選ばないで下さい。

PuTTYを利用したTSUBAME4.0へのログイン手順についてはPuTTYを利用した、TSUBAME4.0へのログイン方法を知りたいをご参照ください。
なお、PuTTYの利用方法についてはご自分でマニュアルをご確認下さい。

PuTTYを利用した、TSUBAME4.0へのログイン方法を知りたい

  1. PuTTYを起動します。「PuTTY Configuration」が起動します。( 英語版で説明します )
  2. 左ペインの「Session」を選択し、赤枠の部分にログインノードのホスト名を入力します。 login.t4.gsic.titech.ac.jp を入力してください。
  3. 左ペインの「Connection」-「SSH」-「Auth」-「Creditials」を選択し、赤枠の部分に秘密鍵を指定します。
  4. インタラクティブノードを利用したX転送を利用したい場合、左ペインの「Connection」-「SSH」-「X11」を選択し、赤枠にチェックを入れます。
  5. 左ペインの「Session」を選択します。
    ①の部分に任意の名前を付けて、「Save」②を押すことで、2.~4. で設定した内容が保存されます。ログインノードにログインする場合、保存した設定を選択③し、「Open」④を押します。
  6. 初回接続時のみ「Security Alart」が表示されます。内容を確認し、問題なければ「Accept」を押します。
  7. ログイン画面が表示されます。
    「login as」にTSUBAMEログイン名(u で始まります)を入力します。
    「Passphrase for key」で、鍵ペア作成時に指定したパスフレーズを入力します。

Linuxのよくあるエラーについて

ここではLinuxのよくあるエラーについてのFAQを記載しております。記載しているコマンドの詳細な利用方法については各自、manコマンド等で確認してください。

No such file or directory

必要とされるファイルもしくはディレクトリがありません。
存在しないファイル、ディレクトリ名などを指定する、タイポするなどパス指定を間違った場合等に発生します。
また、アプリケーションによっては改行コードが Windows の CR+LF の場合に発生する場合もあります。

対策

ファイル、ディレクトリ名をよく見直してください。
また改行コードの修正についてはFAQ「ジョブステータスが「Eqw」となり実行されない。」の1をご確認ください。

関連して以下のようなエラーもあります。

error while loading shared libraries: ****.so: cannot open shared object file:  No such file or directory
これはプログラムが必要とするライブラリが無いもしくは読み込めない場合等に発生するエラーです。

対策

プログラムにライブラリパスが通っているかをlddコマンドなどで確認してください。
環境変数LD_LIBRARY_PATHを設定する、コンパイル時にライブラリを指定するなどの対策があります。

command not found

入力したコマンドがありません。
実行したいプログラムの種別ごとに以下の確認を実施してください。

ホームディレクトリ($HOME)直下のhogeディレクトリを既存のPATH環境変数に追加する場合の例

[login/rNnN]$ export PATH=~/hoge:$PATH

Permission denied

実行しようとした操作の権限がありません。
Linuxはファイル・ディレクトリ単位でユーザならびにグループ単位の権限設定がされています。
読み込み、書き込み、実行しようとした対象ファイル、ディレクトリの権限を以下のコマンドで確認してください。

(例はhogeファイルを確認する場合)

[login/rNnN]$ ls -l hoge

対策
システムディレクトリである/appや/libなどにファイルを作成しようとした場合等はユーザディレクトリに作成するようにしてください。
グループディスクなどのユーザディレクトリで発生する場合は権限を確認してください。

Disk quota exceeded

FAQ「"Disk quota exceeded" というエラーが出力される」をご確認ください。

Out Of Memory

メモリが不足した場合に発生するエラーです。
対策

  • 資源タイプをよりメモリ容量が多いものに変更する。
  • mpiなどでノードあたりのメモリ使用量を分割する。

関連FAQ「結果ファイルのエラーメッセージについて」

エラー関連URL

"Disk quota exceeded" というエラーが出力される

ホームディレクトリの容量、またはグループディスクの容量が不足していることが原因です。
不要なファイルを削除するか、グループディスクを追加購入して空き領域を確保してください。

以下のコマンドで、隠しディレクトリを含む全てのディレクトリのディスク使用量を確認できます。

[login/rNnN]$ cd $HOME  
[login/rNnN]$ du -h --max-depth=1 | sort -hr  

アプリケーションによっては一時ファイルの作成場所がホームディレクトリとなっている場合がありますので、ご注意下さい。
Gaussian や COMSOL などの一部の商用アプリケーションは、系によってですが、ホームディレクトリの25GB程度の容量では不足する場合がありますので、グループディスクをご利用下さい。
アプリケーションが使用するキャッシュファイル・ユーザーファイル等の格納先ディレクトリを変更したい。
ホームディレクトリおよびグループディスクの利用状況は以下のFAQで確認下さい。

TSUBAMEポイント、グループディスクの使用状況、ホームディレクトリの使用状況の確認方法

TSUBAME4.0で作業中にセッションが切れてしまいます

TSUBAME4.0ではセキュリティ対策としてセッションタイムアウト設定を行っております。
セッション(接続したターミナル)上での入力がない場合は、セッションを切断します。
GUIアプリケーションを起動して操作していても、ターミナル上の入力がない場合は落ちます。

対策としては、端末側でKeepAliveの設定を行って下さい。
設定方法は利用している端末のマニュアルをご確認下さい。

Windowsで利用できるSSHクライアントについて

Windowsでは以下に挙げるSSHクライアントをTSUBAMEへの接続に用いることができます。
X11サーバおよびその他のLinux機能の必要性にもよりますが、上に書いてあるものほど導入コストが低くおすすめです。

OpenSSH クライアント (Windows 10/11の機能)

Windows 10/11 の [設定]-[アプリ]-[オプション機能の管理] から [OpenSSH クライアント] をインストールできます。
インストール後はコマンドプロンプトからLinuxと同様の ssh, ssh-keygen 等のコマンドが利用可能です。

PuTTY

公式サイト

フリーのSSHクライアントソフトウェアです。
X11サーバは含まれていないため、X11アプリケーションを利用する際には別途X11サーバをインストールする必要があります。
SSH鍵の作成方法についてはこちらのFAQ記事をご参照ください。

MobaXterm

公式サイト

SSHクライアントとX11サーバを内包したソフトウェアです。
TSUBAME上のX11アプリケーションのほとんどが問題なく動作するようです。
SSH鍵の作成は、PuTTYと同様ですので、PuTTYのFAQ記事をご参照ください。

Window Subsystem for Linux (WSL)

Windows ストアでLinuxディストリビューション(Ubuntu, OpenSUSE等)をダウンロードすることで、Windows上にLinux環境を構築することができます。
X11サーバおよびその他のLinux環境も同時に構築することとなります。
Linux環境から ssh, ssh-keygen 等のコマンドが利用可能です。
上記の MobaXterm と併用することで、タブごとに別の Linux ディストリビューションを起動することもできます。

Cygwin

公式サイト

Windows上でLinux環境を再現するソフトウェアです。
Cygwin環境から ssh, ssh-keygen 等のコマンドが利用可能です。
長らくCygwinを使っていたなどの事情がなければ、TSUBAMEへの接続は他のソフトウェアで行うことを強く推奨いたします。

コンパイラとmpiモジュールの組み合わせについて

GNU、Intel oneAPI、NVDIA HPC SDK と OpenMPI の組み合わせで利用が可能です。

gcc についてはOS提供のものになります。 各コンパイラとOpenMPIの組み合わせの利用可能なバージョンについては以下のコマンドで確認してください。

[login/rNnN]$ gcc --version
[login/rNnN]$ module avail

Info

TSUBAME4.0で用意した下記OpenMPI以外を利用した場合、動作保証およびサポート対象外となりますのでご留意ください。
本ドキュメントに記載されたOpenMPIのバージョンは最新ではない可能性があります。 利用可能なバージョン一覧については module avail openmpi コマンドでご確認ください。( 特に理由がない場合、最新バージョンの利用を推奨します )

1. Intel版 OpenMPI

[rNnN]$ module purge
[rNnN]$ module load openmpi/5.0.2-intel
Loading openmpi/5.0.2-intel
  Loading requirement: intel/2024.0.2 cuda/12.3.2
[rNnN]$ mpicc -v
Intel(R) oneAPI DPC++/C++ Compiler 2024.0.2 (2024.0.2.20231213)
Target: x86_64-unknown-linux-gnu
Thread model: posix
InstalledDir: /apps/t4/rhel9/isv/intel/compiler/2024.0/bin/compiler
Configuration file: /apps/t4/rhel9/isv/intel/compiler/2024.0/bin/compiler/../icx.cfg
Found candidate GCC installation: /usr/lib/gcc/x86_64-redhat-linux/11
Selected GCC installation: /usr/lib/gcc/x86_64-redhat-linux/11
Candidate multilib: .;@m64
Candidate multilib: 32;@m32
Selected multilib: .;@m64
Found CUDA installation: /apps/t4/rhel9/cuda/12.3.2, version

2. GNU版 OpenMPI

[rNnN]$ module purge
[rNnN]$ module load openmpi/5.0.2-gcc
Loading openmpi/5.0.2-gcc
  Loading requirement: cuda/12.3.2
[rNnN]$ mpicc -v
Using built-in specs.
COLLECT_GCC=/usr/bin/gcc
COLLECT_LTO_WRAPPER=/usr/libexec/gcc/x86_64-redhat-linux/11/lto-wrapper
OFFLOAD_TARGET_NAMES=nvptx-none
OFFLOAD_TARGET_DEFAULT=1
Target: x86_64-redhat-linux
Configured with: ../configure --enable-bootstrap --enable-host-pie --enable-host-bind-now --enable-languages=c,c++,f
ortran,lto --prefix=/usr --mandir=/usr/share/man --infodir=/usr/share/info --with-bugurl=http://bugzilla.redhat.com/
bugzilla --enable-shared --enable-threads=posix --enable-checking=release --with-system-zlib --enable-__cxa_atexit -
-disable-libunwind-exceptions --enable-gnu-unique-object --enable-linker-build-id --with-gcc-major-version-only --en
able-plugin --enable-initfini-array --without-isl --enable-multilib --with-linker-hash-style=gnu --enable-offload-ta
rgets=nvptx-none --without-cuda-driver --enable-gnu-indirect-function --enable-cet --with-tune=generic --with-arch_6
4=x86-64-v2 --with-arch_32=x86-64 --build=x86_64-redhat-linux --with-build-config=bootstrap-lto --enable-link-serial
ization=1
Thread model: posix
Supported LTO compression algorithms: zlib zstd
gcc version 11.4.1 20230605 (Red Hat 11.4.1-2) (GCC)

3. NVIDIA HPC SDK版 OpenMPI

[rNnN]$ module purge
[rNnN]$ module load openmpi/5.0.2-nvhpc
Loading openmpi/5.0.2-nvhpc
  Loading requirement: nvhpc/24.1
[rNnN]$ mpicc -v
Export NVCOMPILER=/apps/t4/rhel9/isv/nvidia/hpc_sdk/Linux_x86_64/24.1
Export PGI=/apps/t4/rhel9/isv/nvidia/hpc_sdk
nvc-Warning-No files to process

インタラクティブジョブ中にEmacsでファイルを保存しようとすると画面が固まってしまう

既定の端末設定では特定の入力文字によるフロー制御が有効になっていることが原因です。
フロー制御とは、データ転送において受信パケット速度よりも送信速度が上回る場合などに、受信側のオーバーフローを防ぐために転送を一時保留にする機能です。一般的には、転送の保留には Ctrl+S 、再開には Ctrl+Q が制御文字として使用されます。
インタラクティブ実行中にEmacsで編集し上書き保存する場合にCtrl+Sを入力しなければなりませんが、これはフロー制御文字でもあるためパケットが転送されなくなり、あたかもフリーズしてしまったかのような状態となります。元に戻すには、Ctrl+Q を入力してください。
フロー制御を無効にするにはインタラクティブジョブ実行前に以下のコマンドを実行する必要があります。

[login]$ stty -ixon

フロー制御を常に無効にしたい場合は、ホームディレクトリの .bashrc に上記コマンドを追記してください。

TSUBAME4にログインが出来ません (ssh, Permission denied (publickey,hostbased)等)

問い合わせの前に下記の点を御確認ください。

1. アカウントが正しいかどうか

TSUBAME4.0のアカウントであるかをご確認ください。

  • TSUBAME4.0アカウントはTSUBAME3アカウントとは異なります。TSUBAME3のアカウントを利用したお問合わせが増えております。
  • TSUBAME4.0アカウントは学籍番号や教職員番号とは異なります。
  • TSUBAME4.0アカウントはありますか? アカウントの取得についてはアカウント取得方法を参照ください。

2. 鍵ペアが正しいかどうか

TSUBAMEポータルに登録した公開鍵が OpenSSH 形式であるかをご確認ください。
PuTTY形式の公開鍵を登録してもTSUBAMEにはアクセスできません。

鍵ペアの作成については下記を参照ください。

公開鍵の登録については下記を参照ください。

SSH公開鍵の登録

Info

TSUBAME4.0のログインノードでは鍵長の短い RSA 鍵 (SHA-1) では接続できません。SSH鍵ペアはecdsa鍵またはed25519鍵を推奨いたします。

3. コマンドが正しいかどうかLinux/Mac/Windows(Cygwin/WSL)

SSHコマンドのオプション等で指定しているログイン名や秘密鍵のパス(※)が正しいかをご確認ください。

[yourPC]$ ssh TSUBAME4.0アカウント名@login.t4.gsic.titech.ac.jp -i 秘密鍵

例) ログイン名がtsubame_user、秘密鍵がホームディレクトリの .ssh/tsubame-key の場合

[yourPC]$ ssh tsubame_user@login.t4.gsic.titech.ac.jp -i ~/.ssh/tsubame-key

Tips

秘密鍵がホームディレクトリ内 .ssh/id_dsa, .ssh/id_ecdsa, .ssh/id_ed25519 のいずれかの場合 (ssh-keygenで保存場所をデフォルトから変更しなかった場合)、「-i 秘密鍵」を指定する必要がありません

Info

TSUBAME4.0のログインノードでは鍵長の短い RSA 鍵 (SHA-1) では接続できません。SSH鍵ペアはecdsa鍵またはed25519鍵を推奨いたします。

SSHのオプションについては下記のコマンドで確認してください。

[yourPC]$ man ssh

4. 端末環境を変えても再現するか

Windowsの場合はフリーの端末ソフトウェアがあります。別の端末ソフトウェアでも再現するかどうかをご確認ください。再現しない場合はソフトウェア固有の問題である可能性があります。その場合はお問合わせ頂いてもご対応できませんので、ご了承ください。

5. アクセス元を変えても再現するか

アクセス元のネットワークが問題で接続できないことがあります。アクセス経路が複数ある場合は、アクセス元を変更して再現するかご確認下さい。

  • 学内/学外
  • 研究室/他の研究室
  • 自宅/公衆WiFi

ネットワークを変更して接続できる場合は、ルータ、Firewall などの設定の問題が考えられます。設定については各管理者にご確認下さい。

また、Windowsの場合はセキュリティソフトが通信をブロックしていることもあります。一時的にセキュリティソフトをオフにして接続できるかご確認下さい。回避方法は、各セキュリティソフトのマニュアルをご確認下さい。

お問い合わせの際は下記をご連絡ください

  • 利用OS(例 Windows10,Debian12,macOS 14.4.1)
  • 利用端末ソフトウェア(windowsのみ、例 Cygwin,PuTTY,Rlogin)
  • 利用端末バージョン

Windowsの場合は端末ソフトウェアのバージョン、例 2.9.0-3,0.70,2.22.7
バージョンの調べ方はご利用の端末のマニュアルをご確認ください。
Linux/Macの場合はSSHのバージョンをお送りください。下記のコマンドで確認できます。

[yourPC]$ ssh -V

  • 今まで試した内容について、また、エラーが出る場合はエラーの内容をお送りください。
    Linux/Macの場合は-vオプションを利用し、コマンドラインを含めた詳細なログも出力ください。

例)アカウント名がtsubame_user、秘密鍵が~/.ssh/tsubame-keyの場合の例

[yourPC]$ ssh tsubame_user@login.t4.gsic.titech.ac.jp -i ~/.ssh/tsubame-key -v

グループディスクへのCIFS接続ができない, WindowsでTSUBAMEのグループディスクが開けない

CIFSでのTSUBAMEグループディスクへのアクセスは学内のみです。学外からはアクセスできません。
また、学内ネットワークでも、研究室等の途中のルータ等でCIFSが遮断されていることがあり、その場合には使用できません。
一般的なルータの初期設定ではTCP/UDP 445ポートの通信がデフォルトで遮断されていることも多いため、設定を確認してください。  

Info

学内ネットワークの支線間通信でTCP/UDP 445が遮断される設定が行われておりますが、TSUBAME4のネットワークに対しては例外設定を行っているため、支線ネットワーク(建物スイッチ)から先では遮断されておりません。

ポートの遮断設定に問題がない場合は、そもそもCIFSサーバに到達できていない可能性があります。CIFSサーバまでのネットワーク疎通をご確認下さい。
DOSプロンプト等でPINGをご確認ください。

C:\> ping gshs.t4.gsic.titech.ac.jp

Windows からグループディスクへアクセスするには、TSUBAMEパスワードの設定が必要です。TSUBAMEポータルから設定を行ってください。設定方法はこちらをご覧下さい。

また、

  • 「パスワードが違います。」
  • 「パスワードの有効期限が切れています。」

と表示された場合も、同様にTSUBAMEパスワードを再設定してください。

グループディスクに関するFAQ

グループディスクとは

利用の手引きに書かれている高速ストレージ領域 (SSD) と大容量ストレージ領域 (HDD) のことで、TSUBAMEグループ毎にTSUBAMEポータルで設定された容量を利用できる共有ストレージです。

利用期間:購入日を含む月から1ヶ月単位、最長年度末(3月末)まで

購入単位あたりのポイント、iノード

種別 購入単位 ポイント iノード
大容量ストレージ領域 (HDD) 1TB 0.5 2,000,000
高速ストレージ領域 (SSD) 100GB 0.2 200,000

設定方法:TSUBAMEポータルから設定可能です

TSUBAMEポータル利用の手引き 10. グループディスクの管理

グループディスクの猶予期間とは

年度初めに、支払コード申請の集中による承認作業の遅れが発生した場合に、データにアクセスできなくなることのないように、3月に有効だったグループディスクは読み込み/削除のみ可能な猶予状態となります。この期間のことを猶予期間といい、通常は4月中旬頃まで維持されます。

参考:グループディスクの有効期間について

前年度のデータが残っている場合に、猶予期間後に購入する場合は以下のようになります。
例えば前年度50TB購入し、45TBの容量を使用していた場合を例とします。

1) 猶予期間中に45TBを削除し、使用容量が0の場合

最小容量である1TBから購入可能

2) 猶予期間中に25TBを削除し、購入時の使用容量が20TBの場合

20TB以上から購入可能

3) 猶予期間中に使用容量を削除しなかった場合(購入時の使用容量が45TB)

45TB以上から購入可能

前年度データが不要な場合は猶予期間中の削除をお願いいたします。

関連FAQ

計算ノード用ゲートウェイサーバのIPアドレスについて (TSUBAME外ライセンスサーバへの接続など)

計算ノード用ゲートウェイサーバのIPアドレス範囲は以下の通りとなっております。

131.112.133.241, 131.112.133.242

学内・学外のライセンスサーバを利用してTSUBAME上で計算を行う場合は上記範囲の通信を許可するように設定ください。

なお、上記アドレスは運用の都合により予告なく変更される可能性がありますのでご注意ください。

TSUBAME外(研究室など)のライセンスサーバ等への疎通を必要とするソフトウェアが動作しない場合は、お問い合わせの前にTSUBAME外かつライセンスサーバ外のネットワークから、当該ライセンスサーバと通信ができることを確認してから、以下の情報を添えてご連絡ください

  • ライセンスサーバのグローバルIPアドレス
  • ライセンスサーバのポート番号 (複数ある場合は全て)
  • 疎通試験を行ったホストのIPアドレス

ログインノードで「fork: Resource temporarily unavailable」等のエラーが表示されます

ログインノードでは1ユーザ当たり50プロセスの制限をかけております。
その為、その制限を超えたプロセスを生成した場合このようなエラーが表示されます。
詳細につきましては、ログインノードでCPUを占有する利用は行わないでくださいをご参照下さい。

TSUBAME4.0でDockerは利用できますか?

TSUBAME4.0でSingularityは利用できますか?

TSUBAME4.0でコンテナは利用できますか?

TSUBAME4.0ではDockerは利用できません。スパコン向けコンテナ管理ソフトウェアのApptainer(旧:Singularity)が利用可能です。
詳細についてはコンテナの利用をご参照ください。

Tsubame4.0でJupyter Labは利用できますか?

利用可能です。詳細についてはOpen OnDemand 利用の手引きをご参照ください。

グループディスクに突然アクセスできなくなりました。

グループディスクはひと月ごとに確保するため、月を跨いだタイミングでグループディスクの使用量が確保したサイズを超過する場合があります。
この状態が続いた場合、特定のタイミングで対象グループディスクへの一切のアクセスが禁止されます。
- グループディスクの利用状況を確認したい場合、グループディスクの利用状況確認を参照してください。
- グループディスクの使用量超過時の対応については、グループディスクの使用量超過時の対応を参照してください。
また、グループディスクに関するFAQについても併せてご確認ください。

TSUBAME4.0のGPUの活用方法を知りたい。

講習会のページで公開されている、以下の資料が参考になるかと思います。
- TSUBAME4のGPUを最大限活用する方法

マルチスレッド/マルチプロセスに対応したデバッガ/プロファイラを使用したい

Linaro Forge(旧:Arm forge)が使用できます。利用方法については講習会ページに掲載されている「並列プログラミング」をご参照ください。

OpenOnDemand、またはJupyterの起動に失敗する

OpenOnDemand(TSUBAME Desktop)またはJupyter使用時に以下の現象が発生する場合、設定ファイルが破損している可能性があります。
- 起動しない - 起動後、異常終了する

それぞれ、以下のディレクトリを削除してください。

アプリケーション ディレクトリパス
OpenOnDemand(TSUBAME Desktop) ~/ondemand
Jupyter ~/.jupyter

Info

これらのディレクトリは利用時に自動生成されます。通常、削除による影響はありません。
同ディレクトリ内のファイルを編集し問題が発生した場合、お問い合わせの対象外となります。

OpenOnDemand 上でディレクトリを削除する場合の手順は以下の通りです。

  1. OpenOnDemandにログインします。手順についてはOpen OnDemandのログインを参照してください。
  2. Files - Home Directory をクリックします。
  3. Show Dotfiles にチェックを付けます。
  4. 削除するディレクトリを選択します。
    4-1. Jupyter の場合
    .jupyter ディレクトリ横の ⋮ をクリックし、Delete をクリックします。( 先頭が . で始まるディレクトリです)

    4-2. OpenOnDemand(TSUBAME Desktop)の場合
    ondemand ディレクトリ横の ⋮ をクリックし、Delete をクリックします。
  5. 確認ダイアログが出ますので、削除対象のディレクトリであることを確認してOKをクリックします。

Apptainer 利用時にGLIBC not found エラーが発生する

Apptainer でフェイクルート機能(--fakeroot)を使用する場合、ホストとコンテナの間でlibcのバージョンを一致させる必要があります。
一致しない場合、以下のようなエラーが出力される場合があります。

/.singularity.d/libs/faked: /lib/x86_64-linux-gnu/libc.so.6: version`GLIBC_2.33' not found (required by /.singularity.d/libs/faked)
/.singularity.d/libs/faked: /lib/x86_64-linux-gnu/libc.so.6: version`GLIBC_2.34' not found (required by /.singularity.d/libs/faked)
fakeroot: error while starting the `faked' daemon.
/.singularity.d/libs/fakeroot: 1: kill: Usage: kill [-s sigspec | -signum |-sigspec] [pid | job]... or
kill -l [exitstatus]
詳細については、fakeroot利用時の注意事項について を参照してください。

VS Codeを利用したい

VS Codeを使用したログインノードへのアクセスについては、ログインノードに大きな負荷がかかるため禁止されています。
ログインノードにおけるプログラムの実行制限
TSUBAME4.0では、code server(VS codeのクローン)を使用したOpen OnDemand経由による計算ノードへの接続が可能です。
code server の利用をご検討ください。利用方法についてはOpen OnDemandの利用の手引きをご参照ください。

TSUBAME4.0でMPS(Multi-Process Service)機能利用時の注意事項

TSUBAME4.0でMPSを利用した際に、同一ノード上で実行されている別のジョブに障害が発生する事案が発生しました。
本障害を回避するため、TSUBAME4.0では独自の nvidia-cuda-mps-control コマンドを用意しています。

[rNnN]$ module purge
[rNnN]$ module load cuda  
を実行することで、利用できるようになります。必ずこちらのコマンドを使用してください。

また、MPS利用時に環境変数 CUDA_MPS_PIPE_DIRECTORY を設定するよう紹介されているサイトがありますが、TSUBAME4.0では当該環境変数を変更してはいけません。
利用者が独自にCUDA_MPS_PIPE_DIRECTORY を設定することで、同様に上記障害が発生することがわかっています。

これらのルールを守らず他の利用者に損害を与えた場合、無予告でのジョブ削除や計算機アカウントの一時停止などの措置を行う可能性もありますので十分ご注意ください。

アプリケーションが使用するキャッシュファイル・ユーザーファイル等の格納先ディレクトリを変更したい

アプリケーションが使用するキャッシュファイル・ユーザーファイル等の格納先ディレクトリを変更する場合、以下の手順をご検討ください。

Info

グループディスクの使用容量が設定容量を超えた場合、アクセス不可になります。
グループディスクの設定容量は月ごとに行うため、超過しないようご注意ください。
また、設定変更方法・設定変更に伴うトラブルなどについてはお問い合わせ対象外となります。

  1. アプリケーションが用意した設定を利用する
    アプリケーションによっては、キャッシュファイル・ユーザーファイル等の格納場所を変更可能なものがあります。
    変更方法は環境変数などアプリケーションによって異なりますので、manなどをご参照ください。

  2. 該当するディレクトリをシンボリックリンクに置き換える。
    アプリケーション側の設定が存在しない場合、シンボリックリンクを使用したグループディスクへの移動方法があります。
    なお、本手順は全てのアプリケーションでの正常実行を保証するものではありません。
    ここでは、${HOME}/.cache ディレクトリを /gs/bs/tga-xxxxx/tsubametarou に移動する例を示します。

    [login]$ cd ${HOME}  
    [login]$ mv -i .cache  /gs/bs/tga-xxxxx/tsubametarou     # 現在の.cacheディレクトリを、グループディスクに移動  
    [login]$ ln -nfs /gs/bs/tga-xxxxx/tsubametarou/.cache    # シンボリックリンクを${HOME}/.cache に指定  
    

外部ストレージ、クラウドストレージサービスを利用したい

ユーザ権限による外部ディスクのマウントについては許可しておりません。また、クラウドストレージサービスについても同様に対応しておりません。グループディスクの利用をご検討ください。

Info

HPCIアカウントをお持ちの方は、HPCI共用ストレージのみユーザ権限でマウント可能です。 詳細については、HPCIの利用マニュアルを参照、またはHPCIヘルプデスクにお問い合わせください。

TSUBAMEの写真などを外部公開する資料に掲載したい

東京科学大の教職員向けにはBox(学内のみ)にて素材を提供しております。下記の提供条件の範囲の利用であれば、事前に許諾を得る必要はございません。

  • Webサイトでの利用、印刷物での利用とも、Copyright等の表示は不要です。
  • TSUBAMEを利用した研究と関係するコンテキストでの使用に限ります。
  • 共同研究の相手方に使用させる場合も、東京科学大の教職員がダウンロードし、利用条件を遵守させてください。
  • 東京科学大の教職員以外による2次再配布は禁止させていただきます。

共同利用などの学外者向けプログラムの利用者や、上記Boxにない素材を希望する場合は、個別にお問い合わせください。

上記素材の利用の際には、問い合わせフォームより利用した旨をご報告いただけますと幸いです。

なお、東京科学大学のロゴを含む他の素材はScience Tokyo Stock(学内のみ)にて提供されております。これらの利用につきましては、広報課の規定を遵守してください。

ログイン時の環境設定をデフォルト値に戻したい

ログイン時に使用される以下の環境設定ファイルについて、/etc/skel ディレクトリ内にTSUBAME4.0のデフォルトファイルが格納されています。
該当ファイルを削除してしまった、編集したがデフォルトに戻したい、といった場合にコピーしてご利用ください。

.bash_logout
.bash_profile
.bashrc
.emacs
.zshrc

コピー手順例(.bashrc):

[login]$ cd ~
[login]$ cp /etc/skel/.bashrc .

TSUBAME上でcronなどを利用して定期的に処理を実行したい。

TSUBAME4.0ではcron機能の利用を禁止しております。crontab等を設定してもエラーとなりますのでご留意ください。
TSUBAME4のログインノードは多数のユーザで共有されており、定期的なプログラムの実行を許容しておりません

計算ノードの予約に失敗する

計算ノードの予約に失敗する場合、以下の点をご確認ください。

予約ノード数・予約時間が制限値を超えていないか

予約可能なノード数、時間には制限があります。また、個別の予約とは別にグループ全体の予約枠についても制限があります。これらの制限を超えた予約になっていないかご確認ください。
制限値については各種制限値一覧をご参照ください。

予約期間内に計算ノードの空きがあるか

予約提供ノードは利用者全員で共有しているため、他の利用者がすでに予約枠を抑えている場合などノードが確保できないことがあります。
予約提供ノードの空き状況については以下のコマンドで確認できます。t4-user-infoコマンドについてはこちらをご参照ください。

[login]$ t4-user-info compute ars   # 引数に -m yyyy mm (yyyy mmは年 月の数字)を指定すると、指定した月の空き状況が表示されます。デフォルト(引数なし)は当月です )
実行結果のサンプルを以下に示します。
=== Number of nodes that can be reserved ===
month : 2025-03

  Day  Week 00:00 01:00 02:00 03:00 04:00 05:00 06:00 07:00 08:00 09:00 10:00 11:00 12:00 13:00 14:00 15:00 16:00 17:00 18:00 19:00 20:00 21:00 22:00 23:00
-----------------------------------------------------------------------------------------------------------------------------------------------------------
   01   Sat    50    50    50    50    50    50    50    50    50    51    51    51    50    50    50    50    50    33    33    50    50    49    48    48
   02   Sun    48    48    48    48    48    48    48    48    48    48    48    48    48    48    48    48    48    48    48    32    32    32    32    32
   03   Mon    32    32    32    32    32    32    32    28    41    36    34    25     6     6     6     6     6     1     1     1     1     1     5     5
~省略~
例えばこの状況で5ノードの予約を取ろうとした場合、

  • 3/3 16:00 までは5ノード以上の空きがあるので予約可能です。
  • 3/3 17:00-21:00 は1ノードしか空きがないため、この期間を含む予約は出来ません。

予約期間内にメンテナンス等が予定されていないか?

メンテナンスなどTSUBAMEが利用できない期間に予約がかかっていないか、TSUBAME4計算サービスサイトのトップページにある「重要なお知らせ」「お知らせ」をご確認ください。

ワークディレクトリが利用出来ません。

アカウントを新規に作成した場合、ワークディレクトリが使用できるようになるまで時間がかかります。詳細はワークディレクトリをご参照ください。