IBM Power Systems 775 Manual page 7

For aix and linux hpc solution
Table of Contents

Advertisement

3.1.10 Diskless resources (NIM, iSCSI, NFS, TFTP). . . . . . . . . . . . . . . . . . . . . . . . . . 206
3.2 TEAL tool . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
3.2.2 Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
3.3 Quick health check (full HPC Cluster System) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
3.3.1 Component analysis location . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
3.3.2 Top to bottom checks direction (software to hardware) . . . . . . . . . . . . . . . . . . . 219
3.3.3 Bottom to top direction (hardware to software) . . . . . . . . . . . . . . . . . . . . . . . . . . 220
3.4 EMS Availability+ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
3.4.1 Simplified failover procedure. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
3.5 Component configuration listing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
3.5.1 LoadLeveler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
3.5.2 General Parallel File System (GPFS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
3.5.3 xCAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
3.5.4 DB2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
3.5.5 AIX and Linux systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
3.5.6 Integrated Switch Network Manager (ISNM). . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
3.5.7 Host Fabric Interface (HFI) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
3.5.8 Reliable Scalable Cluster Technology (RSCT) . . . . . . . . . . . . . . . . . . . . . . . . . . 234
3.5.10 Diskless resources (NIM, iSCSI, NFS, TFTP). . . . . . . . . . . . . . . . . . . . . . . . . . 234
3.6 Component monitoring examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
3.6.2 Integrated Switch Network Manager (ISNM). . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
Chapter 4. Problem determination. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
4.1 xCAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
4.1.1 xcatdebug . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
4.1.2 Resolving xCAT configuration issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
4.1.3 Node does not respond to queries or rpower command . . . . . . . . . . . . . . . . . . . 240
4.1.4 Node fails to install . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
4.1.5 Unable to open a remote console . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
4.1.6 Time out errors during network boot of nodes . . . . . . . . . . . . . . . . . . . . . . . . . . 242
4.2 ISNM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
4.2.2 Communication issues between CNM and DB2 . . . . . . . . . . . . . . . . . . . . . . . . . 243
4.2.3 Adding hardware connections. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
4.2.5 Verifying CNM to FSP connections. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
4.2.6 Verify that a multicast tree is present and correct . . . . . . . . . . . . . . . . . . . . . . . . 250
4.2.7 Correcting inconsistent topologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
4.3 HFI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
4.3.1 HFI health check . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
4.3.2 HFI tools and link diagnostics (resolving down links and miswires) . . . . . . . . . . 254
4.3.3 SMS ping test fails over HFI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
4.3.4 netboot over HFI fails . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
4.3.5 Other HFI issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
Chapter 5. Maintenance and serviceability. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
5.1 Managing service updates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
5.1.1 Service packs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
5.1.2 System firmware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
5.1.3 Managing multiple operating system (OS) images . . . . . . . . . . . . . . . . . . . . . . . 259
v
Contents

Advertisement

Table of Contents
loading

Table of Contents