Sun Grid Engine (SGE)

Alt om SGE (SUN GRID ENGINE)

Slik legger du til en exec-node:

HVORDAN A REDIGERE ANTALL SLOTS FOR EN EXEC_HOST:

Slik legger du til en husgruppe:

ADD EXECHOST TIL EN HOSTGROUP:

Slik suspenderer du jobber du gjor:

For a slette noder gjorde jeg folgende:

Hvis den er oppfort sa:

Nar du har slettet noden du vil slette fra alle vertsgruppene:

A endre prioriteten pa alle jobbene for en bruker:

Rediger some_file og slett de forste par linjene (topplinjene)

Se pa loggene for bade master og exec (raiders: / var / spool / gridengine / raiders / messages og pan: / var / spool / gridengine / bkslab / qmaster / messages)

Pass pa at resolv.conf ser slik ut:

1) I en skjerm ville jeg skrive strace qstat -f og sa i den andre skjermen ville jeg skrive ps -ax | grep qstat for a fa pid.

Sa ls -l / proc / pid / fd /

Jeg gjorde dette fordi nar jeg skrev strace qstat -f hver gang det ble sittende fast, sa dette:

og sa til slutt vil det si dette:

Det som er rart om dette er da jeg skrev ls -l / proc / pid / fd / det var aldri en filbeskrivelse «3»

2) Jeg provde a slette noder som vi flyttet til SF ved a gjore folgende:

Jeg ville fa feilen:

3) Jeg provde a se koen komplekse attributter ved a skrive qconf -sc og sa dette:

Jeg er ikke helt sikker pa hva haster = 1000 betyr. Alle andre navn hadde «0» under haster.

4) Jeg provde qmod -cq ‘*’ for a fjerne feilstatusen til alle koene. Det ville fortelle meg dette:

5) Jeg provde a slette en node som dette i stedet:

Men da jeg skrev qconf -sel var det fremdeles der.

6) Jeg provde a se hva vertslisten for @physical var ved a skrive qconf -ahgrp @physical. Det sa: group_name @physical, hostlist NONE Da skrev jeg qconf -shgrpl for a se en liste over alle vertsgrupper og provde a skrive qconf -ahgrp. Alle sa at hostlisten var NONE, men da jeg provde a skrive qconf -ahgrp @allhosts, fikk jeg denne meldingen:

7) Jeg sa pa meldingene i filen: / var / spool / gridengine / bkslab / qmaster / messages og det sa dette (igjen og igjen):

8) Jeg vil regelmessig fa denne feilen:

9) Jeg provde ogsa a slette pid i filen: /var/spool/gridengine/bkslab/qmaster/qmaster.pid Det gjorde ikke noe. Det endte til slutt bare med et annet nummer. Det er rart fordi det ikke engang er den rette pid. For eksempel var den virkelige pid 8286 og pid i filen var 8203:

10) Nar jeg skrev hale / var / log / meldinger sa jeg dette:

Dette var det som skjedde da jeg startet maskinen pa nytt.