\subsection{High Performance Linpack (HPL)} Der HPL-Benchmark wurde mit folgenden Befehlen durchgeführt: \shellcmd{source /cluster/software/hpl/load-env.sh} \\ \shellcmd{mpirun -x LD\_LIBRARY\_PATH -np 8 -hostfile allnodes -npernode 2 \textbackslash} \\ \shellcmd{\hspace{1cm} /cluster/software/hpl/run\_hpl > hpl.out} In der Datei {\tt allnodes} sind die Hostnames der Computenodes hinterlegt. Beim Basislauf wurde ein maximaler Wert von $3,842 \cdot 10^{-4}$ GFlops mit folgender Konfiguration erreicht: \begin{lstlisting} T/V N NB P Q -------------------------------------- WR00L2L2 35 4 1 4 \end{lstlisting} Der optimierte Lauf mit der Standard BLAS-Library des Systems mit der Konfiguration: \begin{lstlisting} T/V N NB P Q -------------------------------------- WR00C2C2 26208 224 2 8 \end{lstlisting} erreichte einen Wert von 2,094 GFlops. Mit der Intel MKL erreichten wir mit folgender Konfiguration: \begin{lstlisting} T/V N NB P Q -------------------------------------- WC01C2C4 26208 128 2 4 \end{lstlisting} einen Wert von {\bf 4,076 GFlops}. Verglichen mit der theoretischen Floating Point Peak Performance von: \\ $1,6$ GHz $\cdot 2$ CPU-Kerne pro Prozessor $\cdot 1$ Instruktion pro Takt $\cdot 4$ CPUs $ = 12,8$ GFlops \\ erreichten wir damit also ca. 32 \% der maximal möglichen Leistung, was in Anbetracht des langsamen Verbindungsnetzwerkes ein akzeptabler Wert ist.