ltcp/bericht/bench/bench-hpl.tex

44 lines
1.5 KiB
TeX

\subsection{High Performance Linpack (HPL)}
Der HPL-Benchmark wurde mit folgenden Befehlen durchgeführt:
\shellcmd{source /cluster/software/hpl/load-env.sh} \\
\shellcmd{mpirun -x LD\_LIBRARY\_PATH -np 8 -hostfile allnodes -npernode 2 \textbackslash} \\
\shellcmd{\hspace{1cm} /cluster/software/hpl/run\_hpl > hpl.out}
In der Datei \emph{allnodes} sind die Hostnames der Compute-Nodes hinterlegt.
Beim Basislauf wurde ein maximaler Wert von $3,842 \cdot 10^{-4}$ GFlops mit folgender Konfiguration erreicht:
\begin{lstlisting}
T/V N NB P Q
--------------------------------------
WR00L2L2 35 4 1 4
\end{lstlisting}
Der optimierte Lauf mit der Standard-BLAS-Bibliothek des Systems mit der Konfiguration:
\begin{lstlisting}
T/V N NB P Q
--------------------------------------
WR00C2C2 26208 224 2 8
\end{lstlisting}
erreichte einen Wert von 2,094 GFlops.
Mit der Intel MKL erreichten wir mit folgender Konfiguration:
\begin{lstlisting}
T/V N NB P Q
--------------------------------------
WC01C2C4 26208 128 2 4
\end{lstlisting}
einen Wert von {\bf 4,076 GFlops}.
\subsubsection{Auswertung}
Verglichen mit der theoretischen Floating-Point-Peak-Performance von: \\ $1,6$
GHz $\cdot 2$ CPU-Kerne pro Prozessor $\cdot 2$ Instruktion pro Takt $\cdot 4$
CPUs $ = 25,6$ GFlops \\ erreichten wir also ca. 16 \% der maximal möglichen
Leistung, was in Anbetracht des langsamen Verbindungsnetzwerkes ein akzeptabler
Wert ist.