ltcp/bericht/bench/bench-hpl.tex

\subsection{High Performance Linpack (HPL)} 

Der HPL-Benchmark wurde mit folgenden Befehlen durchgeführt:

\shellcmd{source /cluster/software/hpl/load-env.sh} \\
\shellcmd{mpirun -x LD\_LIBRARY\_PATH -np 8 -hostfile allnodes -npernode 2 \textbackslash} \\
\shellcmd{\hspace{1cm} /cluster/software/hpl/run\_hpl > hpl.out}

In der Datei \emph{allnodes} sind die Hostnames der Computenodes hinterlegt.
Beim Basislauf wurde ein maximaler Wert von $3,842 \cdot 10^{-4}$ GFlops mit folgender Konfiguration erreicht:

\begin{lstlisting}
	T/V                N    NB     P     Q
	--------------------------------------
	WR00L2L2          35     4     1     4
\end{lstlisting}

Der optimierte Lauf mit der Standard BLAS-Library des Systems mit der Konfiguration:

\begin{lstlisting}
	T/V                N    NB     P     Q
	--------------------------------------
	WR00C2C2       26208   224     2     8
\end{lstlisting}

erreichte einen Wert von 2,094 GFlops.

Mit der Intel MKL erreichten wir mit folgender Konfiguration:
\begin{lstlisting}
        T/V                N    NB     P     Q
        --------------------------------------
        WC01C2C4       26208   128     2     4
\end{lstlisting}

einen Wert von {\bf 4,076 GFlops}.

\subsubsection{Auswertung}

Verglichen mit der theoretischen Floating Point Peak Performance von: \\
$1,6$ GHz $\cdot 2$ CPU-Kerne pro Prozessor $\cdot 2$ Instruktion pro Takt $\cdot 4$ CPUs $ = 25,6$ GFlops \\
erreichten wir damit also ca. 16 \% der maximal möglichen Leistung, was in Anbetracht des langsamen Verbindungsnetzwerkes ein akzeptabler Wert ist.
Maui Abschnitt hinzugefügt; Templates für Benchmarking 2014-01-15 16:57:03 +00:00			`\subsection{High Performance Linpack (HPL)}`
benchmark-bericht 2014-01-16 13:07:42 +00:00
HPL überarbeitet 2014-01-20 13:34:29 +00:00			`Der HPL-Benchmark wurde mit folgenden Befehlen durchgeführt:`
benchmark-bericht 2014-01-16 13:07:42 +00:00
HPL überarbeitet 2014-01-20 13:34:29 +00:00			`\shellcmd{source /cluster/software/hpl/load-env.sh} \\`
			`\shellcmd{mpirun -x LD\_LIBRARY\_PATH -np 8 -hostfile allnodes -npernode 2 \textbackslash} \\`
			`\shellcmd{\hspace{1cm} /cluster/software/hpl/run\_hpl > hpl.out}`
benchmark-bericht 2014-01-16 13:07:42 +00:00
replace \tt by \emph (\tt is deprecated) 2014-03-20 07:41:07 +00:00			`In der Datei \emph{allnodes} sind die Hostnames der Computenodes hinterlegt.`
HPL überarbeitet 2014-01-20 13:34:29 +00:00			`Beim Basislauf wurde ein maximaler Wert von $3,842 \cdot 10^{-4}$ GFlops mit folgender Konfiguration erreicht:`
benchmark-bericht 2014-01-16 13:07:42 +00:00
			`\begin{lstlisting}`
			`T/V N NB P Q`
			`--------------------------------------`
			`WR00L2L2 35 4 1 4`
			`\end{lstlisting}`

HPL überarbeitet 2014-01-20 13:34:29 +00:00			`Der optimierte Lauf mit der Standard BLAS-Library des Systems mit der Konfiguration:`
benchmark-bericht 2014-01-16 13:07:42 +00:00
			`\begin{lstlisting}`
			`T/V N NB P Q`
			`--------------------------------------`
			`WR00C2C2 26208 224 2 8`
			`\end{lstlisting}`

HPL überarbeitet 2014-01-20 13:34:29 +00:00			`erreichte einen Wert von 2,094 GFlops.`

			`Mit der Intel MKL erreichten wir mit folgender Konfiguration:`
			`\begin{lstlisting}`
			`T/V N NB P Q`
			`--------------------------------------`
			`WC01C2C4 26208 128 2 4`
			`\end{lstlisting}`

Diagramme gefixt 2014-01-20 18:45:53 +00:00			`einen Wert von {\bf 4,076 GFlops}.`

			`\subsubsection{Auswertung}`

			`Verglichen mit der theoretischen Floating Point Peak Performance von: \\`
			`$1,6$ GHz $\cdot 2$ CPU-Kerne pro Prozessor $\cdot 2$ Instruktion pro Takt $\cdot 4$ CPUs $ = 25,6$ GFlops \\`
			`erreichten wir damit also ca. 16 \% der maximal möglichen Leistung, was in Anbetracht des langsamen Verbindungsnetzwerkes ein akzeptabler Wert ist.`