HPL überarbeitet

2014-01-20 14:34:29 +01:00 · 2014-01-20 14:34:29 +01:00 · 5993605a6b
commit 5993605a6b
parent 52d2817fae
4 changed files with 23 additions and 10 deletions
--- a/bericht/abschnitte/bench-hpl.tex
+++ b/bericht/abschnitte/bench-hpl.tex
@ -1,11 +1,13 @@
 \subsection{High Performance Linpack (HPL)} 

-Der HPL-Benchmark wurde mit folgenden Befehl durchgeführt:
+Der HPL-Benchmark wurde mit folgenden Befehlen durchgeführt:

-\shellcmd{mpirun -np 16 -hostfile allnodes /cluster/software/hpl/run\_hpl > hpl.out}
+\shellcmd{source /cluster/software/hpl/load-env.sh} \\
+\shellcmd{mpirun -x LD\_LIBRARY\_PATH -np 8 -hostfile allnodes -npernode 2 \textbackslash} \\
+\shellcmd{\hspace{1cm} /cluster/software/hpl/run\_hpl > hpl.out}

-In der Datei {\tt allnodes} sind die Hostnames der Computenodes und die Anzahl der Sockets (2 pro Core) hinterlegt.
-Beim Basislauf wurde ein maximaler Wert von {\tt 3.842e-04 GFlops} mit folgender Konfiguration erreicht:
+In der Datei {\tt allnodes} sind die Hostnames der Computenodes hinterlegt.
+Beim Basislauf wurde ein maximaler Wert von $3,842 \cdot 10^{-4}$ GFlops mit folgender Konfiguration erreicht:

 \begin{lstlisting}
 	T/V                N    NB     P     Q
@ -13,7 +15,7 @@ Beim Basislauf wurde ein maximaler Wert von {\tt 3.842e-04 GFlops} mit folgender
 	WR00L2L2          35     4     1     4
 \end{lstlisting}

-Der optimierte Lauf mit der Konfiguration:
+Der optimierte Lauf mit der Standard BLAS-Library des Systems mit der Konfiguration:

 \begin{lstlisting}
 	T/V                N    NB     P     Q
@ -21,4 +23,15 @@ Der optimierte Lauf mit der Konfiguration:
 	WR00C2C2       26208   224     2     8
 \end{lstlisting}

-erreichte einen Wert von {\tt 2.094e+00 GFlops}.
+erreichte einen Wert von 2,094 GFlops.
+
+Mit der Intel MKL erreichten wir mit folgender Konfiguration:
+\begin{lstlisting}
+        T/V                N    NB     P     Q
+        --------------------------------------
+        WC01C2C4       26208   128     2     4
+\end{lstlisting}
+
+einen Wert von {\bf 4,076 GFlops}. Verglichen mit der theoretischen Floating Point Peak Performance von: \\
+$1,6$ GHz $\cdot 2$ CPU-Kerne pro Prozessor $\cdot 1$ Instruktion pro Takt $\cdot 4$ CPUs $ = 12,8$ GFlops \\
+erreichten wir damit also ca. 32 \% der maximal möglichen Leistung, was in Anbetracht des langsamen Verbindungsnetzwerkes ein akzeptabler Wert ist.
--- a/bericht/abschnitte/bench-iozone.tex
+++ b/bericht/abschnitte/bench-iozone.tex
@ -12,10 +12,10 @@ Es wurden ein neu angelegtes NFS- und das vorhandene FastFS-Dateisystem vermesse

 Testaufruf:

-\shellcmd{./iozone -azcR -I -U /mnt/data -f /mnt/data/testfile -b excel-nfs.xls}\\
+\shellcmd{./iozone -azcR -I -U /mnt/data -f /mnt/data/testfile -b excel-nfs.xls}


-\subsubsection{FastFS}
+\subsubsection{GlusterFS}

 \begin{figure}[h!]
  \centering
--- a/2
+++ b/2
@ -1 +1 @@
-Subproject commit 7abd329ac66148a9b6adcf5c022e84893b72a36b
+Subproject commit b63daf5cbc2272cd20277a157bf025c695a5bb45
--- a/2
+++ b/2
@ -1 +1 @@
-Subproject commit e67584ad2c8222932e65a5d340e3469780acc3b4
+Subproject commit 4577c74a7b11d23834a2fd53d0f0646e0d6d0622