powerpc-dcbt
authorDebian Science Team <debian-science-maintainers@lists.alioth.debian.org>
Thu, 25 Aug 2016 08:30:34 +0000 (08:30 +0000)
committerRaspbian forward porter <root@raspbian.org>
Thu, 25 Aug 2016 08:30:34 +0000 (08:30 +0000)
Gbp-Pq: Name powerpc-dcbt.patch

include/atlas_prefetch.h
tune/blas/gemm/CASES/ATL_cmm4x4x128_av.c
tune/blas/gemm/CASES/ATL_dmm4x4x32_ppc.c
tune/blas/gemm/CASES/ATL_dmm4x4x80_ppc.c
tune/blas/gemm/CASES/ATL_dmm8x4x2_vsx.c
tune/blas/gemm/CASES/ATL_smm4x4x128_av.c

index e7988a75c7fc17c2ce244bc7986baca3c21eac3f..5db4545f2a82020e5549cdab2e65fd9a86e6fd2f 100644 (file)
 #elif defined(ATL_GAS_PPC) && !defined(ATL_ARCH_POWER4)
    #if defined(__GNUC__) || defined(__IBM_GCC_ASM)
       #define ATL_pfl1R(mem) \
-         __asm__ __volatile__ ("dcbt  0, %0, 0" : : "r" ((mem)))
+         __asm__ __volatile__ ("dcbt  0, %0" : : "r" ((mem)))
       #define ATL_pfl1W(mem) \
          __asm__ __volatile__ ("dcbtst  0, %0" : : "r" ((mem)))
       #define ATL_pfST(mem) \
-         __asm__ __volatile__ ("dcbt  0, %0, 1" : : "r" ((mem)))
+         __asm__ __volatile__ ("dcbt  0, %0" : : "r" ((mem)))
       #define ATL_pfl1STi(mem, str) \
         __asm__ __volatile__ ("rlwinm %0, %0, 0, 0, 24\n\t" \
                               "ori %0, %0, 96+%2\n\t" \
-                              "dcbt 0, %0, 8"  \
+                              "dcbt 0, %0"  \
                               : "=r" (mem) \
                               : "0" (mem), "i" (str))
 
index 980d852047885259b24e891678c0556e6de03e31..fc9399578da28add20f005133c437318579ff43e 100644 (file)
@@ -350,7 +350,7 @@ MLOOPU:
       #endif
        vmaddfp vC01, vA0, vB1, vC33
        vmaddfp vC11, vA1, vB1, vC33
-                        dcbt    0, pfA, 0
+                        dcbt    0, pfA
        vmaddfp vC21, vA2, vB1, vC33
                         addi    pfA, pfA, 64
        vmaddfp vC31, vA3, vB1, vC33
@@ -737,7 +737,7 @@ MLOOPU:
    #endif
        vmaddfp vC02, va0, vb2, vC02
        vmaddfp vC12, va1, vb2, vC12
-                        dcbt    0, pfB, 0
+                        dcbt    0, pfB
        vmaddfp vC22, va2, vb2, vC22
                         addi    pfB, pfB, 64
        vmaddfp vC32, va3, vb2, vC32
@@ -2337,7 +2337,7 @@ MPEELEDU:
       #endif
        vmaddfp vC01, vA0, vB1, vC33
        vmaddfp vC11, vA1, vB1, vC33
-                        dcbt    0, pfA, 0
+                        dcbt    0, pfA
        vmaddfp vC21, vA2, vB1, vC33
                         addi    pfA, pfA, 64
        vmaddfp vC31, vA3, vB1, vC33
@@ -2724,7 +2724,7 @@ MPEELEDU:
    #endif
        vmaddfp vC02, va0, vb2, vC02
        vmaddfp vC12, va1, vb2, vC12
-                        dcbt    0, pfB, 0
+                        dcbt    0, pfB
        vmaddfp vC22, va2, vb2, vC22
                         addi    pfB, pfB, 64
        vmaddfp vC32, va3, vb2, vC32
index ce657e2ddad094eaf2151f3998eaa602a5a7e769..dc3eb960f97def8fe09ff35060e12c7033149c5b 100644 (file)
@@ -436,7 +436,7 @@ MLOOP:
        fmadd   rC00, rA0, rB0, rC00
         lfd     rb3, 8+KB3*8(pB0)
        fmadd   rC10, rA1, rB0, rC10
-                dcbt    0, pfB, 0
+                dcbt    0, pfB
                 addi    pfB, pfB, 128
        fmadd   rC20, rA2, rB0, rC20
        fmadd   rC30, rA3, rB0, rC30
@@ -2565,7 +2565,7 @@ MLOOP:
 #if KB > 1
        fmadd   rC00, ra0, rb0, rC00
        fmadd   rC10, ra1, rb0, rC10
-               dcbt    0, pfA, 0
+               dcbt    0, pfA
                addi    pfA, pfA, 128
        fmadd   rC20, ra2, rb0, rC20
        fmadd   rC30, ra3, rb0, rC30
index b5a4ae091d348afb394f620ff86d1bade292d3be..880db81c8bbb728d008041b12786523eb4b3a62e 100644 (file)
@@ -353,9 +353,9 @@ MLOOP:
        fmul    rC11, rA1, rB1
        fmul    rC21, rA2, rB1
        fmul    rC31, rA3, rB1
-               dcbt    0, pfA, 0
+               dcbt    0, pfA
                addi    pfA, pfA, 128
-               dcbt    0, pfB, 0
+               dcbt    0, pfB
                addi    pfB, pfB, 128
        fmul    rC02, rA0, rB2
        fmul    rC12, rA1, rB2
@@ -438,9 +438,9 @@ MLOOP:
        fmadd   rC12, rA1, rB2, rC12
        fmadd   rC22, rA2, rB2, rC22
        fmadd   rC32, rA3, rB2, rC32
-               dcbt    0, pfA, 0
+               dcbt    0, pfA
                addi    pfA, pfA, 128
-               dcbt    0, pfB, 0
+               dcbt    0, pfB
                addi    pfB, pfB, 128
        fmadd   rC03, rA0, rB3, rC03
        fmadd   rC13, rA1, rB3, rC13
@@ -467,8 +467,8 @@ MLOOP:
        fmadd   rC10, rA1, rB0, rC10
        fmadd   rC20, rA2, rB0, rC20
        fmadd   rC30, rA3, rB0, rC30
-               dcbt    0, pfA, 0
-               dcbt    0, pfB, 0
+               dcbt    0, pfA
+               dcbt    0, pfB
                addi    pfA, pfA, 128
                addi    pfB, pfB, 128
        fmadd   rC01, rA0, rB1, rC01
@@ -3956,9 +3956,9 @@ MPEELED:
        fmul    rC11, rA1, rB1
        fmul    rC21, rA2, rB1
        fmul    rC31, rA3, rB1
-               dcbt    0, pfA, 0
+               dcbt    0, pfA
                addi    pfA, pfA, 128
-               dcbt    0, pfB, 0
+               dcbt    0, pfB
                addi    pfB, pfB, 128
        fmul    rC02, rA0, rB2
        fmul    rC12, rA1, rB2
@@ -4041,9 +4041,9 @@ MPEELED:
        fmadd   rC12, rA1, rB2, rC12
        fmadd   rC22, rA2, rB2, rC22
        fmadd   rC32, rA3, rB2, rC32
-               dcbt    0, pfA, 0
+               dcbt    0, pfA
                addi    pfA, pfA, 128
-               dcbt    0, pfB, 0
+               dcbt    0, pfB
                addi    pfB, pfB, 128
        fmadd   rC03, rA0, rB3, rC03
        fmadd   rC13, rA1, rB3, rC13
@@ -4070,8 +4070,8 @@ MPEELED:
        fmadd   rC10, rA1, rB0, rC10
        fmadd   rC20, rA2, rB0, rC20
        fmadd   rC30, rA3, rB0, rC30
-               dcbt    0, pfA, 0
-               dcbt    0, pfB, 0
+               dcbt    0, pfA
+               dcbt    0, pfB
                addi    pfA, pfA, 128
                addi    pfB, pfB, 128
        fmadd   rC01, rA0, rB1, rC01
index 1feb0ca20456f40ca239b549c1b3bf48073c323d..f7b597306c5f097ee53b4bc90a531461aa8c16ad 100644 (file)
@@ -60,7 +60,7 @@ static inline vector TYPE vec_mergel(vector TYPE a, vector TYPE b)
 #ifndef ATL_GOT_L1PREFETCH
 #ifdef _ARCH_PPC
 #undef ATL_pfl1R
-#define ATL_pfl1R(mem)  { __asm__ volatile ("dcbt 0, %0, 0" : : "r" ((mem))); }
+#define ATL_pfl1R(mem)  { __asm__ volatile ("dcbt 0, %0" : : "r" ((mem))); }
 #endif
 #endif
 
index 0eb886668209e924bd305552c9aa5a076a6ef44f..f4efaf69ae1b1e099ef3156bd7d6c642a52f600d 100644 (file)
@@ -376,7 +376,7 @@ MLOOP:
       #endif
        vmaddfp vC01, vA0, vB1, vC33
        vmaddfp vC11, vA1, vB1, vC33
-                        dcbt    0, pfA, 0
+                        dcbt    0, pfA
        vmaddfp vC21, vA2, vB1, vC33
                         addi    pfA, pfA, 64
        vmaddfp vC31, vA3, vB1, vC33
@@ -763,7 +763,7 @@ MLOOP:
    #endif
        vmaddfp vC02, va0, vb2, vC02
        vmaddfp vC12, va1, vb2, vC12
-                        dcbt    0, pfB, 0
+                        dcbt    0, pfB
        vmaddfp vC22, va2, vb2, vC22
                         addi    pfB, pfB, 64
        vmaddfp vC32, va3, vb2, vC32
@@ -1352,7 +1352,7 @@ MLOOP:
    #endif
        vmaddfp vC01, vA0, vB1, vC01
    #ifdef BETAX
-       dcbt    0, pBETA, 0
+       dcbt    0, pBETA
    #endif
        vmaddfp vC11, vA1, vB1, vC11
        vmaddfp vC21, vA2, vB1, vC21
@@ -2319,7 +2319,7 @@ MPEELED:
       #endif
        vmaddfp vC01, vA0, vB1, vC33
        vmaddfp vC11, vA1, vB1, vC33
-                        dcbt    0, pfA, 0
+                        dcbt    0, pfA
        vmaddfp vC21, vA2, vB1, vC33
                         addi    pfA, pfA, 64
        vmaddfp vC31, vA3, vB1, vC33
@@ -2706,7 +2706,7 @@ MPEELED:
    #endif
        vmaddfp vC02, va0, vb2, vC02
        vmaddfp vC12, va1, vb2, vC12
-                        dcbt    0, pfB, 0
+                        dcbt    0, pfB
        vmaddfp vC22, va2, vb2, vC22
                         addi    pfB, pfB, 64
        vmaddfp vC32, va3, vb2, vC32
@@ -4379,7 +4379,7 @@ MLOOPU:
       #endif
        vmaddfp vC01, vA0, vB1, vC33
        vmaddfp vC11, vA1, vB1, vC33
-                        dcbt    0, pfA, 0
+                        dcbt    0, pfA
        vmaddfp vC21, vA2, vB1, vC33
                         addi    pfA, pfA, 64
        vmaddfp vC31, vA3, vB1, vC33
@@ -4766,7 +4766,7 @@ MLOOPU:
    #endif
        vmaddfp vC02, va0, vb2, vC02
        vmaddfp vC12, va1, vb2, vC12
-                        dcbt    0, pfB, 0
+                        dcbt    0, pfB
        vmaddfp vC22, va2, vb2, vC22
                         addi    pfB, pfB, 64
        vmaddfp vC32, va3, vb2, vC32
@@ -5355,7 +5355,7 @@ MLOOPU:
    #endif
        vmaddfp vC01, vA0, vB1, vC01
    #ifdef BETAX
-       dcbt    0, pBETA, 0
+       dcbt    0, pBETA
    #endif
        vmaddfp vC11, vA1, vB1, vC11
        vmaddfp vC21, vA2, vB1, vC21
@@ -6397,7 +6397,7 @@ MPEELEDU:
       #endif
        vmaddfp vC01, vA0, vB1, vC33
        vmaddfp vC11, vA1, vB1, vC33
-                        dcbt    0, pfA, 0
+                        dcbt    0, pfA
        vmaddfp vC21, vA2, vB1, vC33
                         addi    pfA, pfA, 64
        vmaddfp vC31, vA3, vB1, vC33
@@ -6784,7 +6784,7 @@ MPEELEDU:
    #endif
        vmaddfp vC02, va0, vb2, vC02
        vmaddfp vC12, va1, vb2, vC12
-                        dcbt    0, pfB, 0
+                        dcbt    0, pfB
        vmaddfp vC22, va2, vb2, vC22
                         addi    pfB, pfB, 64
        vmaddfp vC32, va3, vb2, vC32