import of upstream 2.4.34.4 from kernel.org
[linux-2.4.git] / arch / ia64 / lib / xor.S
1 /*
2  * arch/ia64/lib/xor.S
3  *
4  * Optimized RAID-5 checksumming functions for IA-64.
5  *
6  * This program is free software; you can redistribute it and/or modify
7  * it under the terms of the GNU General Public License as published by
8  * the Free Software Foundation; either version 2, or (at your option)
9  * any later version.
10  *
11  * You should have received a copy of the GNU General Public License
12  * (for example /usr/src/linux/COPYING); if not, write to the Free
13  * Software Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
14  */
15
16 #include <asm/asmmacro.h>
17
18 GLOBAL_ENTRY(xor_ia64_2)
19         .prologue
20         .fframe 0
21         .save ar.pfs, r31
22         alloc r31 = ar.pfs, 3, 0, 13, 16
23         .save ar.lc, r30
24         mov r30 = ar.lc
25         .save pr, r29
26         mov r29 = pr
27         ;;
28         .body
29         mov r8 = in1
30         mov ar.ec = 6 + 2
31         shr in0 = in0, 3
32         ;;
33         adds in0 = -1, in0
34         mov r16 = in1
35         mov r17 = in2
36         ;;
37         mov ar.lc = in0
38         mov pr.rot = 1 << 16
39         ;;
40         .rotr s1[6+1], s2[6+1], d[2]
41         .rotp p[6+2]
42 0:
43 (p[0])  ld8.nta s1[0] = [r16], 8
44 (p[0])  ld8.nta s2[0] = [r17], 8
45 (p[6])  xor d[0] = s1[6], s2[6]
46 (p[6+1])st8.nta [r8] = d[1], 8
47         nop.f 0
48         br.ctop.dptk.few 0b
49         ;;
50         mov ar.lc = r30
51         mov pr = r29, -1
52         br.ret.sptk.few rp
53 END(xor_ia64_2)
54
55 GLOBAL_ENTRY(xor_ia64_3)
56         .prologue
57         .fframe 0
58         .save ar.pfs, r31
59         alloc r31 = ar.pfs, 4, 0, 20, 24
60         .save ar.lc, r30
61         mov r30 = ar.lc
62         .save pr, r29
63         mov r29 = pr
64         ;;
65         .body
66         mov r8 = in1
67         mov ar.ec = 6 + 2
68         shr in0 = in0, 3
69         ;;
70         adds in0 = -1, in0
71         mov r16 = in1
72         mov r17 = in2
73         ;;
74         mov r18 = in3
75         mov ar.lc = in0
76         mov pr.rot = 1 << 16
77         ;;
78         .rotr s1[6+1], s2[6+1], s3[6+1], d[2]
79         .rotp p[6+2]
80 0:
81 (p[0])  ld8.nta s1[0] = [r16], 8
82 (p[0])  ld8.nta s2[0] = [r17], 8
83 (p[6])  xor d[0] = s1[6], s2[6]
84         ;;
85 (p[0])  ld8.nta s3[0] = [r18], 8
86 (p[6+1])st8.nta [r8] = d[1], 8
87 (p[6])  xor d[0] = d[0], s3[6]
88         br.ctop.dptk.few 0b
89         ;;
90         mov ar.lc = r30
91         mov pr = r29, -1
92         br.ret.sptk.few rp
93 END(xor_ia64_3)
94
95 GLOBAL_ENTRY(xor_ia64_4)
96         .prologue
97         .fframe 0
98         .save ar.pfs, r31
99         alloc r31 = ar.pfs, 5, 0, 27, 32
100         .save ar.lc, r30
101         mov r30 = ar.lc
102         .save pr, r29
103         mov r29 = pr
104         ;;
105         .body
106         mov r8 = in1
107         mov ar.ec = 6 + 2
108         shr in0 = in0, 3
109         ;;
110         adds in0 = -1, in0
111         mov r16 = in1
112         mov r17 = in2
113         ;;
114         mov r18 = in3
115         mov ar.lc = in0
116         mov pr.rot = 1 << 16
117         mov r19 = in4
118         ;;
119         .rotr s1[6+1], s2[6+1], s3[6+1], s4[6+1], d[2]
120         .rotp p[6+2]
121 0:
122 (p[0])  ld8.nta s1[0] = [r16], 8
123 (p[0])  ld8.nta s2[0] = [r17], 8
124 (p[6])  xor d[0] = s1[6], s2[6]
125 (p[0])  ld8.nta s3[0] = [r18], 8
126 (p[0])  ld8.nta s4[0] = [r19], 8
127 (p[6])  xor r20 = s3[6], s4[6]
128         ;;
129 (p[6+1])st8.nta [r8] = d[1], 8
130 (p[6])  xor d[0] = d[0], r20
131         br.ctop.dptk.few 0b
132         ;;
133         mov ar.lc = r30
134         mov pr = r29, -1
135         br.ret.sptk.few rp
136 END(xor_ia64_4)
137
138 GLOBAL_ENTRY(xor_ia64_5)
139         .prologue
140         .fframe 0
141         .save ar.pfs, r31
142         alloc r31 = ar.pfs, 6, 0, 34, 40
143         .save ar.lc, r30
144         mov r30 = ar.lc
145         .save pr, r29
146         mov r29 = pr
147         ;;
148         .body
149         mov r8 = in1
150         mov ar.ec = 6 + 2
151         shr in0 = in0, 3
152         ;;
153         adds in0 = -1, in0
154         mov r16 = in1
155         mov r17 = in2
156         ;;
157         mov r18 = in3
158         mov ar.lc = in0
159         mov pr.rot = 1 << 16
160         mov r19 = in4
161         mov r20 = in5
162         ;;
163         .rotr s1[6+1], s2[6+1], s3[6+1], s4[6+1], s5[6+1], d[2]
164         .rotp p[6+2]
165 0:
166 (p[0])  ld8.nta s1[0] = [r16], 8
167 (p[0])  ld8.nta s2[0] = [r17], 8
168 (p[6])  xor d[0] = s1[6], s2[6]
169 (p[0])  ld8.nta s3[0] = [r18], 8
170 (p[0])  ld8.nta s4[0] = [r19], 8
171 (p[6])  xor r21 = s3[6], s4[6]
172         ;;
173 (p[0])  ld8.nta s5[0] = [r20], 8
174 (p[6+1])st8.nta [r8] = d[1], 8
175 (p[6])  xor d[0] = d[0], r21
176         ;;
177 (p[6])    xor d[0] = d[0], s5[6]
178         nop.f 0
179         br.ctop.dptk.few 0b
180         ;;
181         mov ar.lc = r30
182         mov pr = r29, -1
183         br.ret.sptk.few rp
184 END(xor_ia64_5)