drivers/staging/skein/skein_block.c

   1 /***********************************************************************
   2 **
   3 ** Implementation of the Skein block functions.
   4 **
   5 ** Source code author: Doug Whiting, 2008.
   6 **
   7 ** This algorithm and source code is released to the public domain.
   8 **
   9 ** Compile-time switches:
  10 **
  11 **  SKEIN_USE_ASM  -- set bits (256/512/1024) to select which
  12 **                    versions use ASM code for block processing
  13 **                    [default: use C for all block sizes]
  14 **
  15 ************************************************************************/
  16
  17 #include <linux/string.h>
  18 #include "skein_base.h"
  19 #include "skein_block.h"
  20
  21 #ifndef SKEIN_USE_ASM
  22 #define SKEIN_USE_ASM   (0) /* default is all C code (no ASM) */
  23 #endif
  24
  25 #ifndef SKEIN_LOOP
  26 #define SKEIN_LOOP 001 /* default: unroll 256 and 512, but not 1024 */
  27 #endif
  28
  29 #define BLK_BITS        (WCNT * 64) /* some useful definitions for code here */
  30 #define KW_TWK_BASE     (0)
  31 #define KW_KEY_BASE     (3)
  32 #define ks              (kw + KW_KEY_BASE)
  33 #define ts              (kw + KW_TWK_BASE)
  34
  35 #ifdef SKEIN_DEBUG
  36 #define debug_save_tweak(ctx)       \
  37 {                                   \
  38         ctx->h.tweak[0] = ts[0];    \
  39         ctx->h.tweak[1] = ts[1];    \
  40 }
  41 #else
  42 #define debug_save_tweak(ctx)
  43 #endif
  44
  45 #if !(SKEIN_USE_ASM & 256)
  46 #undef  RCNT
  47 #define RCNT (SKEIN_256_ROUNDS_TOTAL / 8)
  48 #ifdef SKEIN_LOOP /* configure how much to unroll the loop */
  49 #define SKEIN_UNROLL_256 (((SKEIN_LOOP) / 100) % 10)
  50 #else
  51 #define SKEIN_UNROLL_256 (0)
  52 #endif
  53
  54 #if SKEIN_UNROLL_256
  55 #if (RCNT % SKEIN_UNROLL_256)
  56 #error "Invalid SKEIN_UNROLL_256" /* sanity check on unroll count */
  57 #endif
  58 #endif
  59 #define ROUND256(p0, p1, p2, p3, ROT, r_num) \
  60 do {                                         \
  61         X##p0 += X##p1;                      \
  62         X##p1 = rotl_64(X##p1, ROT##_0);     \
  63         X##p1 ^= X##p0;                      \
  64         X##p2 += X##p3;                      \
  65         X##p3 = rotl_64(X##p3, ROT##_1);     \
  66         X##p3 ^= X##p2;                      \
  67 } while (0)
  68
  69 #if SKEIN_UNROLL_256 == 0
  70 #define R256(p0, p1, p2, p3, ROT, r_num) /* fully unrolled */ \
  71 do {                                                          \
  72         ROUND256(p0, p1, p2, p3, ROT, r_num);                 \
  73 } while (0)
  74
  75 #define I256(R)                                                           \
  76 do {                                                                      \
  77         /* inject the key schedule value */                               \
  78         X0   += ks[((R) + 1) % 5];                                        \
  79         X1   += ks[((R) + 2) % 5] + ts[((R) + 1) % 3];                    \
  80         X2   += ks[((R) + 3) % 5] + ts[((R) + 2) % 3];                    \
  81         X3   += ks[((R) + 4) % 5] + (R) + 1;                              \
  82 } while (0)
  83 #else
  84 /* looping version */
  85 #define R256(p0, p1, p2, p3, ROT, r_num) ROUND256(p0, p1, p2, p3, ROT, r_num)
  86
  87 #define I256(R) \
  88 do { \
  89         /* inject the key schedule value */ \
  90         X0 += ks[r + (R) + 0]; \
  91         X1 += ks[r + (R) + 1] + ts[r + (R) + 0];                          \
  92         X2 += ks[r + (R) + 2] + ts[r + (R) + 1];                          \
  93         X3 += ks[r + (R) + 3] + r + (R);                                  \
  94         /* rotate key schedule */                                         \
  95         ks[r + (R) + 4] = ks[r + (R) - 1];                                \
  96         ts[r + (R) + 2] = ts[r + (R) - 1];                                \
  97 } while (0)
  98 #endif
  99 #define R256_8_ROUNDS(R)                                 \
 100 do {                                                     \
 101                 R256(0, 1, 2, 3, R_256_0, 8 * (R) + 1);  \
 102                 R256(0, 3, 2, 1, R_256_1, 8 * (R) + 2);  \
 103                 R256(0, 1, 2, 3, R_256_2, 8 * (R) + 3);  \
 104                 R256(0, 3, 2, 1, R_256_3, 8 * (R) + 4);  \
 105                 I256(2 * (R));                           \
 106                 R256(0, 1, 2, 3, R_256_4, 8 * (R) + 5);  \
 107                 R256(0, 3, 2, 1, R_256_5, 8 * (R) + 6);  \
 108                 R256(0, 1, 2, 3, R_256_6, 8 * (R) + 7);  \
 109                 R256(0, 3, 2, 1, R_256_7, 8 * (R) + 8);  \
 110                 I256(2 * (R) + 1);                       \
 111 } while (0)
 112
 113 #define R256_UNROLL_R(NN)                     \
 114         ((SKEIN_UNROLL_256 == 0 &&            \
 115         SKEIN_256_ROUNDS_TOTAL / 8 > (NN)) || \
 116         (SKEIN_UNROLL_256 > (NN)))
 117
 118 #if  (SKEIN_UNROLL_256 > 14)
 119 #error  "need more unrolling in skein_256_process_block"
 120 #endif
 121 #endif
 122
 123 #if !(SKEIN_USE_ASM & 512)
 124 #undef  RCNT
 125 #define RCNT  (SKEIN_512_ROUNDS_TOTAL/8)
 126
 127 #ifdef SKEIN_LOOP /* configure how much to unroll the loop */
 128 #define SKEIN_UNROLL_512 (((SKEIN_LOOP)/10)%10)
 129 #else
 130 #define SKEIN_UNROLL_512 (0)
 131 #endif
 132
 133 #if SKEIN_UNROLL_512
 134 #if (RCNT % SKEIN_UNROLL_512)
 135 #error "Invalid SKEIN_UNROLL_512" /* sanity check on unroll count */
 136 #endif
 137 #endif
 138 #define ROUND512(p0, p1, p2, p3, p4, p5, p6, p7, ROT, r_num) \
 139 do {                                                         \
 140         X##p0 += X##p1;                                      \
 141         X##p1 = rotl_64(X##p1, ROT##_0);                     \
 142         X##p1 ^= X##p0;                                      \
 143         X##p2 += X##p3;                                      \
 144         X##p3 = rotl_64(X##p3, ROT##_1);                     \
 145         X##p3 ^= X##p2;                                      \
 146         X##p4 += X##p5;                                      \
 147         X##p5 = rotl_64(X##p5, ROT##_2);                     \
 148         X##p5 ^= X##p4;                                      \
 149         X##p6 += X##p7; X##p7 = rotl_64(X##p7, ROT##_3);     \
 150         X##p7 ^= X##p6;                                      \
 151 } while (0)
 152
 153 #if SKEIN_UNROLL_512 == 0
 154 #define R512(p0, p1, p2, p3, p4, p5, p6, p7, ROT, r_num) /* unrolled */ \
 155 do {                                                                    \
 156         ROUND512(p0, p1, p2, p3, p4, p5, p6, p7, ROT, r_num);           \
 157 } while (0)
 158
 159 #define I512(R)                                                           \
 160 do {                                                                      \
 161         /* inject the key schedule value */                               \
 162         X0   += ks[((R) + 1) % 9];                                        \
 163         X1   += ks[((R) + 2) % 9];                                        \
 164         X2   += ks[((R) + 3) % 9];                                        \
 165         X3   += ks[((R) + 4) % 9];                                        \
 166         X4   += ks[((R) + 5) % 9];                                        \
 167         X5   += ks[((R) + 6) % 9] + ts[((R) + 1) % 3];                    \
 168         X6   += ks[((R) + 7) % 9] + ts[((R) + 2) % 3];                    \
 169         X7   += ks[((R) + 8) % 9] + (R) + 1;                              \
 170 } while (0)
 171
 172 #else /* looping version */
 173 #define R512(p0, p1, p2, p3, p4, p5, p6, p7, ROT, r_num)                 \
 174         ROUND512(p0, p1, p2, p3, p4, p5, p6, p7, ROT, r_num)             \
 175
 176 #define I512(R)                                                           \
 177 do {                                                                      \
 178         /* inject the key schedule value */                               \
 179         X0   += ks[r + (R) + 0];                                          \
 180         X1   += ks[r + (R) + 1];                                          \
 181         X2   += ks[r + (R) + 2];                                          \
 182         X3   += ks[r + (R) + 3];                                          \
 183         X4   += ks[r + (R) + 4];                                          \
 184         X5   += ks[r + (R) + 5] + ts[r + (R) + 0];                        \
 185         X6   += ks[r + (R) + 6] + ts[r + (R) + 1];                        \
 186         X7   += ks[r + (R) + 7] + r + (R);                                \
 187         /* rotate key schedule */                                         \
 188         ks[r + (R) + 8] = ks[r + (R) - 1];                                \
 189         ts[r + (R) + 2] = ts[r + (R) - 1];                                \
 190 } while (0)
 191 #endif /* end of looped code definitions */
 192 #define R512_8_ROUNDS(R)  /* do 8 full rounds */                      \
 193 do {                                                                  \
 194                 R512(0, 1, 2, 3, 4, 5, 6, 7, R_512_0, 8 * (R) + 1);   \
 195                 R512(2, 1, 4, 7, 6, 5, 0, 3, R_512_1, 8 * (R) + 2);   \
 196                 R512(4, 1, 6, 3, 0, 5, 2, 7, R_512_2, 8 * (R) + 3);   \
 197                 R512(6, 1, 0, 7, 2, 5, 4, 3, R_512_3, 8 * (R) + 4);   \
 198                 I512(2 * (R));                              \
 199                 R512(0, 1, 2, 3, 4, 5, 6, 7, R_512_4, 8 * (R) + 5);   \
 200                 R512(2, 1, 4, 7, 6, 5, 0, 3, R_512_5, 8 * (R) + 6);   \
 201                 R512(4, 1, 6, 3, 0, 5, 2, 7, R_512_6, 8 * (R) + 7);   \
 202                 R512(6, 1, 0, 7, 2, 5, 4, 3, R_512_7, 8 * (R) + 8);   \
 203                 I512(2 * (R) + 1);        /* and key injection */     \
 204 } while (0)
 205 #define R512_UNROLL_R(NN)                             \
 206                 ((SKEIN_UNROLL_512 == 0 &&            \
 207                 SKEIN_512_ROUNDS_TOTAL/8 > (NN)) ||   \
 208                 (SKEIN_UNROLL_512 > (NN)))
 209
 210 #if  (SKEIN_UNROLL_512 > 14)
 211 #error  "need more unrolling in skein_512_process_block"
 212 #endif
 213 #endif
 214
 215 #if !(SKEIN_USE_ASM & 1024)
 216 #undef  RCNT
 217 #define RCNT  (SKEIN_1024_ROUNDS_TOTAL/8)
 218 #ifdef SKEIN_LOOP /* configure how much to unroll the loop */
 219 #define SKEIN_UNROLL_1024 ((SKEIN_LOOP)%10)
 220 #else
 221 #define SKEIN_UNROLL_1024 (0)
 222 #endif
 223
 224 #if (SKEIN_UNROLL_1024 != 0)
 225 #if (RCNT % SKEIN_UNROLL_1024)
 226 #error "Invalid SKEIN_UNROLL_1024" /* sanity check on unroll count */
 227 #endif
 228 #endif
 229 #define ROUND1024(p0, p1, p2, p3, p4, p5, p6, p7, p8, p9, pA, pB, pC, pD, pE, \
 230                   pF, ROT, r_num)                                             \
 231 do {                                                                          \
 232         X##p0 += X##p1;                                                       \
 233         X##p1 = rotl_64(X##p1, ROT##_0);                                      \
 234         X##p1 ^= X##p0;                                                       \
 235         X##p2 += X##p3;                                                       \
 236         X##p3 = rotl_64(X##p3, ROT##_1);                                      \
 237         X##p3 ^= X##p2;                                                       \
 238         X##p4 += X##p5;                                                       \
 239         X##p5 = rotl_64(X##p5, ROT##_2);                                      \
 240         X##p5 ^= X##p4;                                                       \
 241         X##p6 += X##p7;                                                       \
 242         X##p7 = rotl_64(X##p7, ROT##_3);                                      \
 243         X##p7 ^= X##p6;                                                       \
 244         X##p8 += X##p9;                                                       \
 245         X##p9 = rotl_64(X##p9, ROT##_4);                                      \
 246         X##p9 ^= X##p8;                                                       \
 247         X##pA += X##pB;                                                       \
 248         X##pB = rotl_64(X##pB, ROT##_5);                                      \
 249         X##pB ^= X##pA;                                                       \
 250         X##pC += X##pD;                                                       \
 251         X##pD = rotl_64(X##pD, ROT##_6);                                      \
 252         X##pD ^= X##pC;                                                       \
 253         X##pE += X##pF;                                                       \
 254         X##pF = rotl_64(X##pF, ROT##_7);                                      \
 255         X##pF ^= X##pE;                                                       \
 256 } while (0)
 257
 258 #if SKEIN_UNROLL_1024 == 0
 259 #define R1024(p0, p1, p2, p3, p4, p5, p6, p7, p8, p9, pA, pB, pC, pD, pE, pF, \
 260               ROT, rn)                                                        \
 261         ROUND1024(p0, p1, p2, p3, p4, p5, p6, p7, p8, p9, pA, pB, pC, pD, pE, \
 262                   pF, ROT, rn)                                                \
 263
 264 #define I1024(R)                                                          \
 265 do {                                                                      \
 266         /* inject the key schedule value */                               \
 267         X00 += ks[((R) + 1) % 17];                                        \
 268         X01 += ks[((R) + 2) % 17];                                        \
 269         X02 += ks[((R) + 3) % 17];                                        \
 270         X03 += ks[((R) + 4) % 17];                                        \
 271         X04 += ks[((R) + 5) % 17];                                        \
 272         X05 += ks[((R) + 6) % 17];                                        \
 273         X06 += ks[((R) + 7) % 17];                                        \
 274         X07 += ks[((R) + 8) % 17];                                        \
 275         X08 += ks[((R) + 9) % 17];                                        \
 276         X09 += ks[((R) + 10) % 17];                                       \
 277         X10 += ks[((R) + 11) % 17];                                       \
 278         X11 += ks[((R) + 12) % 17];                                       \
 279         X12 += ks[((R) + 13) % 17];                                       \
 280         X13 += ks[((R) + 14) % 17] + ts[((R) + 1) % 3];                   \
 281         X14 += ks[((R) + 15) % 17] + ts[((R) + 2) % 3];                   \
 282         X15 += ks[((R) + 16) % 17] + (R) + 1;                             \
 283 } while (0)
 284 #else /* looping version */
 285 #define R1024(p0, p1, p2, p3, p4, p5, p6, p7, p8, p9, pA, pB, pC, pD, pE, pF, \
 286               ROT, rn)                                                        \
 287         ROUND1024(p0, p1, p2, p3, p4, p5, p6, p7, p8, p9, pA, pB, pC, pD, pE, \
 288                   pF, ROT, rn)                                                \
 289
 290 #define I1024(R)                                                           \
 291 do {                                                                       \
 292         /* inject the key schedule value */                                \
 293         X00 += ks[r + (R) + 0];                                            \
 294         X01 += ks[r + (R) + 1];                                            \
 295         X02 += ks[r + (R) + 2];                                            \
 296         X03 += ks[r + (R) + 3];                                            \
 297         X04 += ks[r + (R) + 4];                                            \
 298         X05 += ks[r + (R) + 5];                                            \
 299         X06 += ks[r + (R) + 6];                                            \
 300         X07 += ks[r + (R) + 7];                                            \
 301         X08 += ks[r + (R) + 8];                                            \
 302         X09 += ks[r + (R) + 9];                                            \
 303         X10 += ks[r + (R) + 10];                                           \
 304         X11 += ks[r + (R) + 11];                                           \
 305         X12 += ks[r + (R) + 12];                                           \
 306         X13 += ks[r + (R) + 13] + ts[r + (R) + 0];                         \
 307         X14 += ks[r + (R) + 14] + ts[r + (R) + 1];                         \
 308         X15 += ks[r + (R) + 15] + r + (R);                                 \
 309         /* rotate key schedule */                                          \
 310         ks[r + (R) + 16] = ks[r + (R) - 1];                                \
 311         ts[r + (R) + 2] = ts[r + (R) - 1];                                 \
 312 } while (0)
 313
 314 #endif
 315 #define R1024_8_ROUNDS(R)                                                     \
 316 do {                                                                          \
 317         R1024(00, 01, 02, 03, 04, 05, 06, 07, 08, 09, 10, 11, 12, 13, 14, 15, \
 318               R1024_0, 8*(R) + 1);                                            \
 319         R1024(00, 09, 02, 13, 06, 11, 04, 15, 10, 07, 12, 03, 14, 05, 08, 01, \
 320               R1024_1, 8*(R) + 2);                                            \
 321         R1024(00, 07, 02, 05, 04, 03, 06, 01, 12, 15, 14, 13, 08, 11, 10, 09, \
 322               R1024_2, 8*(R) + 3);                                            \
 323         R1024(00, 15, 02, 11, 06, 13, 04, 09, 14, 01, 08, 05, 10, 03, 12, 07, \
 324               R1024_3, 8*(R) + 4);                                            \
 325         I1024(2*(R));                                                         \
 326         R1024(00, 01, 02, 03, 04, 05, 06, 07, 08, 09, 10, 11, 12, 13, 14, 15, \
 327               R1024_4, 8*(R) + 5);                                            \
 328         R1024(00, 09, 02, 13, 06, 11, 04, 15, 10, 07, 12, 03, 14, 05, 08, 01, \
 329               R1024_5, 8*(R) + 6);                                            \
 330         R1024(00, 07, 02, 05, 04, 03, 06, 01, 12, 15, 14, 13, 08, 11, 10, 09, \
 331               R1024_6, 8*(R) + 7);                                            \
 332         R1024(00, 15, 02, 11, 06, 13, 04, 09, 14, 01, 08, 05, 10, 03, 12, 07, \
 333               R1024_7, 8*(R) + 8);                                            \
 334         I1024(2*(R)+1);                                                       \
 335 } while (0)
 336
 337 #define R1024_UNROLL_R(NN)                              \
 338                 ((SKEIN_UNROLL_1024 == 0 &&             \
 339                 SKEIN_1024_ROUNDS_TOTAL/8 > (NN)) ||  \
 340                 (SKEIN_UNROLL_1024 > (NN)))
 341
 342 #if  (SKEIN_UNROLL_1024 > 14)
 343 #error  "need more unrolling in Skein_1024_Process_Block"
 344 #endif
 345 #endif
 346
 347 /*****************************  SKEIN_256 ******************************/
 348 #if !(SKEIN_USE_ASM & 256)
 349 void skein_256_process_block(struct skein_256_ctx *ctx, const u8 *blk_ptr,
 350                              size_t blk_cnt, size_t byte_cnt_add)
 351 { /* do it in C */
 352         enum {
 353                 WCNT = SKEIN_256_STATE_WORDS
 354         };
 355         size_t r;
 356 #if SKEIN_UNROLL_256
 357         /* key schedule: chaining vars + tweak + "rot"*/
 358         u64  kw[WCNT+4+RCNT*2];
 359 #else
 360         /* key schedule words : chaining vars + tweak */
 361         u64  kw[WCNT+4];
 362 #endif
 363         u64  X0, X1, X2, X3; /* local copy of context vars, for speed */
 364         u64  w[WCNT]; /* local copy of input block */
 365 #ifdef SKEIN_DEBUG
 366         const u64 *X_ptr[4]; /* use for debugging (help cc put Xn in regs) */
 367
 368         X_ptr[0] = &X0;
 369         X_ptr[1] = &X1;
 370         X_ptr[2] = &X2;
 371         X_ptr[3] = &X3;
 372 #endif
 373         skein_assert(blk_cnt != 0); /* never call with blk_cnt == 0! */
 374         ts[0] = ctx->h.tweak[0];
 375         ts[1] = ctx->h.tweak[1];
 376         do  {
 377                 /*
 378                  * this implementation only supports 2**64 input bytes
 379                  * (no carry out here)
 380                  */
 381                 ts[0] += byte_cnt_add; /* update processed length */
 382
 383                 /* precompute the key schedule for this block */
 384                 ks[0] = ctx->x[0];
 385                 ks[1] = ctx->x[1];
 386                 ks[2] = ctx->x[2];
 387                 ks[3] = ctx->x[3];
 388                 ks[4] = ks[0] ^ ks[1] ^ ks[2] ^ ks[3] ^ SKEIN_KS_PARITY;
 389
 390                 ts[2] = ts[0] ^ ts[1];
 391
 392                 /* get input block in little-endian format */
 393                 skein_get64_lsb_first(w, blk_ptr, WCNT);
 394                 debug_save_tweak(ctx);
 395
 396                 /* do the first full key injection */
 397                 X0 = w[0] + ks[0];
 398                 X1 = w[1] + ks[1] + ts[0];
 399                 X2 = w[2] + ks[2] + ts[1];
 400                 X3 = w[3] + ks[3];
 401
 402                 blk_ptr += SKEIN_256_BLOCK_BYTES;
 403
 404                 /* run the rounds */
 405                 for (r = 1;
 406                         r < (SKEIN_UNROLL_256 ? 2 * RCNT : 2);
 407                         r += (SKEIN_UNROLL_256 ? 2 * SKEIN_UNROLL_256 : 1)) {
 408                         R256_8_ROUNDS(0);
 409 #if   R256_UNROLL_R(1)
 410                         R256_8_ROUNDS(1);
 411 #endif
 412 #if   R256_UNROLL_R(2)
 413                         R256_8_ROUNDS(2);
 414 #endif
 415 #if   R256_UNROLL_R(3)
 416                         R256_8_ROUNDS(3);
 417 #endif
 418 #if   R256_UNROLL_R(4)
 419                         R256_8_ROUNDS(4);
 420 #endif
 421 #if   R256_UNROLL_R(5)
 422                         R256_8_ROUNDS(5);
 423 #endif
 424 #if   R256_UNROLL_R(6)
 425                         R256_8_ROUNDS(6);
 426 #endif
 427 #if   R256_UNROLL_R(7)
 428                         R256_8_ROUNDS(7);
 429 #endif
 430 #if   R256_UNROLL_R(8)
 431                         R256_8_ROUNDS(8);
 432 #endif
 433 #if   R256_UNROLL_R(9)
 434                         R256_8_ROUNDS(9);
 435 #endif
 436 #if   R256_UNROLL_R(10)
 437                         R256_8_ROUNDS(10);
 438 #endif
 439 #if   R256_UNROLL_R(11)
 440                         R256_8_ROUNDS(11);
 441 #endif
 442 #if   R256_UNROLL_R(12)
 443                         R256_8_ROUNDS(12);
 444 #endif
 445 #if   R256_UNROLL_R(13)
 446                         R256_8_ROUNDS(13);
 447 #endif
 448 #if   R256_UNROLL_R(14)
 449                         R256_8_ROUNDS(14);
 450 #endif
 451                 }
 452                 /* do the final "feedforward" xor, update context chaining */
 453                 ctx->x[0] = X0 ^ w[0];
 454                 ctx->x[1] = X1 ^ w[1];
 455                 ctx->x[2] = X2 ^ w[2];
 456                 ctx->x[3] = X3 ^ w[3];
 457
 458                 ts[1] &= ~SKEIN_T1_FLAG_FIRST;
 459         } while (--blk_cnt);
 460         ctx->h.tweak[0] = ts[0];
 461         ctx->h.tweak[1] = ts[1];
 462 }
 463
 464 #if defined(SKEIN_CODE_SIZE) || defined(SKEIN_PERF)
 465 size_t skein_256_process_block_code_size(void)
 466 {
 467         return ((u8 *) skein_256_process_block_code_size) -
 468                 ((u8 *) skein_256_process_block);
 469 }
 470 unsigned int skein_256_unroll_cnt(void)
 471 {
 472         return SKEIN_UNROLL_256;
 473 }
 474 #endif
 475 #endif
 476
 477 /*****************************  SKEIN_512 ******************************/
 478 #if !(SKEIN_USE_ASM & 512)
 479 void skein_512_process_block(struct skein_512_ctx *ctx, const u8 *blk_ptr,
 480                              size_t blk_cnt, size_t byte_cnt_add)
 481 { /* do it in C */
 482         enum {
 483                 WCNT = SKEIN_512_STATE_WORDS
 484         };
 485         size_t  r;
 486 #if SKEIN_UNROLL_512
 487         u64  kw[WCNT+4+RCNT*2]; /* key sched: chaining vars + tweak + "rot"*/
 488 #else
 489         u64  kw[WCNT+4]; /* key schedule words : chaining vars + tweak */
 490 #endif
 491         u64  X0, X1, X2, X3, X4, X5, X6, X7; /* local copies, for speed */
 492         u64  w[WCNT]; /* local copy of input block */
 493 #ifdef SKEIN_DEBUG
 494         const u64 *X_ptr[8]; /* use for debugging (help cc put Xn in regs) */
 495
 496         X_ptr[0] = &X0;
 497         X_ptr[1] = &X1;
 498         X_ptr[2] = &X2;
 499         X_ptr[3] = &X3;
 500         X_ptr[4] = &X4;
 501         X_ptr[5] = &X5;
 502         X_ptr[6] = &X6;
 503         X_ptr[7] = &X7;
 504 #endif
 505
 506         skein_assert(blk_cnt != 0); /* never call with blk_cnt == 0! */
 507         ts[0] = ctx->h.tweak[0];
 508         ts[1] = ctx->h.tweak[1];
 509         do  {
 510                 /*
 511                  * this implementation only supports 2**64 input bytes
 512                  * (no carry out here)
 513                  */
 514                 ts[0] += byte_cnt_add; /* update processed length */
 515
 516                 /* precompute the key schedule for this block */
 517                 ks[0] = ctx->x[0];
 518                 ks[1] = ctx->x[1];
 519                 ks[2] = ctx->x[2];
 520                 ks[3] = ctx->x[3];
 521                 ks[4] = ctx->x[4];
 522                 ks[5] = ctx->x[5];
 523                 ks[6] = ctx->x[6];
 524                 ks[7] = ctx->x[7];
 525                 ks[8] = ks[0] ^ ks[1] ^ ks[2] ^ ks[3] ^
 526                         ks[4] ^ ks[5] ^ ks[6] ^ ks[7] ^ SKEIN_KS_PARITY;
 527
 528                 ts[2] = ts[0] ^ ts[1];
 529
 530                 /* get input block in little-endian format */
 531                 skein_get64_lsb_first(w, blk_ptr, WCNT);
 532                 debug_save_tweak(ctx);
 533
 534                 /* do the first full key injection */
 535                 X0 = w[0] + ks[0];
 536                 X1 = w[1] + ks[1];
 537                 X2 = w[2] + ks[2];
 538                 X3 = w[3] + ks[3];
 539                 X4 = w[4] + ks[4];
 540                 X5 = w[5] + ks[5] + ts[0];
 541                 X6 = w[6] + ks[6] + ts[1];
 542                 X7 = w[7] + ks[7];
 543
 544                 blk_ptr += SKEIN_512_BLOCK_BYTES;
 545
 546                 /* run the rounds */
 547                 for (r = 1;
 548                         r < (SKEIN_UNROLL_512 ? 2 * RCNT : 2);
 549                         r += (SKEIN_UNROLL_512 ? 2 * SKEIN_UNROLL_512 : 1)) {
 550
 551                         R512_8_ROUNDS(0);
 552
 553 #if   R512_UNROLL_R(1)
 554                         R512_8_ROUNDS(1);
 555 #endif
 556 #if   R512_UNROLL_R(2)
 557                         R512_8_ROUNDS(2);
 558 #endif
 559 #if   R512_UNROLL_R(3)
 560                         R512_8_ROUNDS(3);
 561 #endif
 562 #if   R512_UNROLL_R(4)
 563                         R512_8_ROUNDS(4);
 564 #endif
 565 #if   R512_UNROLL_R(5)
 566                         R512_8_ROUNDS(5);
 567 #endif
 568 #if   R512_UNROLL_R(6)
 569                         R512_8_ROUNDS(6);
 570 #endif
 571 #if   R512_UNROLL_R(7)
 572                         R512_8_ROUNDS(7);
 573 #endif
 574 #if   R512_UNROLL_R(8)
 575                         R512_8_ROUNDS(8);
 576 #endif
 577 #if   R512_UNROLL_R(9)
 578                         R512_8_ROUNDS(9);
 579 #endif
 580 #if   R512_UNROLL_R(10)
 581                         R512_8_ROUNDS(10);
 582 #endif
 583 #if   R512_UNROLL_R(11)
 584                         R512_8_ROUNDS(11);
 585 #endif
 586 #if   R512_UNROLL_R(12)
 587                         R512_8_ROUNDS(12);
 588 #endif
 589 #if   R512_UNROLL_R(13)
 590                         R512_8_ROUNDS(13);
 591 #endif
 592 #if   R512_UNROLL_R(14)
 593                         R512_8_ROUNDS(14);
 594 #endif
 595                 }
 596
 597                 /* do the final "feedforward" xor, update context chaining */
 598                 ctx->x[0] = X0 ^ w[0];
 599                 ctx->x[1] = X1 ^ w[1];
 600                 ctx->x[2] = X2 ^ w[2];
 601                 ctx->x[3] = X3 ^ w[3];
 602                 ctx->x[4] = X4 ^ w[4];
 603                 ctx->x[5] = X5 ^ w[5];
 604                 ctx->x[6] = X6 ^ w[6];
 605                 ctx->x[7] = X7 ^ w[7];
 606
 607                 ts[1] &= ~SKEIN_T1_FLAG_FIRST;
 608         } while (--blk_cnt);
 609         ctx->h.tweak[0] = ts[0];
 610         ctx->h.tweak[1] = ts[1];
 611 }
 612
 613 #if defined(SKEIN_CODE_SIZE) || defined(SKEIN_PERF)
 614 size_t skein_512_process_block_code_size(void)
 615 {
 616         return ((u8 *) skein_512_process_block_code_size) -
 617                 ((u8 *) skein_512_process_block);
 618 }
 619 unsigned int skein_512_unroll_cnt(void)
 620 {
 621         return SKEIN_UNROLL_512;
 622 }
 623 #endif
 624 #endif
 625
 626 /*****************************  SKEIN_1024 ******************************/
 627 #if !(SKEIN_USE_ASM & 1024)
 628 void skein_1024_process_block(struct skein_1024_ctx *ctx, const u8 *blk_ptr,
 629                               size_t blk_cnt, size_t byte_cnt_add)
 630 { /* do it in C, always looping (unrolled is bigger AND slower!) */
 631         enum {
 632                 WCNT = SKEIN_1024_STATE_WORDS
 633         };
 634         size_t  r;
 635 #if (SKEIN_UNROLL_1024 != 0)
 636         u64  kw[WCNT+4+RCNT*2]; /* key sched: chaining vars + tweak + "rot" */
 637 #else
 638         u64  kw[WCNT+4]; /* key schedule words : chaining vars + tweak */
 639 #endif
 640
 641         /* local copy of vars, for speed */
 642         u64  X00, X01, X02, X03, X04, X05, X06, X07,
 643              X08, X09, X10, X11, X12, X13, X14, X15;
 644         u64  w[WCNT]; /* local copy of input block */
 645
 646         skein_assert(blk_cnt != 0); /* never call with blk_cnt == 0! */
 647         ts[0] = ctx->h.tweak[0];
 648         ts[1] = ctx->h.tweak[1];
 649         do  {
 650                 /*
 651                  * this implementation only supports 2**64 input bytes
 652                  * (no carry out here)
 653                  */
 654                 ts[0] += byte_cnt_add; /* update processed length */
 655
 656                 /* precompute the key schedule for this block */
 657                 ks[0]  = ctx->x[0];
 658                 ks[1]  = ctx->x[1];
 659                 ks[2]  = ctx->x[2];
 660                 ks[3]  = ctx->x[3];
 661                 ks[4]  = ctx->x[4];
 662                 ks[5]  = ctx->x[5];
 663                 ks[6]  = ctx->x[6];
 664                 ks[7]  = ctx->x[7];
 665                 ks[8]  = ctx->x[8];
 666                 ks[9]  = ctx->x[9];
 667                 ks[10] = ctx->x[10];
 668                 ks[11] = ctx->x[11];
 669                 ks[12] = ctx->x[12];
 670                 ks[13] = ctx->x[13];
 671                 ks[14] = ctx->x[14];
 672                 ks[15] = ctx->x[15];
 673                 ks[16] =  ks[0] ^ ks[1] ^ ks[2] ^ ks[3] ^
 674                           ks[4] ^ ks[5] ^ ks[6] ^ ks[7] ^
 675                           ks[8] ^ ks[9] ^ ks[10] ^ ks[11] ^
 676                           ks[12] ^ ks[13] ^ ks[14] ^ ks[15] ^ SKEIN_KS_PARITY;
 677
 678                 ts[2] = ts[0] ^ ts[1];
 679
 680                 /* get input block in little-endian format */
 681                 skein_get64_lsb_first(w, blk_ptr, WCNT);
 682                 debug_save_tweak(ctx);
 683
 684                 /* do the first full key injection */
 685                 X00 = w[0] + ks[0];
 686                 X01 = w[1] + ks[1];
 687                 X02 = w[2] + ks[2];
 688                 X03 = w[3] + ks[3];
 689                 X04 = w[4] + ks[4];
 690                 X05 = w[5] + ks[5];
 691                 X06 = w[6] + ks[6];
 692                 X07 = w[7] + ks[7];
 693                 X08 = w[8] + ks[8];
 694                 X09 = w[9] + ks[9];
 695                 X10 = w[10] + ks[10];
 696                 X11 = w[11] + ks[11];
 697                 X12 = w[12] + ks[12];
 698                 X13 = w[13] + ks[13] + ts[0];
 699                 X14 = w[14] + ks[14] + ts[1];
 700                 X15 = w[15] + ks[15];
 701
 702                 for (r = 1;
 703                         r < (SKEIN_UNROLL_1024 ? 2 * RCNT : 2);
 704                         r += (SKEIN_UNROLL_1024 ? 2 * SKEIN_UNROLL_1024 : 1)) {
 705                         R1024_8_ROUNDS(0);
 706 #if   R1024_UNROLL_R(1)
 707                         R1024_8_ROUNDS(1);
 708 #endif
 709 #if   R1024_UNROLL_R(2)
 710                         R1024_8_ROUNDS(2);
 711 #endif
 712 #if   R1024_UNROLL_R(3)
 713                         R1024_8_ROUNDS(3);
 714 #endif
 715 #if   R1024_UNROLL_R(4)
 716                         R1024_8_ROUNDS(4);
 717 #endif
 718 #if   R1024_UNROLL_R(5)
 719                         R1024_8_ROUNDS(5);
 720 #endif
 721 #if   R1024_UNROLL_R(6)
 722                         R1024_8_ROUNDS(6);
 723 #endif
 724 #if   R1024_UNROLL_R(7)
 725                         R1024_8_ROUNDS(7);
 726 #endif
 727 #if   R1024_UNROLL_R(8)
 728                         R1024_8_ROUNDS(8);
 729 #endif
 730 #if   R1024_UNROLL_R(9)
 731                         R1024_8_ROUNDS(9);
 732 #endif
 733 #if   R1024_UNROLL_R(10)
 734                         R1024_8_ROUNDS(10);
 735 #endif
 736 #if   R1024_UNROLL_R(11)
 737                         R1024_8_ROUNDS(11);
 738 #endif
 739 #if   R1024_UNROLL_R(12)
 740                         R1024_8_ROUNDS(12);
 741 #endif
 742 #if   R1024_UNROLL_R(13)
 743                         R1024_8_ROUNDS(13);
 744 #endif
 745 #if   R1024_UNROLL_R(14)
 746                         R1024_8_ROUNDS(14);
 747 #endif
 748                 }
 749                 /* do the final "feedforward" xor, update context chaining */
 750
 751                 ctx->x[0] = X00 ^ w[0];
 752                 ctx->x[1] = X01 ^ w[1];
 753                 ctx->x[2] = X02 ^ w[2];
 754                 ctx->x[3] = X03 ^ w[3];
 755                 ctx->x[4] = X04 ^ w[4];
 756                 ctx->x[5] = X05 ^ w[5];
 757                 ctx->x[6] = X06 ^ w[6];
 758                 ctx->x[7] = X07 ^ w[7];
 759                 ctx->x[8] = X08 ^ w[8];
 760                 ctx->x[9] = X09 ^ w[9];
 761                 ctx->x[10] = X10 ^ w[10];
 762                 ctx->x[11] = X11 ^ w[11];
 763                 ctx->x[12] = X12 ^ w[12];
 764                 ctx->x[13] = X13 ^ w[13];
 765                 ctx->x[14] = X14 ^ w[14];
 766                 ctx->x[15] = X15 ^ w[15];
 767
 768                 ts[1] &= ~SKEIN_T1_FLAG_FIRST;
 769                 blk_ptr += SKEIN_1024_BLOCK_BYTES;
 770         } while (--blk_cnt);
 771         ctx->h.tweak[0] = ts[0];
 772         ctx->h.tweak[1] = ts[1];
 773 }
 774
 775 #if defined(SKEIN_CODE_SIZE) || defined(SKEIN_PERF)
 776 size_t skein_1024_process_block_code_size(void)
 777 {
 778         return ((u8 *) skein_1024_process_block_code_size) -
 779                 ((u8 *) skein_1024_process_block);
 780 }
 781 unsigned int skein_1024_unroll_cnt(void)
 782 {
 783         return SKEIN_UNROLL_1024;
 784 }
 785 #endif
 786 #endif