Tree - source-git/openssl - CentOS Git server

source-git / openssl

Blame crypto/modes/asm/ghash-armv4.pl

Blob History Raw

Packit	c4476c	`#! /usr/bin/env perl`
Packit	c4476c	`# Copyright 2010-2020 The OpenSSL Project Authors. All Rights Reserved.`
Packit	c4476c	`#`
Packit	c4476c	`# Licensed under the OpenSSL license (the "License"). You may not use`
Packit	c4476c	`# this file except in compliance with the License. You can obtain a copy`
Packit	c4476c	`# in the file LICENSE in the source distribution or at`
Packit	c4476c	`# https://www.openssl.org/source/license.html`
Packit	c4476c
Packit	c4476c	`#`
Packit	c4476c	`# ====================================================================`
Packit	c4476c	`# Written by Andy Polyakov <appro@openssl.org> for the OpenSSL`
Packit	c4476c	`# project. The module is, however, dual licensed under OpenSSL and`
Packit	c4476c	`# CRYPTOGAMS licenses depending on where you obtain it. For further`
Packit	c4476c	`# details see http://www.openssl.org/~appro/cryptogams/.`
Packit	c4476c	`# ====================================================================`
Packit	c4476c	`#`
Packit	c4476c	`# April 2010`
Packit	c4476c	`#`
Packit	c4476c	`# The module implements "4-bit" GCM GHASH function and underlying`
Packit	c4476c	`# single multiplication operation in GF(2^128). "4-bit" means that it`
Packit	c4476c	`# uses 256 bytes per-key table [+32 bytes shared table]. There is no`
Packit	c4476c	`# experimental performance data available yet. The only approximation`
Packit	c4476c	`# that can be made at this point is based on code size. Inner loop is`
Packit	c4476c	`# 32 instructions long and on single-issue core should execute in <40`
Packit	c4476c	`# cycles. Having verified that gcc 3.4 didn't unroll corresponding`
Packit	c4476c	`# loop, this assembler loop body was found to be ~3x smaller than`
Packit	c4476c	`# compiler-generated one...`
Packit	c4476c	`#`
Packit	c4476c	`# July 2010`
Packit	c4476c	`#`
Packit	c4476c	`# Rescheduling for dual-issue pipeline resulted in 8.5% improvement on`
Packit	c4476c	`# Cortex A8 core and ~25 cycles per processed byte (which was observed`
Packit	c4476c	`# to be ~3 times faster than gcc-generated code:-)`
Packit	c4476c	`#`
Packit	c4476c	`# February 2011`
Packit	c4476c	`#`
Packit	c4476c	`# Profiler-assisted and platform-specific optimization resulted in 7%`
Packit	c4476c	`# improvement on Cortex A8 core and ~23.5 cycles per byte.`
Packit	c4476c	`#`
Packit	c4476c	`# March 2011`
Packit	c4476c	`#`
Packit	c4476c	`# Add NEON implementation featuring polynomial multiplication, i.e. no`
Packit	c4476c	`# lookup tables involved. On Cortex A8 it was measured to process one`
Packit	c4476c	`# byte in 15 cycles or 55% faster than integer-only code.`
Packit	c4476c	`#`
Packit	c4476c	`# April 2014`
Packit	c4476c	`#`
Packit	c4476c	`# Switch to multiplication algorithm suggested in paper referred`
Packit	c4476c	`# below and combine it with reduction algorithm from x86 module.`
Packit	c4476c	`# Performance improvement over previous version varies from 65% on`
Packit	c4476c	`# Snapdragon S4 to 110% on Cortex A9. In absolute terms Cortex A8`
Packit	c4476c	`# processes one byte in 8.45 cycles, A9 - in 10.2, A15 - in 7.63,`
Packit	c4476c	`# Snapdragon S4 - in 9.33.`
Packit	c4476c	`#`
Packit	c4476c	`# Câmara, D.; Gouvêa, C. P. L.; López, J. & Dahab, R.: Fast Software`
Packit	c4476c	`# Polynomial Multiplication on ARM Processors using the NEON Engine.`
Packit	c4476c	`#`
Packit	c4476c	`# http://conradoplg.cryptoland.net/files/2010/12/mocrysen13.pdf`
Packit	c4476c
Packit	c4476c	`# ====================================================================`
Packit	c4476c	`# Note about "528B" variant. In ARM case it makes lesser sense to`
Packit	c4476c	`# implement it for following reasons:`
Packit	c4476c	`#`
Packit	c4476c	`# - performance improvement won't be anywhere near 50%, because 128-`
Packit	c4476c	`# bit shift operation is neatly fused with 128-bit xor here, and`
Packit	c4476c	`# "538B" variant would eliminate only 4-5 instructions out of 32`
Packit	c4476c	`# in the inner loop (meaning that estimated improvement is ~15%);`
Packit	c4476c	`# - ARM-based systems are often embedded ones and extra memory`
Packit	c4476c	`# consumption might be unappreciated (for so little improvement);`
Packit	c4476c	`#`
Packit	c4476c	`# Byte order [in]dependence. =========================================`
Packit	c4476c	`#`
Packit	c4476c	`# Caller is expected to maintain specific dword order in Htable,`
Packit	c4476c	`# namely with least significant dword of 128-bit value at lower`
Packit	c4476c	`# address. This differs completely from C code and has everything to`
Packit	c4476c	`# do with ldm instruction and order in which dwords are "consumed" by`
Packit	c4476c	`# algorithm. Byte order within these dwords in turn is whatever`
Packit	c4476c	`# native byte order on current platform. See gcm128.c for working`
Packit	c4476c	`# example...`
Packit	c4476c
Packit	c4476c	`$flavour = shift;`
Packit	c4476c	`if ($flavour=~/\w[\w\-]*\.\w+$/) { $output=$flavour; undef $flavour; }`
Packit	c4476c	`else { while (($output=shift) && ($output!~/\w[\w\-]*\.\w+$/)) {} }`
Packit	c4476c
Packit	c4476c	`if ($flavour && $flavour ne "void") {`
Packit	c4476c	`$0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;`
Packit	c4476c	`( $xlate="${dir}arm-xlate.pl" and -f $xlate ) or`
Packit	c4476c	`( $xlate="${dir}../../perlasm/arm-xlate.pl" and -f $xlate) or`
Packit	c4476c	`die "can't locate arm-xlate.pl";`
Packit	c4476c
Packit	c4476c	`open STDOUT,"\| \"$^X\" $xlate $flavour $output";`
Packit	c4476c	`} else {`
Packit	c4476c	`open STDOUT,">$output";`
Packit	c4476c	`}`
Packit	c4476c
Packit	c4476c	`$Xi="r0"; # argument block`
Packit	c4476c	`$Htbl="r1";`
Packit	c4476c	`$inp="r2";`
Packit	c4476c	`$len="r3";`
Packit	c4476c
Packit	c4476c	`$Zll="r4"; # variables`
Packit	c4476c	`$Zlh="r5";`
Packit	c4476c	`$Zhl="r6";`
Packit	c4476c	`$Zhh="r7";`
Packit	c4476c	`$Tll="r8";`
Packit	c4476c	`$Tlh="r9";`
Packit	c4476c	`$Thl="r10";`
Packit	c4476c	`$Thh="r11";`
Packit	c4476c	`$nlo="r12";`
Packit	c4476c	`################# r13 is stack pointer`
Packit	c4476c	`$nhi="r14";`
Packit	c4476c	`################# r15 is program counter`
Packit	c4476c
Packit	c4476c	`$rem_4bit=$inp; # used in gcm_gmult_4bit`
Packit	c4476c	`$cnt=$len;`
Packit	c4476c
Packit	c4476c	`sub Zsmash() {`
Packit	c4476c	`my $i=12;`
Packit	c4476c	`my @args=@_;`
Packit	c4476c	`for ($Zll,$Zlh,$Zhl,$Zhh) {`
Packit	c4476c	`$code.=<<___;`
Packit	c4476c	`#if __ARM_ARCH__>=7 && defined(__ARMEL__)`
Packit	c4476c	`rev $_,$_`
Packit	c4476c	`str $_,[$Xi,#$i]`
Packit	c4476c	`#elif defined(__ARMEB__)`
Packit	c4476c	`str $_,[$Xi,#$i]`
Packit	c4476c	`#else`
Packit	c4476c	`mov $Tlh,$_,lsr#8`
Packit	c4476c	`strb $_,[$Xi,#$i+3]`
Packit	c4476c	`mov $Thl,$_,lsr#16`
Packit	c4476c	`strb $Tlh,[$Xi,#$i+2]`
Packit	c4476c	`mov $Thh,$_,lsr#24`
Packit	c4476c	`strb $Thl,[$Xi,#$i+1]`
Packit	c4476c	`strb $Thh,[$Xi,#$i]`
Packit	c4476c	`#endif`
Packit	c4476c	`___`
Packit	c4476c	`$code.="\t".shift(@args)."\n";`
Packit	c4476c	`$i-=4;`
Packit	c4476c	`}`
Packit	c4476c	`}`
Packit	c4476c
Packit	c4476c	`$code=<<___;`
Packit	c4476c	`#include "arm_arch.h"`
Packit	c4476c
Packit	c4476c	`.text`
Packit	c4476c	`#if defined(__thumb2__) \|\| defined(__clang__)`
Packit	c4476c	`.syntax unified`
Packit	c4476c	`#define ldrplb ldrbpl`
Packit	c4476c	`#define ldrneb ldrbne`
Packit	c4476c	`#endif`
Packit	c4476c	`#if defined(__thumb2__)`
Packit	c4476c	`.thumb`
Packit	c4476c	`#else`
Packit	c4476c	`.code 32`
Packit	c4476c	`#endif`
Packit	c4476c
Packit	c4476c	`.type rem_4bit,%object`
Packit	c4476c	`.align 5`
Packit	c4476c	`rem_4bit:`
Packit	c4476c	`.short 0x0000,0x1C20,0x3840,0x2460`
Packit	c4476c	`.short 0x7080,0x6CA0,0x48C0,0x54E0`
Packit	c4476c	`.short 0xE100,0xFD20,0xD940,0xC560`
Packit	c4476c	`.short 0x9180,0x8DA0,0xA9C0,0xB5E0`
Packit	c4476c	`.size rem_4bit,.-rem_4bit`
Packit	c4476c
Packit	c4476c	`.type rem_4bit_get,%function`
Packit	c4476c	`rem_4bit_get:`
Packit	c4476c	`#if defined(__thumb2__)`
Packit	c4476c	`adr $rem_4bit,rem_4bit`
Packit	c4476c	`#else`
Packit	c4476c	`sub $rem_4bit,pc,#8+32 @ &rem_4bit`
Packit	c4476c	`#endif`
Packit	c4476c	`b .Lrem_4bit_got`
Packit	c4476c	`nop`
Packit	c4476c	`nop`
Packit	c4476c	`.size rem_4bit_get,.-rem_4bit_get`
Packit	c4476c
Packit	c4476c	`.global gcm_ghash_4bit`
Packit	c4476c	`.type gcm_ghash_4bit,%function`
Packit	c4476c	`.align 4`
Packit	c4476c	`gcm_ghash_4bit:`
Packit	c4476c	`#if defined(__thumb2__)`
Packit	c4476c	`adr r12,rem_4bit`
Packit	c4476c	`#else`
Packit	c4476c	`sub r12,pc,#8+48 @ &rem_4bit`
Packit	c4476c	`#endif`
Packit	c4476c	`add $len,$inp,$len @ $len to point at the end`
Packit	c4476c	`stmdb sp!,{r3-r11,lr} @ save $len/end too`
Packit	c4476c
Packit	c4476c	`ldmia r12,{r4-r11} @ copy rem_4bit ...`
Packit	c4476c	`stmdb sp!,{r4-r11} @ ... to stack`
Packit	c4476c
Packit	c4476c	`ldrb $nlo,[$inp,#15]`
Packit	c4476c	`ldrb $nhi,[$Xi,#15]`
Packit	c4476c	`.Louter:`
Packit	c4476c	`eor $nlo,$nlo,$nhi`
Packit	c4476c	`and $nhi,$nlo,#0xf0`
Packit	c4476c	`and $nlo,$nlo,#0x0f`
Packit	c4476c	`mov $cnt,#14`
Packit	c4476c
Packit	c4476c	`add $Zhh,$Htbl,$nlo,lsl#4`
Packit	c4476c	`ldmia $Zhh,{$Zll-$Zhh} @ load Htbl[nlo]`
Packit	c4476c	`add $Thh,$Htbl,$nhi`
Packit	c4476c	`ldrb $nlo,[$inp,#14]`
Packit	c4476c
Packit	c4476c	`and $nhi,$Zll,#0xf @ rem`
Packit	c4476c	`ldmia $Thh,{$Tll-$Thh} @ load Htbl[nhi]`
Packit	c4476c	`add $nhi,$nhi,$nhi`
Packit	c4476c	`eor $Zll,$Tll,$Zll,lsr#4`
Packit	c4476c	`ldrh $Tll,[sp,$nhi] @ rem_4bit[rem]`
Packit	c4476c	`eor $Zll,$Zll,$Zlh,lsl#28`
Packit	c4476c	`ldrb $nhi,[$Xi,#14]`
Packit	c4476c	`eor $Zlh,$Tlh,$Zlh,lsr#4`
Packit	c4476c	`eor $Zlh,$Zlh,$Zhl,lsl#28`
Packit	c4476c	`eor $Zhl,$Thl,$Zhl,lsr#4`
Packit	c4476c	`eor $Zhl,$Zhl,$Zhh,lsl#28`
Packit	c4476c	`eor $Zhh,$Thh,$Zhh,lsr#4`
Packit	c4476c	`eor $nlo,$nlo,$nhi`
Packit	c4476c	`and $nhi,$nlo,#0xf0`
Packit	c4476c	`and $nlo,$nlo,#0x0f`
Packit	c4476c	`eor $Zhh,$Zhh,$Tll,lsl#16`
Packit	c4476c
Packit	c4476c	`.Linner:`
Packit	c4476c	`add $Thh,$Htbl,$nlo,lsl#4`
Packit	c4476c	`and $nlo,$Zll,#0xf @ rem`
Packit	c4476c	`subs $cnt,$cnt,#1`
Packit	c4476c	`add $nlo,$nlo,$nlo`
Packit	c4476c	`ldmia $Thh,{$Tll-$Thh} @ load Htbl[nlo]`
Packit	c4476c	`eor $Zll,$Tll,$Zll,lsr#4`
Packit	c4476c	`eor $Zll,$Zll,$Zlh,lsl#28`
Packit	c4476c	`eor $Zlh,$Tlh,$Zlh,lsr#4`
Packit	c4476c	`eor $Zlh,$Zlh,$Zhl,lsl#28`
Packit	c4476c	`ldrh $Tll,[sp,$nlo] @ rem_4bit[rem]`
Packit	c4476c	`eor $Zhl,$Thl,$Zhl,lsr#4`
Packit	c4476c	`#ifdef __thumb2__`
Packit	c4476c	`it pl`
Packit	c4476c	`#endif`
Packit	c4476c	`ldrplb $nlo,[$inp,$cnt]`
Packit	c4476c	`eor $Zhl,$Zhl,$Zhh,lsl#28`
Packit	c4476c	`eor $Zhh,$Thh,$Zhh,lsr#4`
Packit	c4476c
Packit	c4476c	`add $Thh,$Htbl,$nhi`
Packit	c4476c	`and $nhi,$Zll,#0xf @ rem`
Packit	c4476c	`eor $Zhh,$Zhh,$Tll,lsl#16 @ ^= rem_4bit[rem]`
Packit	c4476c	`add $nhi,$nhi,$nhi`
Packit	c4476c	`ldmia $Thh,{$Tll-$Thh} @ load Htbl[nhi]`
Packit	c4476c	`eor $Zll,$Tll,$Zll,lsr#4`
Packit	c4476c	`#ifdef __thumb2__`
Packit	c4476c	`it pl`
Packit	c4476c	`#endif`
Packit	c4476c	`ldrplb $Tll,[$Xi,$cnt]`
Packit	c4476c	`eor $Zll,$Zll,$Zlh,lsl#28`
Packit	c4476c	`eor $Zlh,$Tlh,$Zlh,lsr#4`
Packit	c4476c	`ldrh $Tlh,[sp,$nhi]`
Packit	c4476c	`eor $Zlh,$Zlh,$Zhl,lsl#28`
Packit	c4476c	`eor $Zhl,$Thl,$Zhl,lsr#4`
Packit	c4476c	`eor $Zhl,$Zhl,$Zhh,lsl#28`
Packit	c4476c	`#ifdef __thumb2__`
Packit	c4476c	`it pl`
Packit	c4476c	`#endif`
Packit	c4476c	`eorpl $nlo,$nlo,$Tll`
Packit	c4476c	`eor $Zhh,$Thh,$Zhh,lsr#4`
Packit	c4476c	`#ifdef __thumb2__`
Packit	c4476c	`itt pl`
Packit	c4476c	`#endif`
Packit	c4476c	`andpl $nhi,$nlo,#0xf0`
Packit	c4476c	`andpl $nlo,$nlo,#0x0f`
Packit	c4476c	`eor $Zhh,$Zhh,$Tlh,lsl#16 @ ^= rem_4bit[rem]`
Packit	c4476c	`bpl .Linner`
Packit	c4476c
Packit	c4476c	`ldr $len,[sp,#32] @ re-load $len/end`
Packit	c4476c	`add $inp,$inp,#16`
Packit	c4476c	`mov $nhi,$Zll`
Packit	c4476c	`___`
Packit	c4476c	`&Zsmash("cmp\t$inp,$len","\n".`
Packit	c4476c	`"#ifdef __thumb2__\n".`
Packit	c4476c	`" it ne\n".`
Packit	c4476c	`"#endif\n".`
Packit	c4476c	`" ldrneb $nlo,[$inp,#15]");`
Packit	c4476c	`$code.=<<___;`
Packit	c4476c	`bne .Louter`
Packit	c4476c
Packit	c4476c	`add sp,sp,#36`
Packit	c4476c	`#if __ARM_ARCH__>=5`
Packit	c4476c	`ldmia sp!,{r4-r11,pc}`
Packit	c4476c	`#else`
Packit	c4476c	`ldmia sp!,{r4-r11,lr}`
Packit	c4476c	`tst lr,#1`
Packit	c4476c	`moveq pc,lr @ be binary compatible with V4, yet`
Packit	c4476c	`bx lr @ interoperable with Thumb ISA:-)`
Packit	c4476c	`#endif`
Packit	c4476c	`.size gcm_ghash_4bit,.-gcm_ghash_4bit`
Packit	c4476c
Packit	c4476c	`.global gcm_gmult_4bit`
Packit	c4476c	`.type gcm_gmult_4bit,%function`
Packit	c4476c	`gcm_gmult_4bit:`
Packit	c4476c	`stmdb sp!,{r4-r11,lr}`
Packit	c4476c	`ldrb $nlo,[$Xi,#15]`
Packit	c4476c	`b rem_4bit_get`
Packit	c4476c	`.Lrem_4bit_got:`
Packit	c4476c	`and $nhi,$nlo,#0xf0`
Packit	c4476c	`and $nlo,$nlo,#0x0f`
Packit	c4476c	`mov $cnt,#14`
Packit	c4476c
Packit	c4476c	`add $Zhh,$Htbl,$nlo,lsl#4`
Packit	c4476c	`ldmia $Zhh,{$Zll-$Zhh} @ load Htbl[nlo]`
Packit	c4476c	`ldrb $nlo,[$Xi,#14]`
Packit	c4476c
Packit	c4476c	`add $Thh,$Htbl,$nhi`
Packit	c4476c	`and $nhi,$Zll,#0xf @ rem`
Packit	c4476c	`ldmia $Thh,{$Tll-$Thh} @ load Htbl[nhi]`
Packit	c4476c	`add $nhi,$nhi,$nhi`
Packit	c4476c	`eor $Zll,$Tll,$Zll,lsr#4`
Packit	c4476c	`ldrh $Tll,[$rem_4bit,$nhi] @ rem_4bit[rem]`
Packit	c4476c	`eor $Zll,$Zll,$Zlh,lsl#28`
Packit	c4476c	`eor $Zlh,$Tlh,$Zlh,lsr#4`
Packit	c4476c	`eor $Zlh,$Zlh,$Zhl,lsl#28`
Packit	c4476c	`eor $Zhl,$Thl,$Zhl,lsr#4`
Packit	c4476c	`eor $Zhl,$Zhl,$Zhh,lsl#28`
Packit	c4476c	`eor $Zhh,$Thh,$Zhh,lsr#4`
Packit	c4476c	`and $nhi,$nlo,#0xf0`
Packit	c4476c	`eor $Zhh,$Zhh,$Tll,lsl#16`
Packit	c4476c	`and $nlo,$nlo,#0x0f`
Packit	c4476c
Packit	c4476c	`.Loop:`
Packit	c4476c	`add $Thh,$Htbl,$nlo,lsl#4`
Packit	c4476c	`and $nlo,$Zll,#0xf @ rem`
Packit	c4476c	`subs $cnt,$cnt,#1`
Packit	c4476c	`add $nlo,$nlo,$nlo`
Packit	c4476c	`ldmia $Thh,{$Tll-$Thh} @ load Htbl[nlo]`
Packit	c4476c	`eor $Zll,$Tll,$Zll,lsr#4`
Packit	c4476c	`eor $Zll,$Zll,$Zlh,lsl#28`
Packit	c4476c	`eor $Zlh,$Tlh,$Zlh,lsr#4`
Packit	c4476c	`eor $Zlh,$Zlh,$Zhl,lsl#28`
Packit	c4476c	`ldrh $Tll,[$rem_4bit,$nlo] @ rem_4bit[rem]`
Packit	c4476c	`eor $Zhl,$Thl,$Zhl,lsr#4`
Packit	c4476c	`#ifdef __thumb2__`
Packit	c4476c	`it pl`
Packit	c4476c	`#endif`
Packit	c4476c	`ldrplb $nlo,[$Xi,$cnt]`
Packit	c4476c	`eor $Zhl,$Zhl,$Zhh,lsl#28`
Packit	c4476c	`eor $Zhh,$Thh,$Zhh,lsr#4`
Packit	c4476c
Packit	c4476c	`add $Thh,$Htbl,$nhi`
Packit	c4476c	`and $nhi,$Zll,#0xf @ rem`
Packit	c4476c	`eor $Zhh,$Zhh,$Tll,lsl#16 @ ^= rem_4bit[rem]`
Packit	c4476c	`add $nhi,$nhi,$nhi`
Packit	c4476c	`ldmia $Thh,{$Tll-$Thh} @ load Htbl[nhi]`
Packit	c4476c	`eor $Zll,$Tll,$Zll,lsr#4`
Packit	c4476c	`eor $Zll,$Zll,$Zlh,lsl#28`
Packit	c4476c	`eor $Zlh,$Tlh,$Zlh,lsr#4`
Packit	c4476c	`ldrh $Tll,[$rem_4bit,$nhi] @ rem_4bit[rem]`
Packit	c4476c	`eor $Zlh,$Zlh,$Zhl,lsl#28`
Packit	c4476c	`eor $Zhl,$Thl,$Zhl,lsr#4`
Packit	c4476c	`eor $Zhl,$Zhl,$Zhh,lsl#28`
Packit	c4476c	`eor $Zhh,$Thh,$Zhh,lsr#4`
Packit	c4476c	`#ifdef __thumb2__`
Packit	c4476c	`itt pl`
Packit	c4476c	`#endif`
Packit	c4476c	`andpl $nhi,$nlo,#0xf0`
Packit	c4476c	`andpl $nlo,$nlo,#0x0f`
Packit	c4476c	`eor $Zhh,$Zhh,$Tll,lsl#16 @ ^= rem_4bit[rem]`
Packit	c4476c	`bpl .Loop`
Packit	c4476c	`___`
Packit	c4476c	`&Zsmash();`
Packit	c4476c	`$code.=<<___;`
Packit	c4476c	`#if __ARM_ARCH__>=5`
Packit	c4476c	`ldmia sp!,{r4-r11,pc}`
Packit	c4476c	`#else`
Packit	c4476c	`ldmia sp!,{r4-r11,lr}`
Packit	c4476c	`tst lr,#1`
Packit	c4476c	`moveq pc,lr @ be binary compatible with V4, yet`
Packit	c4476c	`bx lr @ interoperable with Thumb ISA:-)`
Packit	c4476c	`#endif`
Packit	c4476c	`.size gcm_gmult_4bit,.-gcm_gmult_4bit`
Packit	c4476c	`___`
Packit	c4476c	`{`
Packit	c4476c	`my ($Xl,$Xm,$Xh,$IN)=map("q$_",(0..3));`
Packit	c4476c	`my ($t0,$t1,$t2,$t3)=map("q$_",(8..12));`
Packit	c4476c	`my ($Hlo,$Hhi,$Hhl,$k48,$k32,$k16)=map("d$_",(26..31));`
Packit	c4476c
Packit	c4476c	`sub clmul64x64 {`
Packit	c4476c	`my ($r,$a,$b)=@_;`
Packit	c4476c	`$code.=<<___;`
Packit	c4476c	`vext.8 $t0#lo, $a, $a, #1 @ A1`
Packit	c4476c	`vmull.p8 $t0, $t0#lo, $b @ F = A1*B`
Packit	c4476c	`vext.8 $r#lo, $b, $b, #1 @ B1`
Packit	c4476c	`vmull.p8 $r, $a, $r#lo @ E = A*B1`
Packit	c4476c	`vext.8 $t1#lo, $a, $a, #2 @ A2`
Packit	c4476c	`vmull.p8 $t1, $t1#lo, $b @ H = A2*B`
Packit	c4476c	`vext.8 $t3#lo, $b, $b, #2 @ B2`
Packit	c4476c	`vmull.p8 $t3, $a, $t3#lo @ G = A*B2`
Packit	c4476c	`vext.8 $t2#lo, $a, $a, #3 @ A3`
Packit	c4476c	`veor $t0, $t0, $r @ L = E + F`
Packit	c4476c	`vmull.p8 $t2, $t2#lo, $b @ J = A3*B`
Packit	c4476c	`vext.8 $r#lo, $b, $b, #3 @ B3`
Packit	c4476c	`veor $t1, $t1, $t3 @ M = G + H`
Packit	c4476c	`vmull.p8 $r, $a, $r#lo @ I = A*B3`
Packit	c4476c	`veor $t0#lo, $t0#lo, $t0#hi @ t0 = (L) (P0 + P1) << 8`
Packit	c4476c	`vand $t0#hi, $t0#hi, $k48`
Packit	c4476c	`vext.8 $t3#lo, $b, $b, #4 @ B4`
Packit	c4476c	`veor $t1#lo, $t1#lo, $t1#hi @ t1 = (M) (P2 + P3) << 16`
Packit	c4476c	`vand $t1#hi, $t1#hi, $k32`
Packit	c4476c	`vmull.p8 $t3, $a, $t3#lo @ K = A*B4`
Packit	c4476c	`veor $t2, $t2, $r @ N = I + J`
Packit	c4476c	`veor $t0#lo, $t0#lo, $t0#hi`
Packit	c4476c	`veor $t1#lo, $t1#lo, $t1#hi`
Packit	c4476c	`veor $t2#lo, $t2#lo, $t2#hi @ t2 = (N) (P4 + P5) << 24`
Packit	c4476c	`vand $t2#hi, $t2#hi, $k16`
Packit	c4476c	`vext.8 $t0, $t0, $t0, #15`
Packit	c4476c	`veor $t3#lo, $t3#lo, $t3#hi @ t3 = (K) (P6 + P7) << 32`
Packit	c4476c	`vmov.i64 $t3#hi, #0`
Packit	c4476c	`vext.8 $t1, $t1, $t1, #14`
Packit	c4476c	`veor $t2#lo, $t2#lo, $t2#hi`
Packit	c4476c	`vmull.p8 $r, $a, $b @ D = A*B`
Packit	c4476c	`vext.8 $t3, $t3, $t3, #12`
Packit	c4476c	`vext.8 $t2, $t2, $t2, #13`
Packit	c4476c	`veor $t0, $t0, $t1`
Packit	c4476c	`veor $t2, $t2, $t3`
Packit	c4476c	`veor $r, $r, $t0`
Packit	c4476c	`veor $r, $r, $t2`
Packit	c4476c	`___`
Packit	c4476c	`}`
Packit	c4476c
Packit	c4476c	`$code.=<<___;`
Packit	c4476c	`#if __ARM_MAX_ARCH__>=7`
Packit	c4476c	`.arch armv7-a`
Packit	c4476c	`.fpu neon`
Packit	c4476c
Packit	c4476c	`.global gcm_init_neon`
Packit	c4476c	`.type gcm_init_neon,%function`
Packit	c4476c	`.align 4`
Packit	c4476c	`gcm_init_neon:`
Packit	c4476c	`vld1.64 $IN#hi,[r1]! @ load H`
Packit	c4476c	`vmov.i8 $t0,#0xe1`
Packit	c4476c	`vld1.64 $IN#lo,[r1]`
Packit	c4476c	`vshl.i64 $t0#hi,#57`
Packit	c4476c	`vshr.u64 $t0#lo,#63 @ t0=0xc2....01`
Packit	c4476c	`vdup.8 $t1,$IN#hi[7]`
Packit	c4476c	`vshr.u64 $Hlo,$IN#lo,#63`
Packit	c4476c	`vshr.s8 $t1,#7 @ broadcast carry bit`
Packit	c4476c	`vshl.i64 $IN,$IN,#1`
Packit	c4476c	`vand $t0,$t0,$t1`
Packit	c4476c	`vorr $IN#hi,$Hlo @ H<<<=1`
Packit	c4476c	`veor $IN,$IN,$t0 @ twisted H`
Packit	c4476c	`vstmia r0,{$IN}`
Packit	c4476c
Packit	c4476c	`ret @ bx lr`
Packit	c4476c	`.size gcm_init_neon,.-gcm_init_neon`
Packit	c4476c
Packit	c4476c	`.global gcm_gmult_neon`
Packit	c4476c	`.type gcm_gmult_neon,%function`
Packit	c4476c	`.align 4`
Packit	c4476c	`gcm_gmult_neon:`
Packit	c4476c	`vld1.64 $IN#hi,[$Xi]! @ load Xi`
Packit	c4476c	`vld1.64 $IN#lo,[$Xi]!`
Packit	c4476c	`vmov.i64 $k48,#0x0000ffffffffffff`
Packit	c4476c	`vldmia $Htbl,{$Hlo-$Hhi} @ load twisted H`
Packit	c4476c	`vmov.i64 $k32,#0x00000000ffffffff`
Packit	c4476c	`#ifdef __ARMEL__`
Packit	c4476c	`vrev64.8 $IN,$IN`
Packit	c4476c	`#endif`
Packit	c4476c	`vmov.i64 $k16,#0x000000000000ffff`
Packit	c4476c	`veor $Hhl,$Hlo,$Hhi @ Karatsuba pre-processing`
Packit	c4476c	`mov $len,#16`
Packit	c4476c	`b .Lgmult_neon`
Packit	c4476c	`.size gcm_gmult_neon,.-gcm_gmult_neon`
Packit	c4476c
Packit	c4476c	`.global gcm_ghash_neon`
Packit	c4476c	`.type gcm_ghash_neon,%function`
Packit	c4476c	`.align 4`
Packit	c4476c	`gcm_ghash_neon:`
Packit	c4476c	`vld1.64 $Xl#hi,[$Xi]! @ load Xi`
Packit	c4476c	`vld1.64 $Xl#lo,[$Xi]!`
Packit	c4476c	`vmov.i64 $k48,#0x0000ffffffffffff`
Packit	c4476c	`vldmia $Htbl,{$Hlo-$Hhi} @ load twisted H`
Packit	c4476c	`vmov.i64 $k32,#0x00000000ffffffff`
Packit	c4476c	`#ifdef __ARMEL__`
Packit	c4476c	`vrev64.8 $Xl,$Xl`
Packit	c4476c	`#endif`
Packit	c4476c	`vmov.i64 $k16,#0x000000000000ffff`
Packit	c4476c	`veor $Hhl,$Hlo,$Hhi @ Karatsuba pre-processing`
Packit	c4476c
Packit	c4476c	`.Loop_neon:`
Packit	c4476c	`vld1.64 $IN#hi,[$inp]! @ load inp`
Packit	c4476c	`vld1.64 $IN#lo,[$inp]!`
Packit	c4476c	`#ifdef __ARMEL__`
Packit	c4476c	`vrev64.8 $IN,$IN`
Packit	c4476c	`#endif`
Packit	c4476c	`veor $IN,$Xl @ inp^=Xi`
Packit	c4476c	`.Lgmult_neon:`
Packit	c4476c	`___`
Packit	c4476c	`&clmul64x64 ($Xl,$Hlo,"$IN#lo"); # H.lo·Xi.lo`
Packit	c4476c	`$code.=<<___;`
Packit	c4476c	`veor $IN#lo,$IN#lo,$IN#hi @ Karatsuba pre-processing`
Packit	c4476c	`___`
Packit	c4476c	`&clmul64x64 ($Xm,$Hhl,"$IN#lo"); # (H.lo+H.hi)·(Xi.lo+Xi.hi)`
Packit	c4476c	`&clmul64x64 ($Xh,$Hhi,"$IN#hi"); # H.hi·Xi.hi`
Packit	c4476c	`$code.=<<___;`
Packit	c4476c	`veor $Xm,$Xm,$Xl @ Karatsuba post-processing`
Packit	c4476c	`veor $Xm,$Xm,$Xh`
Packit	c4476c	`veor $Xl#hi,$Xl#hi,$Xm#lo`
Packit	c4476c	`veor $Xh#lo,$Xh#lo,$Xm#hi @ Xh\|Xl - 256-bit result`
Packit	c4476c
Packit	c4476c	`@ equivalent of reduction_avx from ghash-x86_64.pl`
Packit	c4476c	`vshl.i64 $t1,$Xl,#57 @ 1st phase`
Packit	c4476c	`vshl.i64 $t2,$Xl,#62`
Packit	c4476c	`veor $t2,$t2,$t1 @`
Packit	c4476c	`vshl.i64 $t1,$Xl,#63`
Packit	c4476c	`veor $t2, $t2, $t1 @`
Packit	c4476c	`veor $Xl#hi,$Xl#hi,$t2#lo @`
Packit	c4476c	`veor $Xh#lo,$Xh#lo,$t2#hi`
Packit	c4476c
Packit	c4476c	`vshr.u64 $t2,$Xl,#1 @ 2nd phase`
Packit	c4476c	`veor $Xh,$Xh,$Xl`
Packit	c4476c	`veor $Xl,$Xl,$t2 @`
Packit	c4476c	`vshr.u64 $t2,$t2,#6`
Packit	c4476c	`vshr.u64 $Xl,$Xl,#1 @`
Packit	c4476c	`veor $Xl,$Xl,$Xh @`
Packit	c4476c	`veor $Xl,$Xl,$t2 @`
Packit	c4476c
Packit	c4476c	`subs $len,#16`
Packit	c4476c	`bne .Loop_neon`
Packit	c4476c
Packit	c4476c	`#ifdef __ARMEL__`
Packit	c4476c	`vrev64.8 $Xl,$Xl`
Packit	c4476c	`#endif`
Packit	c4476c	`sub $Xi,#16`
Packit	c4476c	`vst1.64 $Xl#hi,[$Xi]! @ write out Xi`
Packit	c4476c	`vst1.64 $Xl#lo,[$Xi]`
Packit	c4476c
Packit	c4476c	`ret @ bx lr`
Packit	c4476c	`.size gcm_ghash_neon,.-gcm_ghash_neon`
Packit	c4476c	`#endif`
Packit	c4476c	`___`
Packit	c4476c	`}`
Packit	c4476c	`$code.=<<___;`
Packit	c4476c	`.asciz "GHASH for ARMv4/NEON, CRYPTOGAMS by <appro\@openssl.org>"`
Packit	c4476c	`.align 2`
Packit	c4476c	`___`
Packit	c4476c
Packit	c4476c	`foreach (split("\n",$code)) {`
Packit	c4476c	s/\`([^\`]*)\`/eval $1/geo;
Packit	c4476c
Packit	c4476c	`s/\bq([0-9]+)#(lo\|hi)/sprintf "d%d",2*$1+($2 eq "hi")/geo or`
Packit	c4476c	`s/\bret\b/bx lr/go or`
Packit	c4476c	`s/\bbx\s+lr\b/.word\t0xe12fff1e/go; # make it possible to compile with -march=armv4`
Packit	c4476c
Packit	c4476c	`print $_,"\n";`
Packit	c4476c	`}`
Packit	c4476c	`close STDOUT or die "error closing STDOUT: $!"; # enforce flush`

source-git / openssl

Source Code

Blame crypto/modes/asm/ghash-armv4.pl