Tree - source-git/openssl - CentOS Git server

source-git / openssl

Blame crypto/poly1305/asm/poly1305-armv4.pl

Blob History Raw

Packit	c4476c	`#! /usr/bin/env perl`
Packit	c4476c	`# Copyright 2016-2020 The OpenSSL Project Authors. All Rights Reserved.`
Packit	c4476c	`#`
Packit	c4476c	`# Licensed under the OpenSSL license (the "License"). You may not use`
Packit	c4476c	`# this file except in compliance with the License. You can obtain a copy`
Packit	c4476c	`# in the file LICENSE in the source distribution or at`
Packit	c4476c	`# https://www.openssl.org/source/license.html`
Packit	c4476c
Packit	c4476c	`#`
Packit	c4476c	`# ====================================================================`
Packit	c4476c	`# Written by Andy Polyakov <appro@openssl.org> for the OpenSSL`
Packit	c4476c	`# project. The module is, however, dual licensed under OpenSSL and`
Packit	c4476c	`# CRYPTOGAMS licenses depending on where you obtain it. For further`
Packit	c4476c	`# details see http://www.openssl.org/~appro/cryptogams/.`
Packit	c4476c	`# ====================================================================`
Packit	c4476c	`#`
Packit	c4476c	`# IALU(*)/gcc-4.4 NEON`
Packit	c4476c	`#`
Packit	c4476c	`# ARM11xx(ARMv6) 7.78/+100% -`
Packit	c4476c	`# Cortex-A5 6.35/+130% 3.00`
Packit	c4476c	`# Cortex-A8 6.25/+115% 2.36`
Packit	c4476c	`# Cortex-A9 5.10/+95% 2.55`
Packit	c4476c	`# Cortex-A15 3.85/+85% 1.25(**)`
Packit	c4476c	`# Snapdragon S4 5.70/+100% 1.48(**)`
Packit	c4476c	`#`
Packit	c4476c	`# (*) this is for -march=armv6, i.e. with bunch of ldrb loading data;`
Packit	c4476c	`# (**) these are trade-off results, they can be improved by ~8% but at`
Packit	c4476c	`# the cost of 15/12% regression on Cortex-A5/A7, it's even possible`
Packit	c4476c	`# to improve Cortex-A9 result, but then A5/A7 loose more than 20%;`
Packit	c4476c
Packit	c4476c	`$flavour = shift;`
Packit	c4476c	`if ($flavour=~/\w[\w\-]*\.\w+$/) { $output=$flavour; undef $flavour; }`
Packit	c4476c	`else { while (($output=shift) && ($output!~/\w[\w\-]*\.\w+$/)) {} }`
Packit	c4476c
Packit	c4476c	`if ($flavour && $flavour ne "void") {`
Packit	c4476c	`$0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;`
Packit	c4476c	`( $xlate="${dir}arm-xlate.pl" and -f $xlate ) or`
Packit	c4476c	`( $xlate="${dir}../../perlasm/arm-xlate.pl" and -f $xlate) or`
Packit	c4476c	`die "can't locate arm-xlate.pl";`
Packit	c4476c
Packit	c4476c	`open STDOUT,"\| \"$^X\" $xlate $flavour $output";`
Packit	c4476c	`} else {`
Packit	c4476c	`open STDOUT,">$output";`
Packit	c4476c	`}`
Packit	c4476c
Packit	c4476c	`($ctx,$inp,$len,$padbit)=map("r$_",(0..3));`
Packit	c4476c
Packit	c4476c	`$code.=<<___;`
Packit	c4476c	`#include "arm_arch.h"`
Packit	c4476c
Packit	c4476c	`.text`
Packit	c4476c	`#if defined(__thumb2__)`
Packit	c4476c	`.syntax unified`
Packit	c4476c	`.thumb`
Packit	c4476c	`#else`
Packit	c4476c	`.code 32`
Packit	c4476c	`#endif`
Packit	c4476c
Packit	c4476c	`.globl poly1305_emit`
Packit	c4476c	`.globl poly1305_blocks`
Packit	c4476c	`.globl poly1305_init`
Packit	c4476c	`.type poly1305_init,%function`
Packit	c4476c	`.align 5`
Packit	c4476c	`poly1305_init:`
Packit	c4476c	`.Lpoly1305_init:`
Packit	c4476c	`stmdb sp!,{r4-r11}`
Packit	c4476c
Packit	c4476c	`eor r3,r3,r3`
Packit	c4476c	`cmp $inp,#0`
Packit	c4476c	`str r3,[$ctx,#0] @ zero hash value`
Packit	c4476c	`str r3,[$ctx,#4]`
Packit	c4476c	`str r3,[$ctx,#8]`
Packit	c4476c	`str r3,[$ctx,#12]`
Packit	c4476c	`str r3,[$ctx,#16]`
Packit	c4476c	`str r3,[$ctx,#36] @ is_base2_26`
Packit	c4476c	`add $ctx,$ctx,#20`
Packit	c4476c
Packit	c4476c	`#ifdef __thumb2__`
Packit	c4476c	`it eq`
Packit	c4476c	`#endif`
Packit	c4476c	`moveq r0,#0`
Packit	c4476c	`beq .Lno_key`
Packit	c4476c
Packit	c4476c	`#if __ARM_MAX_ARCH__>=7`
Packit	c4476c	`adr r11,.Lpoly1305_init`
Packit	c4476c	`ldr r12,.LOPENSSL_armcap`
Packit	c4476c	`#endif`
Packit	c4476c	`ldrb r4,[$inp,#0]`
Packit	c4476c	`mov r10,#0x0fffffff`
Packit	c4476c	`ldrb r5,[$inp,#1]`
Packit	c4476c	`and r3,r10,#-4 @ 0x0ffffffc`
Packit	c4476c	`ldrb r6,[$inp,#2]`
Packit	c4476c	`ldrb r7,[$inp,#3]`
Packit	c4476c	`orr r4,r4,r5,lsl#8`
Packit	c4476c	`ldrb r5,[$inp,#4]`
Packit	c4476c	`orr r4,r4,r6,lsl#16`
Packit	c4476c	`ldrb r6,[$inp,#5]`
Packit	c4476c	`orr r4,r4,r7,lsl#24`
Packit	c4476c	`ldrb r7,[$inp,#6]`
Packit	c4476c	`and r4,r4,r10`
Packit	c4476c
Packit	c4476c	`#if __ARM_MAX_ARCH__>=7`
Packit	c4476c	`ldr r12,[r11,r12] @ OPENSSL_armcap_P`
Packit	c4476c	`# ifdef __APPLE__`
Packit	c4476c	`ldr r12,[r12]`
Packit	c4476c	`# endif`
Packit	c4476c	`#endif`
Packit	c4476c	`ldrb r8,[$inp,#7]`
Packit	c4476c	`orr r5,r5,r6,lsl#8`
Packit	c4476c	`ldrb r6,[$inp,#8]`
Packit	c4476c	`orr r5,r5,r7,lsl#16`
Packit	c4476c	`ldrb r7,[$inp,#9]`
Packit	c4476c	`orr r5,r5,r8,lsl#24`
Packit	c4476c	`ldrb r8,[$inp,#10]`
Packit	c4476c	`and r5,r5,r3`
Packit	c4476c
Packit	c4476c	`#if __ARM_MAX_ARCH__>=7`
Packit	c4476c	`tst r12,#ARMV7_NEON @ check for NEON`
Packit	c4476c	`# ifdef __APPLE__`
Packit	c4476c	`adr r9,poly1305_blocks_neon`
Packit	c4476c	`adr r11,poly1305_blocks`
Packit	c4476c	`# ifdef __thumb2__`
Packit	c4476c	`it ne`
Packit	c4476c	`# endif`
Packit	c4476c	`movne r11,r9`
Packit	c4476c	`adr r12,poly1305_emit`
Packit	c4476c	`adr r10,poly1305_emit_neon`
Packit	c4476c	`# ifdef __thumb2__`
Packit	c4476c	`it ne`
Packit	c4476c	`# endif`
Packit	c4476c	`movne r12,r10`
Packit	c4476c	`# else`
Packit	c4476c	`# ifdef __thumb2__`
Packit	c4476c	`itete eq`
Packit	c4476c	`# endif`
Packit	c4476c	`addeq r12,r11,#(poly1305_emit-.Lpoly1305_init)`
Packit	c4476c	`addne r12,r11,#(poly1305_emit_neon-.Lpoly1305_init)`
Packit	c4476c	`addeq r11,r11,#(poly1305_blocks-.Lpoly1305_init)`
Packit	c4476c	`addne r11,r11,#(poly1305_blocks_neon-.Lpoly1305_init)`
Packit	c4476c	`# endif`
Packit	c4476c	`# ifdef __thumb2__`
Packit	c4476c	`orr r12,r12,#1 @ thumb-ify address`
Packit	c4476c	`orr r11,r11,#1`
Packit	c4476c	`# endif`
Packit	c4476c	`#endif`
Packit	c4476c	`ldrb r9,[$inp,#11]`
Packit	c4476c	`orr r6,r6,r7,lsl#8`
Packit	c4476c	`ldrb r7,[$inp,#12]`
Packit	c4476c	`orr r6,r6,r8,lsl#16`
Packit	c4476c	`ldrb r8,[$inp,#13]`
Packit	c4476c	`orr r6,r6,r9,lsl#24`
Packit	c4476c	`ldrb r9,[$inp,#14]`
Packit	c4476c	`and r6,r6,r3`
Packit	c4476c
Packit	c4476c	`ldrb r10,[$inp,#15]`
Packit	c4476c	`orr r7,r7,r8,lsl#8`
Packit	c4476c	`str r4,[$ctx,#0]`
Packit	c4476c	`orr r7,r7,r9,lsl#16`
Packit	c4476c	`str r5,[$ctx,#4]`
Packit	c4476c	`orr r7,r7,r10,lsl#24`
Packit	c4476c	`str r6,[$ctx,#8]`
Packit	c4476c	`and r7,r7,r3`
Packit	c4476c	`str r7,[$ctx,#12]`
Packit	c4476c	`#if __ARM_MAX_ARCH__>=7`
Packit	c4476c	`stmia r2,{r11,r12} @ fill functions table`
Packit	c4476c	`mov r0,#1`
Packit	c4476c	`#else`
Packit	c4476c	`mov r0,#0`
Packit	c4476c	`#endif`
Packit	c4476c	`.Lno_key:`
Packit	c4476c	`ldmia sp!,{r4-r11}`
Packit	c4476c	`#if __ARM_ARCH__>=5`
Packit	c4476c	`ret @ bx lr`
Packit	c4476c	`#else`
Packit	c4476c	`tst lr,#1`
Packit	c4476c	`moveq pc,lr @ be binary compatible with V4, yet`
Packit	c4476c	`bx lr @ interoperable with Thumb ISA:-)`
Packit	c4476c	`#endif`
Packit	c4476c	`.size poly1305_init,.-poly1305_init`
Packit	c4476c	`___`
Packit	c4476c	`{`
Packit	c4476c	`my ($h0,$h1,$h2,$h3,$h4,$r0,$r1,$r2,$r3)=map("r$_",(4..12));`
Packit	c4476c	`my ($s1,$s2,$s3)=($r1,$r2,$r3);`
Packit	c4476c
Packit	c4476c	`$code.=<<___;`
Packit	c4476c	`.type poly1305_blocks,%function`
Packit	c4476c	`.align 5`
Packit	c4476c	`poly1305_blocks:`
Packit	c4476c	`.Lpoly1305_blocks:`
Packit	c4476c	`stmdb sp!,{r3-r11,lr}`
Packit	c4476c
Packit	c4476c	`ands $len,$len,#-16`
Packit	c4476c	`beq .Lno_data`
Packit	c4476c
Packit	c4476c	`cmp $padbit,#0`
Packit	c4476c	`add $len,$len,$inp @ end pointer`
Packit	c4476c	`sub sp,sp,#32`
Packit	c4476c
Packit	c4476c	`ldmia $ctx,{$h0-$r3} @ load context`
Packit	c4476c
Packit	c4476c	`str $ctx,[sp,#12] @ offload stuff`
Packit	c4476c	`mov lr,$inp`
Packit	c4476c	`str $len,[sp,#16]`
Packit	c4476c	`str $r1,[sp,#20]`
Packit	c4476c	`str $r2,[sp,#24]`
Packit	c4476c	`str $r3,[sp,#28]`
Packit	c4476c	`b .Loop`
Packit	c4476c
Packit	c4476c	`.Loop:`
Packit	c4476c	`#if __ARM_ARCH__<7`
Packit	c4476c	`ldrb r0,[lr],#16 @ load input`
Packit	c4476c	`# ifdef __thumb2__`
Packit	c4476c	`it hi`
Packit	c4476c	`# endif`
Packit	c4476c	`addhi $h4,$h4,#1 @ 1<<128`
Packit	c4476c	`ldrb r1,[lr,#-15]`
Packit	c4476c	`ldrb r2,[lr,#-14]`
Packit	c4476c	`ldrb r3,[lr,#-13]`
Packit	c4476c	`orr r1,r0,r1,lsl#8`
Packit	c4476c	`ldrb r0,[lr,#-12]`
Packit	c4476c	`orr r2,r1,r2,lsl#16`
Packit	c4476c	`ldrb r1,[lr,#-11]`
Packit	c4476c	`orr r3,r2,r3,lsl#24`
Packit	c4476c	`ldrb r2,[lr,#-10]`
Packit	c4476c	`adds $h0,$h0,r3 @ accumulate input`
Packit	c4476c
Packit	c4476c	`ldrb r3,[lr,#-9]`
Packit	c4476c	`orr r1,r0,r1,lsl#8`
Packit	c4476c	`ldrb r0,[lr,#-8]`
Packit	c4476c	`orr r2,r1,r2,lsl#16`
Packit	c4476c	`ldrb r1,[lr,#-7]`
Packit	c4476c	`orr r3,r2,r3,lsl#24`
Packit	c4476c	`ldrb r2,[lr,#-6]`
Packit	c4476c	`adcs $h1,$h1,r3`
Packit	c4476c
Packit	c4476c	`ldrb r3,[lr,#-5]`
Packit	c4476c	`orr r1,r0,r1,lsl#8`
Packit	c4476c	`ldrb r0,[lr,#-4]`
Packit	c4476c	`orr r2,r1,r2,lsl#16`
Packit	c4476c	`ldrb r1,[lr,#-3]`
Packit	c4476c	`orr r3,r2,r3,lsl#24`
Packit	c4476c	`ldrb r2,[lr,#-2]`
Packit	c4476c	`adcs $h2,$h2,r3`
Packit	c4476c
Packit	c4476c	`ldrb r3,[lr,#-1]`
Packit	c4476c	`orr r1,r0,r1,lsl#8`
Packit	c4476c	`str lr,[sp,#8] @ offload input pointer`
Packit	c4476c	`orr r2,r1,r2,lsl#16`
Packit	c4476c	`add $s1,$r1,$r1,lsr#2`
Packit	c4476c	`orr r3,r2,r3,lsl#24`
Packit	c4476c	`#else`
Packit	c4476c	`ldr r0,[lr],#16 @ load input`
Packit	c4476c	`# ifdef __thumb2__`
Packit	c4476c	`it hi`
Packit	c4476c	`# endif`
Packit	c4476c	`addhi $h4,$h4,#1 @ padbit`
Packit	c4476c	`ldr r1,[lr,#-12]`
Packit	c4476c	`ldr r2,[lr,#-8]`
Packit	c4476c	`ldr r3,[lr,#-4]`
Packit	c4476c	`# ifdef __ARMEB__`
Packit	c4476c	`rev r0,r0`
Packit	c4476c	`rev r1,r1`
Packit	c4476c	`rev r2,r2`
Packit	c4476c	`rev r3,r3`
Packit	c4476c	`# endif`
Packit	c4476c	`adds $h0,$h0,r0 @ accumulate input`
Packit	c4476c	`str lr,[sp,#8] @ offload input pointer`
Packit	c4476c	`adcs $h1,$h1,r1`
Packit	c4476c	`add $s1,$r1,$r1,lsr#2`
Packit	c4476c	`adcs $h2,$h2,r2`
Packit	c4476c	`#endif`
Packit	c4476c	`add $s2,$r2,$r2,lsr#2`
Packit	c4476c	`adcs $h3,$h3,r3`
Packit	c4476c	`add $s3,$r3,$r3,lsr#2`
Packit	c4476c
Packit	c4476c	`umull r2,r3,$h1,$r0`
Packit	c4476c	`adc $h4,$h4,#0`
Packit	c4476c	`umull r0,r1,$h0,$r0`
Packit	c4476c	`umlal r2,r3,$h4,$s1`
Packit	c4476c	`umlal r0,r1,$h3,$s1`
Packit	c4476c	`ldr $r1,[sp,#20] @ reload $r1`
Packit	c4476c	`umlal r2,r3,$h2,$s3`
Packit	c4476c	`umlal r0,r1,$h1,$s3`
Packit	c4476c	`umlal r2,r3,$h3,$s2`
Packit	c4476c	`umlal r0,r1,$h2,$s2`
Packit	c4476c	`umlal r2,r3,$h0,$r1`
Packit	c4476c	`str r0,[sp,#0] @ future $h0`
Packit	c4476c	`mul r0,$s2,$h4`
Packit	c4476c	`ldr $r2,[sp,#24] @ reload $r2`
Packit	c4476c	`adds r2,r2,r1 @ d1+=d0>>32`
Packit	c4476c	`eor r1,r1,r1`
Packit	c4476c	`adc lr,r3,#0 @ future $h2`
Packit	c4476c	`str r2,[sp,#4] @ future $h1`
Packit	c4476c
Packit	c4476c	`mul r2,$s3,$h4`
Packit	c4476c	`eor r3,r3,r3`
Packit	c4476c	`umlal r0,r1,$h3,$s3`
Packit	c4476c	`ldr $r3,[sp,#28] @ reload $r3`
Packit	c4476c	`umlal r2,r3,$h3,$r0`
Packit	c4476c	`umlal r0,r1,$h2,$r0`
Packit	c4476c	`umlal r2,r3,$h2,$r1`
Packit	c4476c	`umlal r0,r1,$h1,$r1`
Packit	c4476c	`umlal r2,r3,$h1,$r2`
Packit	c4476c	`umlal r0,r1,$h0,$r2`
Packit	c4476c	`umlal r2,r3,$h0,$r3`
Packit	c4476c	`ldr $h0,[sp,#0]`
Packit	c4476c	`mul $h4,$r0,$h4`
Packit	c4476c	`ldr $h1,[sp,#4]`
Packit	c4476c
Packit	c4476c	`adds $h2,lr,r0 @ d2+=d1>>32`
Packit	c4476c	`ldr lr,[sp,#8] @ reload input pointer`
Packit	c4476c	`adc r1,r1,#0`
Packit	c4476c	`adds $h3,r2,r1 @ d3+=d2>>32`
Packit	c4476c	`ldr r0,[sp,#16] @ reload end pointer`
Packit	c4476c	`adc r3,r3,#0`
Packit	c4476c	`add $h4,$h4,r3 @ h4+=d3>>32`
Packit	c4476c
Packit	c4476c	`and r1,$h4,#-4`
Packit	c4476c	`and $h4,$h4,#3`
Packit	c4476c	`add r1,r1,r1,lsr#2 @ *=5`
Packit	c4476c	`adds $h0,$h0,r1`
Packit	c4476c	`adcs $h1,$h1,#0`
Packit	c4476c	`adcs $h2,$h2,#0`
Packit	c4476c	`adcs $h3,$h3,#0`
Packit	c4476c	`adc $h4,$h4,#0`
Packit	c4476c
Packit	c4476c	`cmp r0,lr @ done yet?`
Packit	c4476c	`bhi .Loop`
Packit	c4476c
Packit	c4476c	`ldr $ctx,[sp,#12]`
Packit	c4476c	`add sp,sp,#32`
Packit	c4476c	`stmia $ctx,{$h0-$h4} @ store the result`
Packit	c4476c
Packit	c4476c	`.Lno_data:`
Packit	c4476c	`#if __ARM_ARCH__>=5`
Packit	c4476c	`ldmia sp!,{r3-r11,pc}`
Packit	c4476c	`#else`
Packit	c4476c	`ldmia sp!,{r3-r11,lr}`
Packit	c4476c	`tst lr,#1`
Packit	c4476c	`moveq pc,lr @ be binary compatible with V4, yet`
Packit	c4476c	`bx lr @ interoperable with Thumb ISA:-)`
Packit	c4476c	`#endif`
Packit	c4476c	`.size poly1305_blocks,.-poly1305_blocks`
Packit	c4476c	`___`
Packit	c4476c	`}`
Packit	c4476c	`{`
Packit	c4476c	`my ($ctx,$mac,$nonce)=map("r$_",(0..2));`
Packit	c4476c	`my ($h0,$h1,$h2,$h3,$h4,$g0,$g1,$g2,$g3)=map("r$_",(3..11));`
Packit	c4476c	`my $g4=$h4;`
Packit	c4476c
Packit	c4476c	`$code.=<<___;`
Packit	c4476c	`.type poly1305_emit,%function`
Packit	c4476c	`.align 5`
Packit	c4476c	`poly1305_emit:`
Packit	c4476c	`stmdb sp!,{r4-r11}`
Packit	c4476c	`.Lpoly1305_emit_enter:`
Packit	c4476c
Packit	c4476c	`ldmia $ctx,{$h0-$h4}`
Packit	c4476c	`adds $g0,$h0,#5 @ compare to modulus`
Packit	c4476c	`adcs $g1,$h1,#0`
Packit	c4476c	`adcs $g2,$h2,#0`
Packit	c4476c	`adcs $g3,$h3,#0`
Packit	c4476c	`adc $g4,$h4,#0`
Packit	c4476c	`tst $g4,#4 @ did it carry/borrow?`
Packit	c4476c
Packit	c4476c	`#ifdef __thumb2__`
Packit	c4476c	`it ne`
Packit	c4476c	`#endif`
Packit	c4476c	`movne $h0,$g0`
Packit	c4476c	`ldr $g0,[$nonce,#0]`
Packit	c4476c	`#ifdef __thumb2__`
Packit	c4476c	`it ne`
Packit	c4476c	`#endif`
Packit	c4476c	`movne $h1,$g1`
Packit	c4476c	`ldr $g1,[$nonce,#4]`
Packit	c4476c	`#ifdef __thumb2__`
Packit	c4476c	`it ne`
Packit	c4476c	`#endif`
Packit	c4476c	`movne $h2,$g2`
Packit	c4476c	`ldr $g2,[$nonce,#8]`
Packit	c4476c	`#ifdef __thumb2__`
Packit	c4476c	`it ne`
Packit	c4476c	`#endif`
Packit	c4476c	`movne $h3,$g3`
Packit	c4476c	`ldr $g3,[$nonce,#12]`
Packit	c4476c
Packit	c4476c	`adds $h0,$h0,$g0`
Packit	c4476c	`adcs $h1,$h1,$g1`
Packit	c4476c	`adcs $h2,$h2,$g2`
Packit	c4476c	`adc $h3,$h3,$g3`
Packit	c4476c
Packit	c4476c	`#if __ARM_ARCH__>=7`
Packit	c4476c	`# ifdef __ARMEB__`
Packit	c4476c	`rev $h0,$h0`
Packit	c4476c	`rev $h1,$h1`
Packit	c4476c	`rev $h2,$h2`
Packit	c4476c	`rev $h3,$h3`
Packit	c4476c	`# endif`
Packit	c4476c	`str $h0,[$mac,#0]`
Packit	c4476c	`str $h1,[$mac,#4]`
Packit	c4476c	`str $h2,[$mac,#8]`
Packit	c4476c	`str $h3,[$mac,#12]`
Packit	c4476c	`#else`
Packit	c4476c	`strb $h0,[$mac,#0]`
Packit	c4476c	`mov $h0,$h0,lsr#8`
Packit	c4476c	`strb $h1,[$mac,#4]`
Packit	c4476c	`mov $h1,$h1,lsr#8`
Packit	c4476c	`strb $h2,[$mac,#8]`
Packit	c4476c	`mov $h2,$h2,lsr#8`
Packit	c4476c	`strb $h3,[$mac,#12]`
Packit	c4476c	`mov $h3,$h3,lsr#8`
Packit	c4476c
Packit	c4476c	`strb $h0,[$mac,#1]`
Packit	c4476c	`mov $h0,$h0,lsr#8`
Packit	c4476c	`strb $h1,[$mac,#5]`
Packit	c4476c	`mov $h1,$h1,lsr#8`
Packit	c4476c	`strb $h2,[$mac,#9]`
Packit	c4476c	`mov $h2,$h2,lsr#8`
Packit	c4476c	`strb $h3,[$mac,#13]`
Packit	c4476c	`mov $h3,$h3,lsr#8`
Packit	c4476c
Packit	c4476c	`strb $h0,[$mac,#2]`
Packit	c4476c	`mov $h0,$h0,lsr#8`
Packit	c4476c	`strb $h1,[$mac,#6]`
Packit	c4476c	`mov $h1,$h1,lsr#8`
Packit	c4476c	`strb $h2,[$mac,#10]`
Packit	c4476c	`mov $h2,$h2,lsr#8`
Packit	c4476c	`strb $h3,[$mac,#14]`
Packit	c4476c	`mov $h3,$h3,lsr#8`
Packit	c4476c
Packit	c4476c	`strb $h0,[$mac,#3]`
Packit	c4476c	`strb $h1,[$mac,#7]`
Packit	c4476c	`strb $h2,[$mac,#11]`
Packit	c4476c	`strb $h3,[$mac,#15]`
Packit	c4476c	`#endif`
Packit	c4476c	`ldmia sp!,{r4-r11}`
Packit	c4476c	`#if __ARM_ARCH__>=5`
Packit	c4476c	`ret @ bx lr`
Packit	c4476c	`#else`
Packit	c4476c	`tst lr,#1`
Packit	c4476c	`moveq pc,lr @ be binary compatible with V4, yet`
Packit	c4476c	`bx lr @ interoperable with Thumb ISA:-)`
Packit	c4476c	`#endif`
Packit	c4476c	`.size poly1305_emit,.-poly1305_emit`
Packit	c4476c	`___`
Packit	c4476c	`{`
Packit	c4476c	`my ($R0,$R1,$S1,$R2,$S2,$R3,$S3,$R4,$S4) = map("d$_",(0..9));`
Packit	c4476c	`my ($D0,$D1,$D2,$D3,$D4, $H0,$H1,$H2,$H3,$H4) = map("q$_",(5..14));`
Packit	c4476c	`my ($T0,$T1,$MASK) = map("q$_",(15,4,0));`
Packit	c4476c
Packit	c4476c	`my ($in2,$zeros,$tbl0,$tbl1) = map("r$_",(4..7));`
Packit	c4476c
Packit	c4476c	`$code.=<<___;`
Packit	c4476c	`#if __ARM_MAX_ARCH__>=7`
Packit	c4476c	`.fpu neon`
Packit	c4476c
Packit	c4476c	`.type poly1305_init_neon,%function`
Packit	c4476c	`.align 5`
Packit	c4476c	`poly1305_init_neon:`
Packit	c4476c	`ldr r4,[$ctx,#20] @ load key base 2^32`
Packit	c4476c	`ldr r5,[$ctx,#24]`
Packit	c4476c	`ldr r6,[$ctx,#28]`
Packit	c4476c	`ldr r7,[$ctx,#32]`
Packit	c4476c
Packit	c4476c	`and r2,r4,#0x03ffffff @ base 2^32 -> base 2^26`
Packit	c4476c	`mov r3,r4,lsr#26`
Packit	c4476c	`mov r4,r5,lsr#20`
Packit	c4476c	`orr r3,r3,r5,lsl#6`
Packit	c4476c	`mov r5,r6,lsr#14`
Packit	c4476c	`orr r4,r4,r6,lsl#12`
Packit	c4476c	`mov r6,r7,lsr#8`
Packit	c4476c	`orr r5,r5,r7,lsl#18`
Packit	c4476c	`and r3,r3,#0x03ffffff`
Packit	c4476c	`and r4,r4,#0x03ffffff`
Packit	c4476c	`and r5,r5,#0x03ffffff`
Packit	c4476c
Packit	c4476c	`vdup.32 $R0,r2 @ r^1 in both lanes`
Packit	c4476c	`add r2,r3,r3,lsl#2 @ *5`
Packit	c4476c	`vdup.32 $R1,r3`
Packit	c4476c	`add r3,r4,r4,lsl#2`
Packit	c4476c	`vdup.32 $S1,r2`
Packit	c4476c	`vdup.32 $R2,r4`
Packit	c4476c	`add r4,r5,r5,lsl#2`
Packit	c4476c	`vdup.32 $S2,r3`
Packit	c4476c	`vdup.32 $R3,r5`
Packit	c4476c	`add r5,r6,r6,lsl#2`
Packit	c4476c	`vdup.32 $S3,r4`
Packit	c4476c	`vdup.32 $R4,r6`
Packit	c4476c	`vdup.32 $S4,r5`
Packit	c4476c
Packit	c4476c	`mov $zeros,#2 @ counter`
Packit	c4476c
Packit	c4476c	`.Lsquare_neon:`
Packit	c4476c	`@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@`
Packit	c4476c	`@ d0 = h0r0 + h45r1 + h35r2 + h25r3 + h15*r4`
Packit	c4476c	`@ d1 = h1r0 + h0r1 + h45r2 + h35r3 + h25r4`
Packit	c4476c	`@ d2 = h2r0 + h1r1 + h0r2 + h45r3 + h35*r4`
Packit	c4476c	`@ d3 = h3r0 + h2r1 + h1r2 + h0r3 + h45r4`
Packit	c4476c	`@ d4 = h4r0 + h3r1 + h2r2 + h1r3 + h0*r4`
Packit	c4476c
Packit	c4476c	`vmull.u32 $D0,$R0,${R0}[1]`
Packit	c4476c	`vmull.u32 $D1,$R1,${R0}[1]`
Packit	c4476c	`vmull.u32 $D2,$R2,${R0}[1]`
Packit	c4476c	`vmull.u32 $D3,$R3,${R0}[1]`
Packit	c4476c	`vmull.u32 $D4,$R4,${R0}[1]`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D0,$R4,${S1}[1]`
Packit	c4476c	`vmlal.u32 $D1,$R0,${R1}[1]`
Packit	c4476c	`vmlal.u32 $D2,$R1,${R1}[1]`
Packit	c4476c	`vmlal.u32 $D3,$R2,${R1}[1]`
Packit	c4476c	`vmlal.u32 $D4,$R3,${R1}[1]`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D0,$R3,${S2}[1]`
Packit	c4476c	`vmlal.u32 $D1,$R4,${S2}[1]`
Packit	c4476c	`vmlal.u32 $D3,$R1,${R2}[1]`
Packit	c4476c	`vmlal.u32 $D2,$R0,${R2}[1]`
Packit	c4476c	`vmlal.u32 $D4,$R2,${R2}[1]`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D0,$R2,${S3}[1]`
Packit	c4476c	`vmlal.u32 $D3,$R0,${R3}[1]`
Packit	c4476c	`vmlal.u32 $D1,$R3,${S3}[1]`
Packit	c4476c	`vmlal.u32 $D2,$R4,${S3}[1]`
Packit	c4476c	`vmlal.u32 $D4,$R1,${R3}[1]`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D3,$R4,${S4}[1]`
Packit	c4476c	`vmlal.u32 $D0,$R1,${S4}[1]`
Packit	c4476c	`vmlal.u32 $D1,$R2,${S4}[1]`
Packit	c4476c	`vmlal.u32 $D2,$R3,${S4}[1]`
Packit	c4476c	`vmlal.u32 $D4,$R0,${R4}[1]`
Packit	c4476c
Packit	c4476c	`@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@`
Packit	c4476c	`@ lazy reduction as discussed in "NEON crypto" by D.J. Bernstein`
Packit	c4476c	`@ and P. Schwabe`
Packit	c4476c	`@`
Packit	c4476c	`@ H0>>+H1>>+H2>>+H3>>+H4`
Packit	c4476c	`@ H3>>+H4>>*5+H0>>+H1`
Packit	c4476c	`@`
Packit	c4476c	`@ Trivia.`
Packit	c4476c	`@`
Packit	c4476c	`@ Result of multiplication of n-bit number by m-bit number is`
Packit	c4476c	`@ n+m bits wide. However! Even though 2^n is a n+1-bit number,`
Packit	c4476c	`@ m-bit number multiplied by 2^n is still n+m bits wide.`
Packit	c4476c	`@`
Packit	c4476c	`@ Sum of two n-bit numbers is n+1 bits wide, sum of three - n+2,`
Packit	c4476c	`@ and so is sum of four. Sum of 2^m n-m-bit numbers and n-bit`
Packit	c4476c	`@ one is n+1 bits wide.`
Packit	c4476c	`@`
Packit	c4476c	`@ >>+ denotes Hnext += Hn>>26, Hn &= 0x3ffffff. This means that`
Packit	c4476c	`@ H0, H2, H3 are guaranteed to be 26 bits wide, while H1 and H4`
Packit	c4476c	`@ can be 27. However! In cases when their width exceeds 26 bits`
Packit	c4476c	`@ they are limited by 2^26+2^6. This in turn means that sum`
Packit	c4476c	`@ of the products with these values can still be viewed as sum`
Packit	c4476c	`@ of 52-bit numbers as long as the amount of addends is not a`
Packit	c4476c	`@ power of 2. For example,`
Packit	c4476c	`@`
Packit	c4476c	`@ H4 = H4R0 + H3R1 + H2R2 + H1R3 + H0 * R4,`
Packit	c4476c	`@`
Packit	c4476c	`@ which can't be larger than 5 * (2^26 + 2^6) * (2^26 + 2^6), or`
Packit	c4476c	`@ 5 * (2^52 + 2*2^32 + 2^12), which in turn is smaller than`
Packit	c4476c	`@ 8 * (2^52) or 2^55. However, the value is then multiplied by`
Packit	c4476c	`@ by 5, so we should be looking at 5 * 5 * (2^52 + 2^33 + 2^12),`
Packit	c4476c	`@ which is less than 32 * (2^52) or 2^57. And when processing`
Packit	c4476c	`@ data we are looking at triple as many addends...`
Packit	c4476c	`@`
Packit	c4476c	`@ In key setup procedure pre-reduced H0 is limited by 5*4+1 and`
Packit	c4476c	`@ 5H4 - by 55 52-bit addends, or 57 bits. But when hashing the`
Packit	c4476c	`@ input H0 is limited by (54+1)3 addends, or 58 bits, while`
Packit	c4476c	`@ 5H4 by 55*3, or 59[!] bits. How is this relevant? vmlal.u32`
Packit	c4476c	`@ instruction accepts 2x32-bit input and writes 2x64-bit result.`
Packit	c4476c	`@ This means that result of reduction have to be compressed upon`
Packit	c4476c	`@ loop wrap-around. This can be done in the process of reduction`
Packit	c4476c	`@ to minimize amount of instructions [as well as amount of`
Packit	c4476c	`@ 128-bit instructions, which benefits low-end processors], but`
Packit	c4476c	`@ one has to watch for H2 (which is narrower than H0) and 5*H4`
Packit	c4476c	`@ not being wider than 58 bits, so that result of right shift`
Packit	c4476c	`@ by 26 bits fits in 32 bits. This is also useful on x86,`
Packit	c4476c	`@ because it allows to use paddd in place for paddq, which`
Packit	c4476c	`@ benefits Atom, where paddq is ridiculously slow.`
Packit	c4476c
Packit	c4476c	`vshr.u64 $T0,$D3,#26`
Packit	c4476c	`vmovn.i64 $D3#lo,$D3`
Packit	c4476c	`vshr.u64 $T1,$D0,#26`
Packit	c4476c	`vmovn.i64 $D0#lo,$D0`
Packit	c4476c	`vadd.i64 $D4,$D4,$T0 @ h3 -> h4`
Packit	c4476c	`vbic.i32 $D3#lo,#0xfc000000 @ &=0x03ffffff`
Packit	c4476c	`vadd.i64 $D1,$D1,$T1 @ h0 -> h1`
Packit	c4476c	`vbic.i32 $D0#lo,#0xfc000000`
Packit	c4476c
Packit	c4476c	`vshrn.u64 $T0#lo,$D4,#26`
Packit	c4476c	`vmovn.i64 $D4#lo,$D4`
Packit	c4476c	`vshr.u64 $T1,$D1,#26`
Packit	c4476c	`vmovn.i64 $D1#lo,$D1`
Packit	c4476c	`vadd.i64 $D2,$D2,$T1 @ h1 -> h2`
Packit	c4476c	`vbic.i32 $D4#lo,#0xfc000000`
Packit	c4476c	`vbic.i32 $D1#lo,#0xfc000000`
Packit	c4476c
Packit	c4476c	`vadd.i32 $D0#lo,$D0#lo,$T0#lo`
Packit	c4476c	`vshl.u32 $T0#lo,$T0#lo,#2`
Packit	c4476c	`vshrn.u64 $T1#lo,$D2,#26`
Packit	c4476c	`vmovn.i64 $D2#lo,$D2`
Packit	c4476c	`vadd.i32 $D0#lo,$D0#lo,$T0#lo @ h4 -> h0`
Packit	c4476c	`vadd.i32 $D3#lo,$D3#lo,$T1#lo @ h2 -> h3`
Packit	c4476c	`vbic.i32 $D2#lo,#0xfc000000`
Packit	c4476c
Packit	c4476c	`vshr.u32 $T0#lo,$D0#lo,#26`
Packit	c4476c	`vbic.i32 $D0#lo,#0xfc000000`
Packit	c4476c	`vshr.u32 $T1#lo,$D3#lo,#26`
Packit	c4476c	`vbic.i32 $D3#lo,#0xfc000000`
Packit	c4476c	`vadd.i32 $D1#lo,$D1#lo,$T0#lo @ h0 -> h1`
Packit	c4476c	`vadd.i32 $D4#lo,$D4#lo,$T1#lo @ h3 -> h4`
Packit	c4476c
Packit	c4476c	`subs $zeros,$zeros,#1`
Packit	c4476c	`beq .Lsquare_break_neon`
Packit	c4476c
Packit	c4476c	`add $tbl0,$ctx,#(48+094)`
Packit	c4476c	`add $tbl1,$ctx,#(48+194)`
Packit	c4476c
Packit	c4476c	`vtrn.32 $R0,$D0#lo @ r^2:r^1`
Packit	c4476c	`vtrn.32 $R2,$D2#lo`
Packit	c4476c	`vtrn.32 $R3,$D3#lo`
Packit	c4476c	`vtrn.32 $R1,$D1#lo`
Packit	c4476c	`vtrn.32 $R4,$D4#lo`
Packit	c4476c
Packit	c4476c	`vshl.u32 $S2,$R2,#2 @ *5`
Packit	c4476c	`vshl.u32 $S3,$R3,#2`
Packit	c4476c	`vshl.u32 $S1,$R1,#2`
Packit	c4476c	`vshl.u32 $S4,$R4,#2`
Packit	c4476c	`vadd.i32 $S2,$S2,$R2`
Packit	c4476c	`vadd.i32 $S1,$S1,$R1`
Packit	c4476c	`vadd.i32 $S3,$S3,$R3`
Packit	c4476c	`vadd.i32 $S4,$S4,$R4`
Packit	c4476c
Packit	c4476c	`vst4.32 {${R0}[0],${R1}[0],${S1}[0],${R2}[0]},[$tbl0]!`
Packit	c4476c	`vst4.32 {${R0}[1],${R1}[1],${S1}[1],${R2}[1]},[$tbl1]!`
Packit	c4476c	`vst4.32 {${S2}[0],${R3}[0],${S3}[0],${R4}[0]},[$tbl0]!`
Packit	c4476c	`vst4.32 {${S2}[1],${R3}[1],${S3}[1],${R4}[1]},[$tbl1]!`
Packit	c4476c	`vst1.32 {${S4}[0]},[$tbl0,:32]`
Packit	c4476c	`vst1.32 {${S4}[1]},[$tbl1,:32]`
Packit	c4476c
Packit	c4476c	`b .Lsquare_neon`
Packit	c4476c
Packit	c4476c	`.align 4`
Packit	c4476c	`.Lsquare_break_neon:`
Packit	c4476c	`add $tbl0,$ctx,#(48+249)`
Packit	c4476c	`add $tbl1,$ctx,#(48+349)`
Packit	c4476c
Packit	c4476c	`vmov $R0,$D0#lo @ r^4:r^3`
Packit	c4476c	`vshl.u32 $S1,$D1#lo,#2 @ *5`
Packit	c4476c	`vmov $R1,$D1#lo`
Packit	c4476c	`vshl.u32 $S2,$D2#lo,#2`
Packit	c4476c	`vmov $R2,$D2#lo`
Packit	c4476c	`vshl.u32 $S3,$D3#lo,#2`
Packit	c4476c	`vmov $R3,$D3#lo`
Packit	c4476c	`vshl.u32 $S4,$D4#lo,#2`
Packit	c4476c	`vmov $R4,$D4#lo`
Packit	c4476c	`vadd.i32 $S1,$S1,$D1#lo`
Packit	c4476c	`vadd.i32 $S2,$S2,$D2#lo`
Packit	c4476c	`vadd.i32 $S3,$S3,$D3#lo`
Packit	c4476c	`vadd.i32 $S4,$S4,$D4#lo`
Packit	c4476c
Packit	c4476c	`vst4.32 {${R0}[0],${R1}[0],${S1}[0],${R2}[0]},[$tbl0]!`
Packit	c4476c	`vst4.32 {${R0}[1],${R1}[1],${S1}[1],${R2}[1]},[$tbl1]!`
Packit	c4476c	`vst4.32 {${S2}[0],${R3}[0],${S3}[0],${R4}[0]},[$tbl0]!`
Packit	c4476c	`vst4.32 {${S2}[1],${R3}[1],${S3}[1],${R4}[1]},[$tbl1]!`
Packit	c4476c	`vst1.32 {${S4}[0]},[$tbl0]`
Packit	c4476c	`vst1.32 {${S4}[1]},[$tbl1]`
Packit	c4476c
Packit	c4476c	`ret @ bx lr`
Packit	c4476c	`.size poly1305_init_neon,.-poly1305_init_neon`
Packit	c4476c
Packit	c4476c	`.type poly1305_blocks_neon,%function`
Packit	c4476c	`.align 5`
Packit	c4476c	`poly1305_blocks_neon:`
Packit	c4476c	`ldr ip,[$ctx,#36] @ is_base2_26`
Packit	c4476c	`ands $len,$len,#-16`
Packit	c4476c	`beq .Lno_data_neon`
Packit	c4476c
Packit	c4476c	`cmp $len,#64`
Packit	c4476c	`bhs .Lenter_neon`
Packit	c4476c	`tst ip,ip @ is_base2_26?`
Packit	c4476c	`beq .Lpoly1305_blocks`
Packit	c4476c
Packit	c4476c	`.Lenter_neon:`
Packit	c4476c	`stmdb sp!,{r4-r7}`
Packit	c4476c	`vstmdb sp!,{d8-d15} @ ABI specification says so`
Packit	c4476c
Packit	c4476c	`tst ip,ip @ is_base2_26?`
Packit	c4476c	`bne .Lbase2_26_neon`
Packit	c4476c
Packit	c4476c	`stmdb sp!,{r1-r3,lr}`
Packit	c4476c	`bl poly1305_init_neon`
Packit	c4476c
Packit	c4476c	`ldr r4,[$ctx,#0] @ load hash value base 2^32`
Packit	c4476c	`ldr r5,[$ctx,#4]`
Packit	c4476c	`ldr r6,[$ctx,#8]`
Packit	c4476c	`ldr r7,[$ctx,#12]`
Packit	c4476c	`ldr ip,[$ctx,#16]`
Packit	c4476c
Packit	c4476c	`and r2,r4,#0x03ffffff @ base 2^32 -> base 2^26`
Packit	c4476c	`mov r3,r4,lsr#26`
Packit	c4476c	`veor $D0#lo,$D0#lo,$D0#lo`
Packit	c4476c	`mov r4,r5,lsr#20`
Packit	c4476c	`orr r3,r3,r5,lsl#6`
Packit	c4476c	`veor $D1#lo,$D1#lo,$D1#lo`
Packit	c4476c	`mov r5,r6,lsr#14`
Packit	c4476c	`orr r4,r4,r6,lsl#12`
Packit	c4476c	`veor $D2#lo,$D2#lo,$D2#lo`
Packit	c4476c	`mov r6,r7,lsr#8`
Packit	c4476c	`orr r5,r5,r7,lsl#18`
Packit	c4476c	`veor $D3#lo,$D3#lo,$D3#lo`
Packit	c4476c	`and r3,r3,#0x03ffffff`
Packit	c4476c	`orr r6,r6,ip,lsl#24`
Packit	c4476c	`veor $D4#lo,$D4#lo,$D4#lo`
Packit	c4476c	`and r4,r4,#0x03ffffff`
Packit	c4476c	`mov r1,#1`
Packit	c4476c	`and r5,r5,#0x03ffffff`
Packit	c4476c	`str r1,[$ctx,#36] @ is_base2_26`
Packit	c4476c
Packit	c4476c	`vmov.32 $D0#lo[0],r2`
Packit	c4476c	`vmov.32 $D1#lo[0],r3`
Packit	c4476c	`vmov.32 $D2#lo[0],r4`
Packit	c4476c	`vmov.32 $D3#lo[0],r5`
Packit	c4476c	`vmov.32 $D4#lo[0],r6`
Packit	c4476c	`adr $zeros,.Lzeros`
Packit	c4476c
Packit	c4476c	`ldmia sp!,{r1-r3,lr}`
Packit	c4476c	`b .Lbase2_32_neon`
Packit	c4476c
Packit	c4476c	`.align 4`
Packit	c4476c	`.Lbase2_26_neon:`
Packit	c4476c	`@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@`
Packit	c4476c	`@ load hash value`
Packit	c4476c
Packit	c4476c	`veor $D0#lo,$D0#lo,$D0#lo`
Packit	c4476c	`veor $D1#lo,$D1#lo,$D1#lo`
Packit	c4476c	`veor $D2#lo,$D2#lo,$D2#lo`
Packit	c4476c	`veor $D3#lo,$D3#lo,$D3#lo`
Packit	c4476c	`veor $D4#lo,$D4#lo,$D4#lo`
Packit	c4476c	`vld4.32 {$D0#lo[0],$D1#lo[0],$D2#lo[0],$D3#lo[0]},[$ctx]!`
Packit	c4476c	`adr $zeros,.Lzeros`
Packit	c4476c	`vld1.32 {$D4#lo[0]},[$ctx]`
Packit	c4476c	`sub $ctx,$ctx,#16 @ rewind`
Packit	c4476c
Packit	c4476c	`.Lbase2_32_neon:`
Packit	c4476c	`add $in2,$inp,#32`
Packit	c4476c	`mov $padbit,$padbit,lsl#24`
Packit	c4476c	`tst $len,#31`
Packit	c4476c	`beq .Leven`
Packit	c4476c
Packit	c4476c	`vld4.32 {$H0#lo[0],$H1#lo[0],$H2#lo[0],$H3#lo[0]},[$inp]!`
Packit	c4476c	`vmov.32 $H4#lo[0],$padbit`
Packit	c4476c	`sub $len,$len,#16`
Packit	c4476c	`add $in2,$inp,#32`
Packit	c4476c
Packit	c4476c	`# ifdef __ARMEB__`
Packit	c4476c	`vrev32.8 $H0,$H0`
Packit	c4476c	`vrev32.8 $H3,$H3`
Packit	c4476c	`vrev32.8 $H1,$H1`
Packit	c4476c	`vrev32.8 $H2,$H2`
Packit	c4476c	`# endif`
Packit	c4476c	`vsri.u32 $H4#lo,$H3#lo,#8 @ base 2^32 -> base 2^26`
Packit	c4476c	`vshl.u32 $H3#lo,$H3#lo,#18`
Packit	c4476c
Packit	c4476c	`vsri.u32 $H3#lo,$H2#lo,#14`
Packit	c4476c	`vshl.u32 $H2#lo,$H2#lo,#12`
Packit	c4476c	`vadd.i32 $H4#hi,$H4#lo,$D4#lo @ add hash value and move to #hi`
Packit	c4476c
Packit	c4476c	`vbic.i32 $H3#lo,#0xfc000000`
Packit	c4476c	`vsri.u32 $H2#lo,$H1#lo,#20`
Packit	c4476c	`vshl.u32 $H1#lo,$H1#lo,#6`
Packit	c4476c
Packit	c4476c	`vbic.i32 $H2#lo,#0xfc000000`
Packit	c4476c	`vsri.u32 $H1#lo,$H0#lo,#26`
Packit	c4476c	`vadd.i32 $H3#hi,$H3#lo,$D3#lo`
Packit	c4476c
Packit	c4476c	`vbic.i32 $H0#lo,#0xfc000000`
Packit	c4476c	`vbic.i32 $H1#lo,#0xfc000000`
Packit	c4476c	`vadd.i32 $H2#hi,$H2#lo,$D2#lo`
Packit	c4476c
Packit	c4476c	`vadd.i32 $H0#hi,$H0#lo,$D0#lo`
Packit	c4476c	`vadd.i32 $H1#hi,$H1#lo,$D1#lo`
Packit	c4476c
Packit	c4476c	`mov $tbl1,$zeros`
Packit	c4476c	`add $tbl0,$ctx,#48`
Packit	c4476c
Packit	c4476c	`cmp $len,$len`
Packit	c4476c	`b .Long_tail`
Packit	c4476c
Packit	c4476c	`.align 4`
Packit	c4476c	`.Leven:`
Packit	c4476c	`subs $len,$len,#64`
Packit	c4476c	`it lo`
Packit	c4476c	`movlo $in2,$zeros`
Packit	c4476c
Packit	c4476c	`vmov.i32 $H4,#1<<24 @ padbit, yes, always`
Packit	c4476c	`vld4.32 {$H0#lo,$H1#lo,$H2#lo,$H3#lo},[$inp] @ inp[0:1]`
Packit	c4476c	`add $inp,$inp,#64`
Packit	c4476c	`vld4.32 {$H0#hi,$H1#hi,$H2#hi,$H3#hi},[$in2] @ inp[2:3] (or 0)`
Packit	c4476c	`add $in2,$in2,#64`
Packit	c4476c	`itt hi`
Packit	c4476c	`addhi $tbl1,$ctx,#(48+194)`
Packit	c4476c	`addhi $tbl0,$ctx,#(48+394)`
Packit	c4476c
Packit	c4476c	`# ifdef __ARMEB__`
Packit	c4476c	`vrev32.8 $H0,$H0`
Packit	c4476c	`vrev32.8 $H3,$H3`
Packit	c4476c	`vrev32.8 $H1,$H1`
Packit	c4476c	`vrev32.8 $H2,$H2`
Packit	c4476c	`# endif`
Packit	c4476c	`vsri.u32 $H4,$H3,#8 @ base 2^32 -> base 2^26`
Packit	c4476c	`vshl.u32 $H3,$H3,#18`
Packit	c4476c
Packit	c4476c	`vsri.u32 $H3,$H2,#14`
Packit	c4476c	`vshl.u32 $H2,$H2,#12`
Packit	c4476c
Packit	c4476c	`vbic.i32 $H3,#0xfc000000`
Packit	c4476c	`vsri.u32 $H2,$H1,#20`
Packit	c4476c	`vshl.u32 $H1,$H1,#6`
Packit	c4476c
Packit	c4476c	`vbic.i32 $H2,#0xfc000000`
Packit	c4476c	`vsri.u32 $H1,$H0,#26`
Packit	c4476c
Packit	c4476c	`vbic.i32 $H0,#0xfc000000`
Packit	c4476c	`vbic.i32 $H1,#0xfc000000`
Packit	c4476c
Packit	c4476c	`bls .Lskip_loop`
Packit	c4476c
Packit	c4476c	`vld4.32 {${R0}[1],${R1}[1],${S1}[1],${R2}[1]},[$tbl1]! @ load r^2`
Packit	c4476c	`vld4.32 {${R0}[0],${R1}[0],${S1}[0],${R2}[0]},[$tbl0]! @ load r^4`
Packit	c4476c	`vld4.32 {${S2}[1],${R3}[1],${S3}[1],${R4}[1]},[$tbl1]!`
Packit	c4476c	`vld4.32 {${S2}[0],${R3}[0],${S3}[0],${R4}[0]},[$tbl0]!`
Packit	c4476c	`b .Loop_neon`
Packit	c4476c
Packit	c4476c	`.align 5`
Packit	c4476c	`.Loop_neon:`
Packit	c4476c	`@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@`
Packit	c4476c	`@ ((inp[0]r^4+inp[2]r^2+inp[4])r^4+inp[6]r^2`
Packit	c4476c	`@ ((inp[1]r^4+inp[3]r^2+inp[5])r^3+inp[7]r`
Packit	c4476c	`@ \___________________/`
Packit	c4476c	`@ ((inp[0]r^4+inp[2]r^2+inp[4])r^4+inp[6]r^2+inp[8])*r^2`
Packit	c4476c	`@ ((inp[1]r^4+inp[3]r^2+inp[5])r^4+inp[7]r^2+inp[9])*r`
Packit	c4476c	`@ \___________________/ \____________________/`
Packit	c4476c	`@`
Packit	c4476c	`@ Note that we start with inp[2:3]*r^2. This is because it`
Packit	c4476c	`@ doesn't depend on reduction in previous iteration.`
Packit	c4476c	`@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@`
Packit	c4476c	`@ d4 = h4r0 + h3r1 + h2r2 + h1r3 + h0*r4`
Packit	c4476c	`@ d3 = h3r0 + h2r1 + h1r2 + h0r3 + h45r4`
Packit	c4476c	`@ d2 = h2r0 + h1r1 + h0r2 + h45r3 + h35*r4`
Packit	c4476c	`@ d1 = h1r0 + h0r1 + h45r2 + h35r3 + h25r4`
Packit	c4476c	`@ d0 = h0r0 + h45r1 + h35r2 + h25r3 + h15*r4`
Packit	c4476c
Packit	c4476c	`@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@`
Packit	c4476c	`@ inp[2:3]*r^2`
Packit	c4476c
Packit	c4476c	`vadd.i32 $H2#lo,$H2#lo,$D2#lo @ accumulate inp[0:1]`
Packit	c4476c	`vmull.u32 $D2,$H2#hi,${R0}[1]`
Packit	c4476c	`vadd.i32 $H0#lo,$H0#lo,$D0#lo`
Packit	c4476c	`vmull.u32 $D0,$H0#hi,${R0}[1]`
Packit	c4476c	`vadd.i32 $H3#lo,$H3#lo,$D3#lo`
Packit	c4476c	`vmull.u32 $D3,$H3#hi,${R0}[1]`
Packit	c4476c	`vmlal.u32 $D2,$H1#hi,${R1}[1]`
Packit	c4476c	`vadd.i32 $H1#lo,$H1#lo,$D1#lo`
Packit	c4476c	`vmull.u32 $D1,$H1#hi,${R0}[1]`
Packit	c4476c
Packit	c4476c	`vadd.i32 $H4#lo,$H4#lo,$D4#lo`
Packit	c4476c	`vmull.u32 $D4,$H4#hi,${R0}[1]`
Packit	c4476c	`subs $len,$len,#64`
Packit	c4476c	`vmlal.u32 $D0,$H4#hi,${S1}[1]`
Packit	c4476c	`it lo`
Packit	c4476c	`movlo $in2,$zeros`
Packit	c4476c	`vmlal.u32 $D3,$H2#hi,${R1}[1]`
Packit	c4476c	`vld1.32 ${S4}[1],[$tbl1,:32]`
Packit	c4476c	`vmlal.u32 $D1,$H0#hi,${R1}[1]`
Packit	c4476c	`vmlal.u32 $D4,$H3#hi,${R1}[1]`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D0,$H3#hi,${S2}[1]`
Packit	c4476c	`vmlal.u32 $D3,$H1#hi,${R2}[1]`
Packit	c4476c	`vmlal.u32 $D4,$H2#hi,${R2}[1]`
Packit	c4476c	`vmlal.u32 $D1,$H4#hi,${S2}[1]`
Packit	c4476c	`vmlal.u32 $D2,$H0#hi,${R2}[1]`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D3,$H0#hi,${R3}[1]`
Packit	c4476c	`vmlal.u32 $D0,$H2#hi,${S3}[1]`
Packit	c4476c	`vmlal.u32 $D4,$H1#hi,${R3}[1]`
Packit	c4476c	`vmlal.u32 $D1,$H3#hi,${S3}[1]`
Packit	c4476c	`vmlal.u32 $D2,$H4#hi,${S3}[1]`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D3,$H4#hi,${S4}[1]`
Packit	c4476c	`vmlal.u32 $D0,$H1#hi,${S4}[1]`
Packit	c4476c	`vmlal.u32 $D4,$H0#hi,${R4}[1]`
Packit	c4476c	`vmlal.u32 $D1,$H2#hi,${S4}[1]`
Packit	c4476c	`vmlal.u32 $D2,$H3#hi,${S4}[1]`
Packit	c4476c
Packit	c4476c	`vld4.32 {$H0#hi,$H1#hi,$H2#hi,$H3#hi},[$in2] @ inp[2:3] (or 0)`
Packit	c4476c	`add $in2,$in2,#64`
Packit	c4476c
Packit	c4476c	`@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@`
Packit	c4476c	`@ (hash+inp[0:1])*r^4 and accumulate`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D3,$H3#lo,${R0}[0]`
Packit	c4476c	`vmlal.u32 $D0,$H0#lo,${R0}[0]`
Packit	c4476c	`vmlal.u32 $D4,$H4#lo,${R0}[0]`
Packit	c4476c	`vmlal.u32 $D1,$H1#lo,${R0}[0]`
Packit	c4476c	`vmlal.u32 $D2,$H2#lo,${R0}[0]`
Packit	c4476c	`vld1.32 ${S4}[0],[$tbl0,:32]`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D3,$H2#lo,${R1}[0]`
Packit	c4476c	`vmlal.u32 $D0,$H4#lo,${S1}[0]`
Packit	c4476c	`vmlal.u32 $D4,$H3#lo,${R1}[0]`
Packit	c4476c	`vmlal.u32 $D1,$H0#lo,${R1}[0]`
Packit	c4476c	`vmlal.u32 $D2,$H1#lo,${R1}[0]`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D3,$H1#lo,${R2}[0]`
Packit	c4476c	`vmlal.u32 $D0,$H3#lo,${S2}[0]`
Packit	c4476c	`vmlal.u32 $D4,$H2#lo,${R2}[0]`
Packit	c4476c	`vmlal.u32 $D1,$H4#lo,${S2}[0]`
Packit	c4476c	`vmlal.u32 $D2,$H0#lo,${R2}[0]`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D3,$H0#lo,${R3}[0]`
Packit	c4476c	`vmlal.u32 $D0,$H2#lo,${S3}[0]`
Packit	c4476c	`vmlal.u32 $D4,$H1#lo,${R3}[0]`
Packit	c4476c	`vmlal.u32 $D1,$H3#lo,${S3}[0]`
Packit	c4476c	`vmlal.u32 $D3,$H4#lo,${S4}[0]`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D2,$H4#lo,${S3}[0]`
Packit	c4476c	`vmlal.u32 $D0,$H1#lo,${S4}[0]`
Packit	c4476c	`vmlal.u32 $D4,$H0#lo,${R4}[0]`
Packit	c4476c	`vmov.i32 $H4,#1<<24 @ padbit, yes, always`
Packit	c4476c	`vmlal.u32 $D1,$H2#lo,${S4}[0]`
Packit	c4476c	`vmlal.u32 $D2,$H3#lo,${S4}[0]`
Packit	c4476c
Packit	c4476c	`vld4.32 {$H0#lo,$H1#lo,$H2#lo,$H3#lo},[$inp] @ inp[0:1]`
Packit	c4476c	`add $inp,$inp,#64`
Packit	c4476c	`# ifdef __ARMEB__`
Packit	c4476c	`vrev32.8 $H0,$H0`
Packit	c4476c	`vrev32.8 $H1,$H1`
Packit	c4476c	`vrev32.8 $H2,$H2`
Packit	c4476c	`vrev32.8 $H3,$H3`
Packit	c4476c	`# endif`
Packit	c4476c
Packit	c4476c	`@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@`
Packit	c4476c	`@ lazy reduction interleaved with base 2^32 -> base 2^26 of`
Packit	c4476c	`@ inp[0:3] previously loaded to $H0-$H3 and smashed to $H0-$H4.`
Packit	c4476c
Packit	c4476c	`vshr.u64 $T0,$D3,#26`
Packit	c4476c	`vmovn.i64 $D3#lo,$D3`
Packit	c4476c	`vshr.u64 $T1,$D0,#26`
Packit	c4476c	`vmovn.i64 $D0#lo,$D0`
Packit	c4476c	`vadd.i64 $D4,$D4,$T0 @ h3 -> h4`
Packit	c4476c	`vbic.i32 $D3#lo,#0xfc000000`
Packit	c4476c	`vsri.u32 $H4,$H3,#8 @ base 2^32 -> base 2^26`
Packit	c4476c	`vadd.i64 $D1,$D1,$T1 @ h0 -> h1`
Packit	c4476c	`vshl.u32 $H3,$H3,#18`
Packit	c4476c	`vbic.i32 $D0#lo,#0xfc000000`
Packit	c4476c
Packit	c4476c	`vshrn.u64 $T0#lo,$D4,#26`
Packit	c4476c	`vmovn.i64 $D4#lo,$D4`
Packit	c4476c	`vshr.u64 $T1,$D1,#26`
Packit	c4476c	`vmovn.i64 $D1#lo,$D1`
Packit	c4476c	`vadd.i64 $D2,$D2,$T1 @ h1 -> h2`
Packit	c4476c	`vsri.u32 $H3,$H2,#14`
Packit	c4476c	`vbic.i32 $D4#lo,#0xfc000000`
Packit	c4476c	`vshl.u32 $H2,$H2,#12`
Packit	c4476c	`vbic.i32 $D1#lo,#0xfc000000`
Packit	c4476c
Packit	c4476c	`vadd.i32 $D0#lo,$D0#lo,$T0#lo`
Packit	c4476c	`vshl.u32 $T0#lo,$T0#lo,#2`
Packit	c4476c	`vbic.i32 $H3,#0xfc000000`
Packit	c4476c	`vshrn.u64 $T1#lo,$D2,#26`
Packit	c4476c	`vmovn.i64 $D2#lo,$D2`
Packit	c4476c	`vaddl.u32 $D0,$D0#lo,$T0#lo @ h4 -> h0 [widen for a sec]`
Packit	c4476c	`vsri.u32 $H2,$H1,#20`
Packit	c4476c	`vadd.i32 $D3#lo,$D3#lo,$T1#lo @ h2 -> h3`
Packit	c4476c	`vshl.u32 $H1,$H1,#6`
Packit	c4476c	`vbic.i32 $D2#lo,#0xfc000000`
Packit	c4476c	`vbic.i32 $H2,#0xfc000000`
Packit	c4476c
Packit	c4476c	`vshrn.u64 $T0#lo,$D0,#26 @ re-narrow`
Packit	c4476c	`vmovn.i64 $D0#lo,$D0`
Packit	c4476c	`vsri.u32 $H1,$H0,#26`
Packit	c4476c	`vbic.i32 $H0,#0xfc000000`
Packit	c4476c	`vshr.u32 $T1#lo,$D3#lo,#26`
Packit	c4476c	`vbic.i32 $D3#lo,#0xfc000000`
Packit	c4476c	`vbic.i32 $D0#lo,#0xfc000000`
Packit	c4476c	`vadd.i32 $D1#lo,$D1#lo,$T0#lo @ h0 -> h1`
Packit	c4476c	`vadd.i32 $D4#lo,$D4#lo,$T1#lo @ h3 -> h4`
Packit	c4476c	`vbic.i32 $H1,#0xfc000000`
Packit	c4476c
Packit	c4476c	`bhi .Loop_neon`
Packit	c4476c
Packit	c4476c	`.Lskip_loop:`
Packit	c4476c	`@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@`
Packit	c4476c	`@ multiply (inp[0:1]+hash) or inp[2:3] by r^2:r^1`
Packit	c4476c
Packit	c4476c	`add $tbl1,$ctx,#(48+094)`
Packit	c4476c	`add $tbl0,$ctx,#(48+194)`
Packit	c4476c	`adds $len,$len,#32`
Packit	c4476c	`it ne`
Packit	c4476c	`movne $len,#0`
Packit	c4476c	`bne .Long_tail`
Packit	c4476c
Packit	c4476c	`vadd.i32 $H2#hi,$H2#lo,$D2#lo @ add hash value and move to #hi`
Packit	c4476c	`vadd.i32 $H0#hi,$H0#lo,$D0#lo`
Packit	c4476c	`vadd.i32 $H3#hi,$H3#lo,$D3#lo`
Packit	c4476c	`vadd.i32 $H1#hi,$H1#lo,$D1#lo`
Packit	c4476c	`vadd.i32 $H4#hi,$H4#lo,$D4#lo`
Packit	c4476c
Packit	c4476c	`.Long_tail:`
Packit	c4476c	`vld4.32 {${R0}[1],${R1}[1],${S1}[1],${R2}[1]},[$tbl1]! @ load r^1`
Packit	c4476c	`vld4.32 {${R0}[0],${R1}[0],${S1}[0],${R2}[0]},[$tbl0]! @ load r^2`
Packit	c4476c
Packit	c4476c	`vadd.i32 $H2#lo,$H2#lo,$D2#lo @ can be redundant`
Packit	c4476c	`vmull.u32 $D2,$H2#hi,$R0`
Packit	c4476c	`vadd.i32 $H0#lo,$H0#lo,$D0#lo`
Packit	c4476c	`vmull.u32 $D0,$H0#hi,$R0`
Packit	c4476c	`vadd.i32 $H3#lo,$H3#lo,$D3#lo`
Packit	c4476c	`vmull.u32 $D3,$H3#hi,$R0`
Packit	c4476c	`vadd.i32 $H1#lo,$H1#lo,$D1#lo`
Packit	c4476c	`vmull.u32 $D1,$H1#hi,$R0`
Packit	c4476c	`vadd.i32 $H4#lo,$H4#lo,$D4#lo`
Packit	c4476c	`vmull.u32 $D4,$H4#hi,$R0`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D0,$H4#hi,$S1`
Packit	c4476c	`vld4.32 {${S2}[1],${R3}[1],${S3}[1],${R4}[1]},[$tbl1]!`
Packit	c4476c	`vmlal.u32 $D3,$H2#hi,$R1`
Packit	c4476c	`vld4.32 {${S2}[0],${R3}[0],${S3}[0],${R4}[0]},[$tbl0]!`
Packit	c4476c	`vmlal.u32 $D1,$H0#hi,$R1`
Packit	c4476c	`vmlal.u32 $D4,$H3#hi,$R1`
Packit	c4476c	`vmlal.u32 $D2,$H1#hi,$R1`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D3,$H1#hi,$R2`
Packit	c4476c	`vld1.32 ${S4}[1],[$tbl1,:32]`
Packit	c4476c	`vmlal.u32 $D0,$H3#hi,$S2`
Packit	c4476c	`vld1.32 ${S4}[0],[$tbl0,:32]`
Packit	c4476c	`vmlal.u32 $D4,$H2#hi,$R2`
Packit	c4476c	`vmlal.u32 $D1,$H4#hi,$S2`
Packit	c4476c	`vmlal.u32 $D2,$H0#hi,$R2`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D3,$H0#hi,$R3`
Packit	c4476c	`it ne`
Packit	c4476c	`addne $tbl1,$ctx,#(48+294)`
Packit	c4476c	`vmlal.u32 $D0,$H2#hi,$S3`
Packit	c4476c	`it ne`
Packit	c4476c	`addne $tbl0,$ctx,#(48+394)`
Packit	c4476c	`vmlal.u32 $D4,$H1#hi,$R3`
Packit	c4476c	`vmlal.u32 $D1,$H3#hi,$S3`
Packit	c4476c	`vmlal.u32 $D2,$H4#hi,$S3`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D3,$H4#hi,$S4`
Packit	c4476c	`vorn $MASK,$MASK,$MASK @ all-ones, can be redundant`
Packit	c4476c	`vmlal.u32 $D0,$H1#hi,$S4`
Packit	c4476c	`vshr.u64 $MASK,$MASK,#38`
Packit	c4476c	`vmlal.u32 $D4,$H0#hi,$R4`
Packit	c4476c	`vmlal.u32 $D1,$H2#hi,$S4`
Packit	c4476c	`vmlal.u32 $D2,$H3#hi,$S4`
Packit	c4476c
Packit	c4476c	`beq .Lshort_tail`
Packit	c4476c
Packit	c4476c	`@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@`
Packit	c4476c	`@ (hash+inp[0:1])*r^4:r^3 and accumulate`
Packit	c4476c
Packit	c4476c	`vld4.32 {${R0}[1],${R1}[1],${S1}[1],${R2}[1]},[$tbl1]! @ load r^3`
Packit	c4476c	`vld4.32 {${R0}[0],${R1}[0],${S1}[0],${R2}[0]},[$tbl0]! @ load r^4`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D2,$H2#lo,$R0`
Packit	c4476c	`vmlal.u32 $D0,$H0#lo,$R0`
Packit	c4476c	`vmlal.u32 $D3,$H3#lo,$R0`
Packit	c4476c	`vmlal.u32 $D1,$H1#lo,$R0`
Packit	c4476c	`vmlal.u32 $D4,$H4#lo,$R0`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D0,$H4#lo,$S1`
Packit	c4476c	`vld4.32 {${S2}[1],${R3}[1],${S3}[1],${R4}[1]},[$tbl1]!`
Packit	c4476c	`vmlal.u32 $D3,$H2#lo,$R1`
Packit	c4476c	`vld4.32 {${S2}[0],${R3}[0],${S3}[0],${R4}[0]},[$tbl0]!`
Packit	c4476c	`vmlal.u32 $D1,$H0#lo,$R1`
Packit	c4476c	`vmlal.u32 $D4,$H3#lo,$R1`
Packit	c4476c	`vmlal.u32 $D2,$H1#lo,$R1`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D3,$H1#lo,$R2`
Packit	c4476c	`vld1.32 ${S4}[1],[$tbl1,:32]`
Packit	c4476c	`vmlal.u32 $D0,$H3#lo,$S2`
Packit	c4476c	`vld1.32 ${S4}[0],[$tbl0,:32]`
Packit	c4476c	`vmlal.u32 $D4,$H2#lo,$R2`
Packit	c4476c	`vmlal.u32 $D1,$H4#lo,$S2`
Packit	c4476c	`vmlal.u32 $D2,$H0#lo,$R2`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D3,$H0#lo,$R3`
Packit	c4476c	`vmlal.u32 $D0,$H2#lo,$S3`
Packit	c4476c	`vmlal.u32 $D4,$H1#lo,$R3`
Packit	c4476c	`vmlal.u32 $D1,$H3#lo,$S3`
Packit	c4476c	`vmlal.u32 $D2,$H4#lo,$S3`
Packit	c4476c
Packit	c4476c	`vmlal.u32 $D3,$H4#lo,$S4`
Packit	c4476c	`vorn $MASK,$MASK,$MASK @ all-ones`
Packit	c4476c	`vmlal.u32 $D0,$H1#lo,$S4`
Packit	c4476c	`vshr.u64 $MASK,$MASK,#38`
Packit	c4476c	`vmlal.u32 $D4,$H0#lo,$R4`
Packit	c4476c	`vmlal.u32 $D1,$H2#lo,$S4`
Packit	c4476c	`vmlal.u32 $D2,$H3#lo,$S4`
Packit	c4476c
Packit	c4476c	`.Lshort_tail:`
Packit	c4476c	`@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@`
Packit	c4476c	`@ horizontal addition`
Packit	c4476c
Packit	c4476c	`vadd.i64 $D3#lo,$D3#lo,$D3#hi`
Packit	c4476c	`vadd.i64 $D0#lo,$D0#lo,$D0#hi`
Packit	c4476c	`vadd.i64 $D4#lo,$D4#lo,$D4#hi`
Packit	c4476c	`vadd.i64 $D1#lo,$D1#lo,$D1#hi`
Packit	c4476c	`vadd.i64 $D2#lo,$D2#lo,$D2#hi`
Packit	c4476c
Packit	c4476c	`@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@`
Packit	c4476c	`@ lazy reduction, but without narrowing`
Packit	c4476c
Packit	c4476c	`vshr.u64 $T0,$D3,#26`
Packit	c4476c	`vand.i64 $D3,$D3,$MASK`
Packit	c4476c	`vshr.u64 $T1,$D0,#26`
Packit	c4476c	`vand.i64 $D0,$D0,$MASK`
Packit	c4476c	`vadd.i64 $D4,$D4,$T0 @ h3 -> h4`
Packit	c4476c	`vadd.i64 $D1,$D1,$T1 @ h0 -> h1`
Packit	c4476c
Packit	c4476c	`vshr.u64 $T0,$D4,#26`
Packit	c4476c	`vand.i64 $D4,$D4,$MASK`
Packit	c4476c	`vshr.u64 $T1,$D1,#26`
Packit	c4476c	`vand.i64 $D1,$D1,$MASK`
Packit	c4476c	`vadd.i64 $D2,$D2,$T1 @ h1 -> h2`
Packit	c4476c
Packit	c4476c	`vadd.i64 $D0,$D0,$T0`
Packit	c4476c	`vshl.u64 $T0,$T0,#2`
Packit	c4476c	`vshr.u64 $T1,$D2,#26`
Packit	c4476c	`vand.i64 $D2,$D2,$MASK`
Packit	c4476c	`vadd.i64 $D0,$D0,$T0 @ h4 -> h0`
Packit	c4476c	`vadd.i64 $D3,$D3,$T1 @ h2 -> h3`
Packit	c4476c
Packit	c4476c	`vshr.u64 $T0,$D0,#26`
Packit	c4476c	`vand.i64 $D0,$D0,$MASK`
Packit	c4476c	`vshr.u64 $T1,$D3,#26`
Packit	c4476c	`vand.i64 $D3,$D3,$MASK`
Packit	c4476c	`vadd.i64 $D1,$D1,$T0 @ h0 -> h1`
Packit	c4476c	`vadd.i64 $D4,$D4,$T1 @ h3 -> h4`
Packit	c4476c
Packit	c4476c	`cmp $len,#0`
Packit	c4476c	`bne .Leven`
Packit	c4476c
Packit	c4476c	`@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@`
Packit	c4476c	`@ store hash value`
Packit	c4476c
Packit	c4476c	`vst4.32 {$D0#lo[0],$D1#lo[0],$D2#lo[0],$D3#lo[0]},[$ctx]!`
Packit	c4476c	`vst1.32 {$D4#lo[0]},[$ctx]`
Packit	c4476c
Packit	c4476c	`vldmia sp!,{d8-d15} @ epilogue`
Packit	c4476c	`ldmia sp!,{r4-r7}`
Packit	c4476c	`.Lno_data_neon:`
Packit	c4476c	`ret @ bx lr`
Packit	c4476c	`.size poly1305_blocks_neon,.-poly1305_blocks_neon`
Packit	c4476c
Packit	c4476c	`.type poly1305_emit_neon,%function`
Packit	c4476c	`.align 5`
Packit	c4476c	`poly1305_emit_neon:`
Packit	c4476c	`ldr ip,[$ctx,#36] @ is_base2_26`
Packit	c4476c
Packit	c4476c	`stmdb sp!,{r4-r11}`
Packit	c4476c
Packit	c4476c	`tst ip,ip`
Packit	c4476c	`beq .Lpoly1305_emit_enter`
Packit	c4476c
Packit	c4476c	`ldmia $ctx,{$h0-$h4}`
Packit	c4476c	`eor $g0,$g0,$g0`
Packit	c4476c
Packit	c4476c	`adds $h0,$h0,$h1,lsl#26 @ base 2^26 -> base 2^32`
Packit	c4476c	`mov $h1,$h1,lsr#6`
Packit	c4476c	`adcs $h1,$h1,$h2,lsl#20`
Packit	c4476c	`mov $h2,$h2,lsr#12`
Packit	c4476c	`adcs $h2,$h2,$h3,lsl#14`
Packit	c4476c	`mov $h3,$h3,lsr#18`
Packit	c4476c	`adcs $h3,$h3,$h4,lsl#8`
Packit	c4476c	`adc $h4,$g0,$h4,lsr#24 @ can be partially reduced ...`
Packit	c4476c
Packit	c4476c	`and $g0,$h4,#-4 @ ... so reduce`
Packit	c4476c	`and $h4,$h3,#3`
Packit	c4476c	`add $g0,$g0,$g0,lsr#2 @ *= 5`
Packit	c4476c	`adds $h0,$h0,$g0`
Packit	c4476c	`adcs $h1,$h1,#0`
Packit	c4476c	`adcs $h2,$h2,#0`
Packit	c4476c	`adcs $h3,$h3,#0`
Packit	c4476c	`adc $h4,$h4,#0`
Packit	c4476c
Packit	c4476c	`adds $g0,$h0,#5 @ compare to modulus`
Packit	c4476c	`adcs $g1,$h1,#0`
Packit	c4476c	`adcs $g2,$h2,#0`
Packit	c4476c	`adcs $g3,$h3,#0`
Packit	c4476c	`adc $g4,$h4,#0`
Packit	c4476c	`tst $g4,#4 @ did it carry/borrow?`
Packit	c4476c
Packit	c4476c	`it ne`
Packit	c4476c	`movne $h0,$g0`
Packit	c4476c	`ldr $g0,[$nonce,#0]`
Packit	c4476c	`it ne`
Packit	c4476c	`movne $h1,$g1`
Packit	c4476c	`ldr $g1,[$nonce,#4]`
Packit	c4476c	`it ne`
Packit	c4476c	`movne $h2,$g2`
Packit	c4476c	`ldr $g2,[$nonce,#8]`
Packit	c4476c	`it ne`
Packit	c4476c	`movne $h3,$g3`
Packit	c4476c	`ldr $g3,[$nonce,#12]`
Packit	c4476c
Packit	c4476c	`adds $h0,$h0,$g0 @ accumulate nonce`
Packit	c4476c	`adcs $h1,$h1,$g1`
Packit	c4476c	`adcs $h2,$h2,$g2`
Packit	c4476c	`adc $h3,$h3,$g3`
Packit	c4476c
Packit	c4476c	`# ifdef __ARMEB__`
Packit	c4476c	`rev $h0,$h0`
Packit	c4476c	`rev $h1,$h1`
Packit	c4476c	`rev $h2,$h2`
Packit	c4476c	`rev $h3,$h3`
Packit	c4476c	`# endif`
Packit	c4476c	`str $h0,[$mac,#0] @ store the result`
Packit	c4476c	`str $h1,[$mac,#4]`
Packit	c4476c	`str $h2,[$mac,#8]`
Packit	c4476c	`str $h3,[$mac,#12]`
Packit	c4476c
Packit	c4476c	`ldmia sp!,{r4-r11}`
Packit	c4476c	`ret @ bx lr`
Packit	c4476c	`.size poly1305_emit_neon,.-poly1305_emit_neon`
Packit	c4476c
Packit	c4476c	`.align 5`
Packit	c4476c	`.Lzeros:`
Packit	c4476c	`.long 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0`
Packit	c4476c	`.LOPENSSL_armcap:`
Packit	c4476c	`.word OPENSSL_armcap_P-.Lpoly1305_init`
Packit	c4476c	`#endif`
Packit	c4476c	`___`
Packit	c4476c	`} }`
Packit	c4476c	`$code.=<<___;`
Packit	c4476c	`.asciz "Poly1305 for ARMv4/NEON, CRYPTOGAMS by <appro\@openssl.org>"`
Packit	c4476c	`.align 2`
Packit	c4476c	`#if __ARM_MAX_ARCH__>=7`
Packit	c4476c	`.comm OPENSSL_armcap_P,4,4`
Packit	c4476c	`#endif`
Packit	c4476c	`___`
Packit	c4476c
Packit	c4476c	`foreach (split("\n",$code)) {`
Packit	c4476c	s/\`([^\`]*)\`/eval $1/geo;
Packit	c4476c
Packit	c4476c	`s/\bq([0-9]+)#(lo\|hi)/sprintf "d%d",2*$1+($2 eq "hi")/geo or`
Packit	c4476c	`s/\bret\b/bx lr/go or`
Packit	c4476c	`s/\bbx\s+lr\b/.word\t0xe12fff1e/go; # make it possible to compile with -march=armv4`
Packit	c4476c
Packit	c4476c	`print $_,"\n";`
Packit	c4476c	`}`
Packit	c4476c	`close STDOUT or die "error closing STDOUT: $!"; # enforce flush`

source-git / openssl

Source Code

Blame crypto/poly1305/asm/poly1305-armv4.pl