Tree - source-git/openssl - CentOS Git server

source-git / openssl

Blame crypto/bn/asm/ia64-mont.pl

Blob History Raw

Packit	c4476c	`#! /usr/bin/env perl`
Packit	c4476c	`# Copyright 2010-2020 The OpenSSL Project Authors. All Rights Reserved.`
Packit	c4476c	`#`
Packit	c4476c	`# Licensed under the OpenSSL license (the "License"). You may not use`
Packit	c4476c	`# this file except in compliance with the License. You can obtain a copy`
Packit	c4476c	`# in the file LICENSE in the source distribution or at`
Packit	c4476c	`# https://www.openssl.org/source/license.html`
Packit	c4476c
Packit	c4476c	`#`
Packit	c4476c	`# ====================================================================`
Packit	c4476c	`# Written by Andy Polyakov <appro@openssl.org> for the OpenSSL`
Packit	c4476c	`# project. The module is, however, dual licensed under OpenSSL and`
Packit	c4476c	`# CRYPTOGAMS licenses depending on where you obtain it. For further`
Packit	c4476c	`# details see http://www.openssl.org/~appro/cryptogams/.`
Packit	c4476c	`# ====================================================================`
Packit	c4476c
Packit	c4476c	`# January 2010`
Packit	c4476c	`#`
Packit	c4476c	`# "Teaser" Montgomery multiplication module for IA-64. There are`
Packit	c4476c	`# several possibilities for improvement:`
Packit	c4476c	`#`
Packit	c4476c	`# - modulo-scheduling outer loop would eliminate quite a number of`
Packit	c4476c	`# stalls after ldf8, xma and getf.sig outside inner loop and`
Packit	c4476c	`# improve shorter key performance;`
Packit	c4476c	`# - shorter vector support [with input vectors being fetched only`
Packit	c4476c	`# once] should be added;`
Packit	c4476c	`# - 2x unroll with help of n0[1] would make the code scalable on`
Packit	c4476c	`# "wider" IA-64, "wider" than Itanium 2 that is, which is not of`
Packit	c4476c	`# acute interest, because upcoming Tukwila's individual cores are`
Packit	c4476c	`# reportedly based on Itanium 2 design;`
Packit	c4476c	`# - dedicated squaring procedure(?);`
Packit	c4476c	`#`
Packit	c4476c	`# January 2010`
Packit	c4476c	`#`
Packit	c4476c	`# Shorter vector support is implemented by zero-padding ap and np`
Packit	c4476c	`# vectors up to 8 elements, or 512 bits. This means that 256-bit`
Packit	c4476c	`# inputs will be processed only 2 times faster than 512-bit inputs,`
Packit	c4476c	`# not 4 [as one would expect, because algorithm complexity is n^2].`
Packit	c4476c	`# The reason for padding is that inputs shorter than 512 bits won't`
Packit	c4476c	`# be processed faster anyway, because minimal critical path of the`
Packit	c4476c	`# core loop happens to match 512-bit timing. Either way, it resulted`
Packit	c4476c	`# in >100% improvement of 512-bit RSA sign benchmark and 50% - of`
Packit	c4476c	`# 1024-bit one [in comparison to original version of this module].`
Packit	c4476c	`#`
Packit	c4476c	`# So far 'openssl speed rsa dsa' output on 900MHz Itanium 2 with`
Packit	c4476c	`# this module is:`
Packit	c4476c	`# sign verify sign/s verify/s`
Packit	c4476c	`# rsa 512 bits 0.000290s 0.000024s 3452.8 42031.4`
Packit	c4476c	`# rsa 1024 bits 0.000793s 0.000058s 1261.7 17172.0`
Packit	c4476c	`# rsa 2048 bits 0.005908s 0.000148s 169.3 6754.0`
Packit	c4476c	`# rsa 4096 bits 0.033456s 0.000469s 29.9 2133.6`
Packit	c4476c	`# dsa 512 bits 0.000253s 0.000198s 3949.9 5057.0`
Packit	c4476c	`# dsa 1024 bits 0.000585s 0.000607s 1708.4 1647.4`
Packit	c4476c	`# dsa 2048 bits 0.001453s 0.001703s 688.1 587.4`
Packit	c4476c	`#`
Packit	c4476c	`# ... and without (but still with ia64.S):`
Packit	c4476c	`#`
Packit	c4476c	`# rsa 512 bits 0.000670s 0.000041s 1491.8 24145.5`
Packit	c4476c	`# rsa 1024 bits 0.001988s 0.000080s 502.9 12499.3`
Packit	c4476c	`# rsa 2048 bits 0.008702s 0.000189s 114.9 5293.9`
Packit	c4476c	`# rsa 4096 bits 0.043860s 0.000533s 22.8 1875.9`
Packit	c4476c	`# dsa 512 bits 0.000441s 0.000427s 2265.3 2340.6`
Packit	c4476c	`# dsa 1024 bits 0.000823s 0.000867s 1215.6 1153.2`
Packit	c4476c	`# dsa 2048 bits 0.001894s 0.002179s 528.1 458.9`
Packit	c4476c	`#`
Packit	c4476c	`# As it can be seen, RSA sign performance improves by 130-30%,`
Packit	c4476c	`# hereafter less for longer keys, while verify - by 74-13%.`
Packit	c4476c	`# DSA performance improves by 115-30%.`
Packit	c4476c
Packit	c4476c	`$output=pop;`
Packit	c4476c
Packit	c4476c	`if ($^O eq "hpux") {`
Packit	c4476c	`$ADDP="addp4";`
Packit	c4476c	`for (@ARGV) { $ADDP="add" if (/[\+DD\|\-mlp]64/); }`
Packit	c4476c	`} else { $ADDP="add"; }`
Packit	c4476c
Packit	c4476c	`$code=<<___;`
Packit	c4476c	`.explicit`
Packit	c4476c	`.text`
Packit	c4476c
Packit	c4476c	`// int bn_mul_mont (BN_ULONG rp,const BN_ULONG ap,`
Packit	c4476c	`// const BN_ULONG bp,const BN_ULONG np,`
Packit	c4476c	`// const BN_ULONG *n0p,int num);`
Packit	c4476c	`.align 64`
Packit	c4476c	`.global bn_mul_mont#`
Packit	c4476c	`.proc bn_mul_mont#`
Packit	c4476c	`bn_mul_mont:`
Packit	c4476c	`.prologue`
Packit	c4476c	`.body`
Packit	c4476c	`{ .mmi; cmp4.le p6,p7=2,r37;;`
Packit	c4476c	`(p6) cmp4.lt.unc p8,p9=8,r37`
Packit	c4476c	`mov ret0=r0 };;`
Packit	c4476c	`{ .bbb;`
Packit	c4476c	`(p9) br.cond.dptk.many bn_mul_mont_8`
Packit	c4476c	`(p8) br.cond.dpnt.many bn_mul_mont_general`
Packit	c4476c	`(p7) br.ret.spnt.many b0 };;`
Packit	c4476c	`.endp bn_mul_mont#`
Packit	c4476c
Packit	c4476c	`prevfs=r2; prevpr=r3; prevlc=r10; prevsp=r11;`
Packit	c4476c
Packit	c4476c	`rptr=r8; aptr=r9; bptr=r14; nptr=r15;`
Packit	c4476c	`tptr=r16; // &tp[0]`
Packit	c4476c	`tp_1=r17; // &tp[-1]`
Packit	c4476c	`num=r18; len=r19; lc=r20;`
Packit	c4476c	`topbit=r21; // carry bit from tmp[num]`
Packit	c4476c
Packit	c4476c	`n0=f6;`
Packit	c4476c	`m0=f7;`
Packit	c4476c	`bi=f8;`
Packit	c4476c
Packit	c4476c	`.align 64`
Packit	c4476c	`.local bn_mul_mont_general#`
Packit	c4476c	`.proc bn_mul_mont_general#`
Packit	c4476c	`bn_mul_mont_general:`
Packit	c4476c	`.prologue`
Packit	c4476c	`{ .mmi; .save ar.pfs,prevfs`
Packit	c4476c	`alloc prevfs=ar.pfs,6,2,0,8`
Packit	c4476c	`$ADDP aptr=0,in1`
Packit	c4476c	`.save ar.lc,prevlc`
Packit	c4476c	`mov prevlc=ar.lc }`
Packit	c4476c	`{ .mmi; .vframe prevsp`
Packit	c4476c	`mov prevsp=sp`
Packit	c4476c	`$ADDP bptr=0,in2`
Packit	c4476c	`.save pr,prevpr`
Packit	c4476c	`mov prevpr=pr };;`
Packit	c4476c
Packit	c4476c	`.body`
Packit	c4476c	`.rotf alo[6],nlo[4],ahi[8],nhi[6]`
Packit	c4476c	`.rotr a[3],n[3],t[2]`
Packit	c4476c
Packit	c4476c	`{ .mmi; ldf8 bi=[bptr],8 // (*bp++)`
Packit	c4476c	`ldf8 alo[4]=[aptr],16 // ap[0]`
Packit	c4476c	`$ADDP r30=8,in1 };;`
Packit	c4476c	`{ .mmi; ldf8 alo[3]=[r30],16 // ap[1]`
Packit	c4476c	`ldf8 alo[2]=[aptr],16 // ap[2]`
Packit	c4476c	`$ADDP in4=0,in4 };;`
Packit	c4476c	`{ .mmi; ldf8 alo[1]=[r30] // ap[3]`
Packit	c4476c	`ldf8 n0=[in4] // n0`
Packit	c4476c	`$ADDP rptr=0,in0 }`
Packit	c4476c	`{ .mmi; $ADDP nptr=0,in3`
Packit	c4476c	`mov r31=16`
Packit	c4476c	`zxt4 num=in5 };;`
Packit	c4476c	`{ .mmi; ldf8 nlo[2]=[nptr],8 // np[0]`
Packit	c4476c	`shladd len=num,3,r0`
Packit	c4476c	`shladd r31=num,3,r31 };;`
Packit	c4476c	`{ .mmi; ldf8 nlo[1]=[nptr],8 // np[1]`
Packit	c4476c	`add lc=-5,num`
Packit	c4476c	`sub r31=sp,r31 };;`
Packit	c4476c	`{ .mfb; and sp=-16,r31 // alloca`
Packit	c4476c	`xmpy.hu ahi[2]=alo[4],bi // ap[0]*bp[0]`
Packit	c4476c	`nop.b 0 }`
Packit	c4476c	`{ .mfb; nop.m 0`
Packit	c4476c	`xmpy.lu alo[4]=alo[4],bi`
Packit	c4476c	`brp.loop.imp .L1st_ctop,.L1st_cend-16`
Packit	c4476c	`};;`
Packit	c4476c	`{ .mfi; nop.m 0`
Packit	c4476c	`xma.hu ahi[1]=alo[3],bi,ahi[2] // ap[1]*bp[0]`
Packit	c4476c	`add tp_1=8,sp }`
Packit	c4476c	`{ .mfi; nop.m 0`
Packit	c4476c	`xma.lu alo[3]=alo[3],bi,ahi[2]`
Packit	c4476c	`mov pr.rot=0x20001f<<16`
Packit	c4476c	`// ------^----- (p40) at first (p23)`
Packit	c4476c	`// ----------^^ p[16:20]=1`
Packit	c4476c	`};;`
Packit	c4476c	`{ .mfi; nop.m 0`
Packit	c4476c	`xmpy.lu m0=alo[4],n0 // (ap[0]bp[0])n0`
Packit	c4476c	`mov ar.lc=lc }`
Packit	c4476c	`{ .mfi; nop.m 0`
Packit	c4476c	`fcvt.fxu.s1 nhi[1]=f0`
Packit	c4476c	`mov ar.ec=8 };;`
Packit	c4476c
Packit	c4476c	`.align 32`
Packit	c4476c	`.L1st_ctop:`
Packit	c4476c	`.pred.rel "mutex",p40,p42`
Packit	c4476c	`{ .mfi; (p16) ldf8 alo[0]=[aptr],8 // *(aptr++)`
Packit	c4476c	`(p18) xma.hu ahi[0]=alo[2],bi,ahi[1]`
Packit	c4476c	`(p40) add n[2]=n[2],a[2] } // (p23) }`
Packit	c4476c	`{ .mfi; (p18) ldf8 nlo[0]=[nptr],8 // *(nptr++)(p16)`
Packit	c4476c	`(p18) xma.lu alo[2]=alo[2],bi,ahi[1]`
Packit	c4476c	`(p42) add n[2]=n[2],a[2],1 };; // (p23)`
Packit	c4476c	`{ .mfi; (p21) getf.sig a[0]=alo[5]`
Packit	c4476c	`(p20) xma.hu nhi[0]=nlo[2],m0,nhi[1]`
Packit	c4476c	`(p42) cmp.leu p41,p39=n[2],a[2] } // (p23)`
Packit	c4476c	`{ .mfi; (p23) st8 [tp_1]=n[2],8`
Packit	c4476c	`(p20) xma.lu nlo[2]=nlo[2],m0,nhi[1]`
Packit	c4476c	`(p40) cmp.ltu p41,p39=n[2],a[2] } // (p23)`
Packit	c4476c	`{ .mmb; (p21) getf.sig n[0]=nlo[3]`
Packit	c4476c	`(p16) nop.m 0`
Packit	c4476c	`br.ctop.sptk .L1st_ctop };;`
Packit	c4476c	`.L1st_cend:`
Packit	c4476c
Packit	c4476c	`{ .mmi; getf.sig a[0]=ahi[6] // (p24)`
Packit	c4476c	`getf.sig n[0]=nhi[4]`
Packit	c4476c	`add num=-1,num };; // num--`
Packit	c4476c	`{ .mmi; .pred.rel "mutex",p40,p42`
Packit	c4476c	`(p40) add n[0]=n[0],a[0]`
Packit	c4476c	`(p42) add n[0]=n[0],a[0],1`
Packit	c4476c	`sub aptr=aptr,len };; // rewind`
Packit	c4476c	`{ .mmi; .pred.rel "mutex",p40,p42`
Packit	c4476c	`(p40) cmp.ltu p41,p39=n[0],a[0]`
Packit	c4476c	`(p42) cmp.leu p41,p39=n[0],a[0]`
Packit	c4476c	`sub nptr=nptr,len };;`
Packit	c4476c	`{ .mmi; .pred.rel "mutex",p39,p41`
Packit	c4476c	`(p39) add topbit=r0,r0`
Packit	c4476c	`(p41) add topbit=r0,r0,1`
Packit	c4476c	`nop.i 0 }`
Packit	c4476c	`{ .mmi; st8 [tp_1]=n[0]`
Packit	c4476c	`add tptr=16,sp`
Packit	c4476c	`add tp_1=8,sp };;`
Packit	c4476c
Packit	c4476c	`.Louter:`
Packit	c4476c	`{ .mmi; ldf8 bi=[bptr],8 // (*bp++)`
Packit	c4476c	`ldf8 ahi[3]=[tptr] // tp[0]`
Packit	c4476c	`add r30=8,aptr };;`
Packit	c4476c	`{ .mmi; ldf8 alo[4]=[aptr],16 // ap[0]`
Packit	c4476c	`ldf8 alo[3]=[r30],16 // ap[1]`
Packit	c4476c	`add r31=8,nptr };;`
Packit	c4476c	`{ .mfb; ldf8 alo[2]=[aptr],16 // ap[2]`
Packit	c4476c	`xma.hu ahi[2]=alo[4],bi,ahi[3] // ap[0]*bp[i]+tp[0]`
Packit	c4476c	`brp.loop.imp .Linner_ctop,.Linner_cend-16`
Packit	c4476c	`}`
Packit	c4476c	`{ .mfb; ldf8 alo[1]=[r30] // ap[3]`
Packit	c4476c	`xma.lu alo[4]=alo[4],bi,ahi[3]`
Packit	c4476c	`clrrrb.pr };;`
Packit	c4476c	`{ .mfi; ldf8 nlo[2]=[nptr],16 // np[0]`
Packit	c4476c	`xma.hu ahi[1]=alo[3],bi,ahi[2] // ap[1]*bp[i]`
Packit	c4476c	`nop.i 0 }`
Packit	c4476c	`{ .mfi; ldf8 nlo[1]=[r31] // np[1]`
Packit	c4476c	`xma.lu alo[3]=alo[3],bi,ahi[2]`
Packit	c4476c	`mov pr.rot=0x20101f<<16`
Packit	c4476c	`// ------^----- (p40) at first (p23)`
Packit	c4476c	`// --------^--- (p30) at first (p22)`
Packit	c4476c	`// ----------^^ p[16:20]=1`
Packit	c4476c	`};;`
Packit	c4476c	`{ .mfi; st8 [tptr]=r0 // tp[0] is already accounted`
Packit	c4476c	`xmpy.lu m0=alo[4],n0 // (ap[0]bp[i]+tp[0])n0`
Packit	c4476c	`mov ar.lc=lc }`
Packit	c4476c	`{ .mfi;`
Packit	c4476c	`fcvt.fxu.s1 nhi[1]=f0`
Packit	c4476c	`mov ar.ec=8 };;`
Packit	c4476c
Packit	c4476c	`// This loop spins in 4*(n+7) ticks on Itanium 2 and should spin in`
Packit	c4476c	`// 7*(n+7) ticks on Itanium (the one codenamed Merced). Factor of 7`
Packit	c4476c	`// in latter case accounts for two-tick pipeline stall, which means`
Packit	c4476c	`// that its performance would be ~20% lower than optimal one. No`
Packit	c4476c	`// attempt was made to address this, because original Itanium is`
Packit	c4476c	`// hardly represented out in the wild...`
Packit	c4476c	`.align 32`
Packit	c4476c	`.Linner_ctop:`
Packit	c4476c	`.pred.rel "mutex",p40,p42`
Packit	c4476c	`.pred.rel "mutex",p30,p32`
Packit	c4476c	`{ .mfi; (p16) ldf8 alo[0]=[aptr],8 // *(aptr++)`
Packit	c4476c	`(p18) xma.hu ahi[0]=alo[2],bi,ahi[1]`
Packit	c4476c	`(p40) add n[2]=n[2],a[2] } // (p23)`
Packit	c4476c	`{ .mfi; (p16) nop.m 0`
Packit	c4476c	`(p18) xma.lu alo[2]=alo[2],bi,ahi[1]`
Packit	c4476c	`(p42) add n[2]=n[2],a[2],1 };; // (p23)`
Packit	c4476c	`{ .mfi; (p21) getf.sig a[0]=alo[5]`
Packit	c4476c	`(p16) nop.f 0`
Packit	c4476c	`(p40) cmp.ltu p41,p39=n[2],a[2] } // (p23)`
Packit	c4476c	`{ .mfi; (p21) ld8 t[0]=[tptr],8`
Packit	c4476c	`(p16) nop.f 0`
Packit	c4476c	`(p42) cmp.leu p41,p39=n[2],a[2] };; // (p23)`
Packit	c4476c	`{ .mfi; (p18) ldf8 nlo[0]=[nptr],8 // *(nptr++)`
Packit	c4476c	`(p20) xma.hu nhi[0]=nlo[2],m0,nhi[1]`
Packit	c4476c	`(p30) add a[1]=a[1],t[1] } // (p22)`
Packit	c4476c	`{ .mfi; (p16) nop.m 0`
Packit	c4476c	`(p20) xma.lu nlo[2]=nlo[2],m0,nhi[1]`
Packit	c4476c	`(p32) add a[1]=a[1],t[1],1 };; // (p22)`
Packit	c4476c	`{ .mmi; (p21) getf.sig n[0]=nlo[3]`
Packit	c4476c	`(p16) nop.m 0`
Packit	c4476c	`(p30) cmp.ltu p31,p29=a[1],t[1] } // (p22)`
Packit	c4476c	`{ .mmb; (p23) st8 [tp_1]=n[2],8`
Packit	c4476c	`(p32) cmp.leu p31,p29=a[1],t[1] // (p22)`
Packit	c4476c	`br.ctop.sptk .Linner_ctop };;`
Packit	c4476c	`.Linner_cend:`
Packit	c4476c
Packit	c4476c	`{ .mmi; getf.sig a[0]=ahi[6] // (p24)`
Packit	c4476c	`getf.sig n[0]=nhi[4]`
Packit	c4476c	`nop.i 0 };;`
Packit	c4476c
Packit	c4476c	`{ .mmi; .pred.rel "mutex",p31,p33`
Packit	c4476c	`(p31) add a[0]=a[0],topbit`
Packit	c4476c	`(p33) add a[0]=a[0],topbit,1`
Packit	c4476c	`mov topbit=r0 };;`
Packit	c4476c	`{ .mfi; .pred.rel "mutex",p31,p33`
Packit	c4476c	`(p31) cmp.ltu p32,p30=a[0],topbit`
Packit	c4476c	`(p33) cmp.leu p32,p30=a[0],topbit`
Packit	c4476c	`}`
Packit	c4476c	`{ .mfi; .pred.rel "mutex",p40,p42`
Packit	c4476c	`(p40) add n[0]=n[0],a[0]`
Packit	c4476c	`(p42) add n[0]=n[0],a[0],1`
Packit	c4476c	`};;`
Packit	c4476c	`{ .mmi; .pred.rel "mutex",p44,p46`
Packit	c4476c	`(p40) cmp.ltu p41,p39=n[0],a[0]`
Packit	c4476c	`(p42) cmp.leu p41,p39=n[0],a[0]`
Packit	c4476c	`(p32) add topbit=r0,r0,1 }`
Packit	c4476c
Packit	c4476c	`{ .mmi; st8 [tp_1]=n[0],8`
Packit	c4476c	`cmp4.ne p6,p0=1,num`
Packit	c4476c	`sub aptr=aptr,len };; // rewind`
Packit	c4476c	`{ .mmi; sub nptr=nptr,len`
Packit	c4476c	`(p41) add topbit=r0,r0,1`
Packit	c4476c	`add tptr=16,sp }`
Packit	c4476c	`{ .mmb; add tp_1=8,sp`
Packit	c4476c	`add num=-1,num // num--`
Packit	c4476c	`(p6) br.cond.sptk.many .Louter };;`
Packit	c4476c
Packit	c4476c	`{ .mbb; add lc=4,lc`
Packit	c4476c	`brp.loop.imp .Lsub_ctop,.Lsub_cend-16`
Packit	c4476c	`clrrrb.pr };;`
Packit	c4476c	`{ .mii; nop.m 0`
Packit	c4476c	`mov pr.rot=0x10001<<16`
Packit	c4476c	`// ------^---- (p33) at first (p17)`
Packit	c4476c	`mov ar.lc=lc }`
Packit	c4476c	`{ .mii; nop.m 0`
Packit	c4476c	`mov ar.ec=3`
Packit	c4476c	`nop.i 0 };;`
Packit	c4476c
Packit	c4476c	`.Lsub_ctop:`
Packit	c4476c	`.pred.rel "mutex",p33,p35`
Packit	c4476c	`{ .mfi; (p16) ld8 t[0]=[tptr],8 // t=*(tp++)`
Packit	c4476c	`(p16) nop.f 0`
Packit	c4476c	`(p33) sub n[1]=t[1],n[1] } // (p17)`
Packit	c4476c	`{ .mfi; (p16) ld8 n[0]=[nptr],8 // n=*(np++)`
Packit	c4476c	`(p16) nop.f 0`
Packit	c4476c	`(p35) sub n[1]=t[1],n[1],1 };; // (p17)`
Packit	c4476c	`{ .mib; (p18) st8 [rptr]=n[2],8 // *(rp++)=r`
Packit	c4476c	`(p33) cmp.gtu p34,p32=n[1],t[1] // (p17)`
Packit	c4476c	`(p18) nop.b 0 }`
Packit	c4476c	`{ .mib; (p18) nop.m 0`
Packit	c4476c	`(p35) cmp.geu p34,p32=n[1],t[1] // (p17)`
Packit	c4476c	`br.ctop.sptk .Lsub_ctop };;`
Packit	c4476c	`.Lsub_cend:`
Packit	c4476c
Packit	c4476c	`{ .mmb; .pred.rel "mutex",p34,p36`
Packit	c4476c	`(p34) sub topbit=topbit,r0 // (p19)`
Packit	c4476c	`(p36) sub topbit=topbit,r0,1`
Packit	c4476c	`brp.loop.imp .Lcopy_ctop,.Lcopy_cend-16`
Packit	c4476c	`}`
Packit	c4476c	`{ .mmb; sub rptr=rptr,len // rewind`
Packit	c4476c	`sub tptr=tptr,len`
Packit	c4476c	`clrrrb.pr };;`
Packit	c4476c	`{ .mmi; mov aptr=rptr`
Packit	c4476c	`mov bptr=tptr`
Packit	c4476c	`mov pr.rot=1<<16 };;`
Packit	c4476c	`{ .mii; cmp.eq p0,p6=topbit,r0`
Packit	c4476c	`mov ar.lc=lc`
Packit	c4476c	`mov ar.ec=2 };;`
Packit	c4476c
Packit	c4476c	`.Lcopy_ctop:`
Packit	c4476c	`{ .mmi; (p16) ld8 a[0]=[aptr],8`
Packit	c4476c	`(p16) ld8 t[0]=[bptr],8`
Packit	c4476c	`(p6) mov a[1]=t[1] };; // (p17)`
Packit	c4476c	`{ .mmb; (p17) st8 [rptr]=a[1],8`
Packit	c4476c	`(p17) st8 [tptr]=r0,8`
Packit	c4476c	`br.ctop.sptk .Lcopy_ctop };;`
Packit	c4476c	`.Lcopy_cend:`
Packit	c4476c
Packit	c4476c	`{ .mmi; mov ret0=1 // signal "handled"`
Packit	c4476c	`rum 1<<5 // clear um.mfh`
Packit	c4476c	`mov ar.lc=prevlc }`
Packit	c4476c	`{ .mib; .restore sp`
Packit	c4476c	`mov sp=prevsp`
Packit	c4476c	`mov pr=prevpr,0x1ffff`
Packit	c4476c	`br.ret.sptk.many b0 };;`
Packit	c4476c	`.endp bn_mul_mont_general#`
Packit	c4476c
Packit	c4476c	`a1=r16; a2=r17; a3=r18; a4=r19; a5=r20; a6=r21; a7=r22; a8=r23;`
Packit	c4476c	`n1=r24; n2=r25; n3=r26; n4=r27; n5=r28; n6=r29; n7=r30; n8=r31;`
Packit	c4476c	`t0=r15;`
Packit	c4476c
Packit	c4476c	`ai0=f8; ai1=f9; ai2=f10; ai3=f11; ai4=f12; ai5=f13; ai6=f14; ai7=f15;`
Packit	c4476c	`ni0=f16; ni1=f17; ni2=f18; ni3=f19; ni4=f20; ni5=f21; ni6=f22; ni7=f23;`
Packit	c4476c
Packit	c4476c	`.align 64`
Packit	c4476c	`.skip 48 // aligns loop body`
Packit	c4476c	`.local bn_mul_mont_8#`
Packit	c4476c	`.proc bn_mul_mont_8#`
Packit	c4476c	`bn_mul_mont_8:`
Packit	c4476c	`.prologue`
Packit	c4476c	`{ .mmi; .save ar.pfs,prevfs`
Packit	c4476c	`alloc prevfs=ar.pfs,6,2,0,8`
Packit	c4476c	`.vframe prevsp`
Packit	c4476c	`mov prevsp=sp`
Packit	c4476c	`.save ar.lc,prevlc`
Packit	c4476c	`mov prevlc=ar.lc }`
Packit	c4476c	`{ .mmi; add r17=-6*16,sp`
Packit	c4476c	`add sp=-7*16,sp`
Packit	c4476c	`.save pr,prevpr`
Packit	c4476c	`mov prevpr=pr };;`
Packit	c4476c
Packit	c4476c	`{ .mmi; .save.gf 0,0x10`
Packit	c4476c	`stf.spill [sp]=f16,-16`
Packit	c4476c	`.save.gf 0,0x20`
Packit	c4476c	`stf.spill [r17]=f17,32`
Packit	c4476c	`add r16=-5*16,prevsp};;`
Packit	c4476c	`{ .mmi; .save.gf 0,0x40`
Packit	c4476c	`stf.spill [r16]=f18,32`
Packit	c4476c	`.save.gf 0,0x80`
Packit	c4476c	`stf.spill [r17]=f19,32`
Packit	c4476c	`$ADDP aptr=0,in1 };;`
Packit	c4476c	`{ .mmi; .save.gf 0,0x100`
Packit	c4476c	`stf.spill [r16]=f20,32`
Packit	c4476c	`.save.gf 0,0x200`
Packit	c4476c	`stf.spill [r17]=f21,32`
Packit	c4476c	`$ADDP r29=8,in1 };;`
Packit	c4476c	`{ .mmi; .save.gf 0,0x400`
Packit	c4476c	`stf.spill [r16]=f22`
Packit	c4476c	`.save.gf 0,0x800`
Packit	c4476c	`stf.spill [r17]=f23`
Packit	c4476c	`$ADDP rptr=0,in0 };;`
Packit	c4476c
Packit	c4476c	`.body`
Packit	c4476c	`.rotf bj[8],mj[2],tf[2],alo[10],ahi[10],nlo[10],nhi[10]`
Packit	c4476c	`.rotr t[8]`
Packit	c4476c
Packit	c4476c	`// load input vectors padding them to 8 elements`
Packit	c4476c	`{ .mmi; ldf8 ai0=[aptr],16 // ap[0]`
Packit	c4476c	`ldf8 ai1=[r29],16 // ap[1]`
Packit	c4476c	`$ADDP bptr=0,in2 }`
Packit	c4476c	`{ .mmi; $ADDP r30=8,in2`
Packit	c4476c	`$ADDP nptr=0,in3`
Packit	c4476c	`$ADDP r31=8,in3 };;`
Packit	c4476c	`{ .mmi; ldf8 bj[7]=[bptr],16 // bp[0]`
Packit	c4476c	`ldf8 bj[6]=[r30],16 // bp[1]`
Packit	c4476c	`cmp4.le p4,p5=3,in5 }`
Packit	c4476c	`{ .mmi; ldf8 ni0=[nptr],16 // np[0]`
Packit	c4476c	`ldf8 ni1=[r31],16 // np[1]`
Packit	c4476c	`cmp4.le p6,p7=4,in5 };;`
Packit	c4476c
Packit	c4476c	`{ .mfi; (p4)ldf8 ai2=[aptr],16 // ap[2]`
Packit	c4476c	`(p5)fcvt.fxu ai2=f0`
Packit	c4476c	`cmp4.le p8,p9=5,in5 }`
Packit	c4476c	`{ .mfi; (p6)ldf8 ai3=[r29],16 // ap[3]`
Packit	c4476c	`(p7)fcvt.fxu ai3=f0`
Packit	c4476c	`cmp4.le p10,p11=6,in5 }`
Packit	c4476c	`{ .mfi; (p4)ldf8 bj[5]=[bptr],16 // bp[2]`
Packit	c4476c	`(p5)fcvt.fxu bj[5]=f0`
Packit	c4476c	`cmp4.le p12,p13=7,in5 }`
Packit	c4476c	`{ .mfi; (p6)ldf8 bj[4]=[r30],16 // bp[3]`
Packit	c4476c	`(p7)fcvt.fxu bj[4]=f0`
Packit	c4476c	`cmp4.le p14,p15=8,in5 }`
Packit	c4476c	`{ .mfi; (p4)ldf8 ni2=[nptr],16 // np[2]`
Packit	c4476c	`(p5)fcvt.fxu ni2=f0`
Packit	c4476c	`addp4 r28=-1,in5 }`
Packit	c4476c	`{ .mfi; (p6)ldf8 ni3=[r31],16 // np[3]`
Packit	c4476c	`(p7)fcvt.fxu ni3=f0`
Packit	c4476c	`$ADDP in4=0,in4 };;`
Packit	c4476c
Packit	c4476c	`{ .mfi; ldf8 n0=[in4]`
Packit	c4476c	`fcvt.fxu tf[1]=f0`
Packit	c4476c	`nop.i 0 }`
Packit	c4476c
Packit	c4476c	`{ .mfi; (p8)ldf8 ai4=[aptr],16 // ap[4]`
Packit	c4476c	`(p9)fcvt.fxu ai4=f0`
Packit	c4476c	`mov t[0]=r0 }`
Packit	c4476c	`{ .mfi; (p10)ldf8 ai5=[r29],16 // ap[5]`
Packit	c4476c	`(p11)fcvt.fxu ai5=f0`
Packit	c4476c	`mov t[1]=r0 }`
Packit	c4476c	`{ .mfi; (p8)ldf8 bj[3]=[bptr],16 // bp[4]`
Packit	c4476c	`(p9)fcvt.fxu bj[3]=f0`
Packit	c4476c	`mov t[2]=r0 }`
Packit	c4476c	`{ .mfi; (p10)ldf8 bj[2]=[r30],16 // bp[5]`
Packit	c4476c	`(p11)fcvt.fxu bj[2]=f0`
Packit	c4476c	`mov t[3]=r0 }`
Packit	c4476c	`{ .mfi; (p8)ldf8 ni4=[nptr],16 // np[4]`
Packit	c4476c	`(p9)fcvt.fxu ni4=f0`
Packit	c4476c	`mov t[4]=r0 }`
Packit	c4476c	`{ .mfi; (p10)ldf8 ni5=[r31],16 // np[5]`
Packit	c4476c	`(p11)fcvt.fxu ni5=f0`
Packit	c4476c	`mov t[5]=r0 };;`
Packit	c4476c
Packit	c4476c	`{ .mfi; (p12)ldf8 ai6=[aptr],16 // ap[6]`
Packit	c4476c	`(p13)fcvt.fxu ai6=f0`
Packit	c4476c	`mov t[6]=r0 }`
Packit	c4476c	`{ .mfi; (p14)ldf8 ai7=[r29],16 // ap[7]`
Packit	c4476c	`(p15)fcvt.fxu ai7=f0`
Packit	c4476c	`mov t[7]=r0 }`
Packit	c4476c	`{ .mfi; (p12)ldf8 bj[1]=[bptr],16 // bp[6]`
Packit	c4476c	`(p13)fcvt.fxu bj[1]=f0`
Packit	c4476c	`mov ar.lc=r28 }`
Packit	c4476c	`{ .mfi; (p14)ldf8 bj[0]=[r30],16 // bp[7]`
Packit	c4476c	`(p15)fcvt.fxu bj[0]=f0`
Packit	c4476c	`mov ar.ec=1 }`
Packit	c4476c	`{ .mfi; (p12)ldf8 ni6=[nptr],16 // np[6]`
Packit	c4476c	`(p13)fcvt.fxu ni6=f0`
Packit	c4476c	`mov pr.rot=1<<16 }`
Packit	c4476c	`{ .mfb; (p14)ldf8 ni7=[r31],16 // np[7]`
Packit	c4476c	`(p15)fcvt.fxu ni7=f0`
Packit	c4476c	`brp.loop.imp .Louter_8_ctop,.Louter_8_cend-16`
Packit	c4476c	`};;`
Packit	c4476c
Packit	c4476c	`// The loop is scheduled for 32*n ticks on Itanium 2. Actual attempt`
Packit	c4476c	`// to measure with help of Interval Time Counter indicated that the`
Packit	c4476c	`// factor is a tad higher: 33 or 34, if not 35. Exact measurement and`
Packit	c4476c	`// addressing the issue is problematic, because I don't have access`
Packit	c4476c	`// to platform-specific instruction-level profiler. On Itanium it`
Packit	c4476c	`// should run in 56*n ticks, because of higher xma latency...`
Packit	c4476c	`.Louter_8_ctop:`
Packit	c4476c	`.pred.rel "mutex",p40,p42`
Packit	c4476c	`.pred.rel "mutex",p48,p50`
Packit	c4476c	`{ .mfi; (p16) nop.m 0 // 0:`
Packit	c4476c	`(p16) xma.hu ahi[0]=ai0,bj[7],tf[1] // ap[0]*b[i]+t[0]`
Packit	c4476c	`(p40) add a3=a3,n3 } // (p17) a3+=n3`
Packit	c4476c	`{ .mfi; (p42) add a3=a3,n3,1`
Packit	c4476c	`(p16) xma.lu alo[0]=ai0,bj[7],tf[1]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p17) getf.sig a7=alo[8] // 1:`
Packit	c4476c	`(p48) add t[6]=t[6],a3 // (p17) t[6]+=a3`
Packit	c4476c	`(p50) add t[6]=t[6],a3,1 };;`
Packit	c4476c	`{ .mfi; (p17) getf.sig a8=ahi[8] // 2:`
Packit	c4476c	`(p17) xma.hu nhi[7]=ni6,mj[1],nhi[6] // np[6]*m0`
Packit	c4476c	`(p40) cmp.ltu p43,p41=a3,n3 }`
Packit	c4476c	`{ .mfi; (p42) cmp.leu p43,p41=a3,n3`
Packit	c4476c	`(p17) xma.lu nlo[7]=ni6,mj[1],nhi[6]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p17) getf.sig n5=nlo[6] // 3:`
Packit	c4476c	`(p48) cmp.ltu p51,p49=t[6],a3`
Packit	c4476c	`(p50) cmp.leu p51,p49=t[6],a3 };;`
Packit	c4476c	`.pred.rel "mutex",p41,p43`
Packit	c4476c	`.pred.rel "mutex",p49,p51`
Packit	c4476c	`{ .mfi; (p16) nop.m 0 // 4:`
Packit	c4476c	`(p16) xma.hu ahi[1]=ai1,bj[7],ahi[0] // ap[1]*b[i]`
Packit	c4476c	`(p41) add a4=a4,n4 } // (p17) a4+=n4`
Packit	c4476c	`{ .mfi; (p43) add a4=a4,n4,1`
Packit	c4476c	`(p16) xma.lu alo[1]=ai1,bj[7],ahi[0]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mfi; (p49) add t[5]=t[5],a4 // 5: (p17) t[5]+=a4`
Packit	c4476c	`(p16) xmpy.lu mj[0]=alo[0],n0 // (ap[0]b[i]+t[0])n0`
Packit	c4476c	`(p51) add t[5]=t[5],a4,1 };;`
Packit	c4476c	`{ .mfi; (p16) nop.m 0 // 6:`
Packit	c4476c	`(p17) xma.hu nhi[8]=ni7,mj[1],nhi[7] // np[7]*m0`
Packit	c4476c	`(p41) cmp.ltu p42,p40=a4,n4 }`
Packit	c4476c	`{ .mfi; (p43) cmp.leu p42,p40=a4,n4`
Packit	c4476c	`(p17) xma.lu nlo[8]=ni7,mj[1],nhi[7]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p17) getf.sig n6=nlo[7] // 7:`
Packit	c4476c	`(p49) cmp.ltu p50,p48=t[5],a4`
Packit	c4476c	`(p51) cmp.leu p50,p48=t[5],a4 };;`
Packit	c4476c	`.pred.rel "mutex",p40,p42`
Packit	c4476c	`.pred.rel "mutex",p48,p50`
Packit	c4476c	`{ .mfi; (p16) nop.m 0 // 8:`
Packit	c4476c	`(p16) xma.hu ahi[2]=ai2,bj[7],ahi[1] // ap[2]*b[i]`
Packit	c4476c	`(p40) add a5=a5,n5 } // (p17) a5+=n5`
Packit	c4476c	`{ .mfi; (p42) add a5=a5,n5,1`
Packit	c4476c	`(p16) xma.lu alo[2]=ai2,bj[7],ahi[1]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p16) getf.sig a1=alo[1] // 9:`
Packit	c4476c	`(p48) add t[4]=t[4],a5 // p(17) t[4]+=a5`
Packit	c4476c	`(p50) add t[4]=t[4],a5,1 };;`
Packit	c4476c	`{ .mfi; (p16) nop.m 0 // 10:`
Packit	c4476c	`(p16) xma.hu nhi[0]=ni0,mj[0],alo[0] // np[0]*m0`
Packit	c4476c	`(p40) cmp.ltu p43,p41=a5,n5 }`
Packit	c4476c	`{ .mfi; (p42) cmp.leu p43,p41=a5,n5`
Packit	c4476c	`(p16) xma.lu nlo[0]=ni0,mj[0],alo[0]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p17) getf.sig n7=nlo[8] // 11:`
Packit	c4476c	`(p48) cmp.ltu p51,p49=t[4],a5`
Packit	c4476c	`(p50) cmp.leu p51,p49=t[4],a5 };;`
Packit	c4476c	`.pred.rel "mutex",p41,p43`
Packit	c4476c	`.pred.rel "mutex",p49,p51`
Packit	c4476c	`{ .mfi; (p17) getf.sig n8=nhi[8] // 12:`
Packit	c4476c	`(p16) xma.hu ahi[3]=ai3,bj[7],ahi[2] // ap[3]*b[i]`
Packit	c4476c	`(p41) add a6=a6,n6 } // (p17) a6+=n6`
Packit	c4476c	`{ .mfi; (p43) add a6=a6,n6,1`
Packit	c4476c	`(p16) xma.lu alo[3]=ai3,bj[7],ahi[2]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p16) getf.sig a2=alo[2] // 13:`
Packit	c4476c	`(p49) add t[3]=t[3],a6 // (p17) t[3]+=a6`
Packit	c4476c	`(p51) add t[3]=t[3],a6,1 };;`
Packit	c4476c	`{ .mfi; (p16) nop.m 0 // 14:`
Packit	c4476c	`(p16) xma.hu nhi[1]=ni1,mj[0],nhi[0] // np[1]*m0`
Packit	c4476c	`(p41) cmp.ltu p42,p40=a6,n6 }`
Packit	c4476c	`{ .mfi; (p43) cmp.leu p42,p40=a6,n6`
Packit	c4476c	`(p16) xma.lu nlo[1]=ni1,mj[0],nhi[0]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p16) nop.m 0 // 15:`
Packit	c4476c	`(p49) cmp.ltu p50,p48=t[3],a6`
Packit	c4476c	`(p51) cmp.leu p50,p48=t[3],a6 };;`
Packit	c4476c	`.pred.rel "mutex",p40,p42`
Packit	c4476c	`.pred.rel "mutex",p48,p50`
Packit	c4476c	`{ .mfi; (p16) nop.m 0 // 16:`
Packit	c4476c	`(p16) xma.hu ahi[4]=ai4,bj[7],ahi[3] // ap[4]*b[i]`
Packit	c4476c	`(p40) add a7=a7,n7 } // (p17) a7+=n7`
Packit	c4476c	`{ .mfi; (p42) add a7=a7,n7,1`
Packit	c4476c	`(p16) xma.lu alo[4]=ai4,bj[7],ahi[3]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p16) getf.sig a3=alo[3] // 17:`
Packit	c4476c	`(p48) add t[2]=t[2],a7 // (p17) t[2]+=a7`
Packit	c4476c	`(p50) add t[2]=t[2],a7,1 };;`
Packit	c4476c	`{ .mfi; (p16) nop.m 0 // 18:`
Packit	c4476c	`(p16) xma.hu nhi[2]=ni2,mj[0],nhi[1] // np[2]*m0`
Packit	c4476c	`(p40) cmp.ltu p43,p41=a7,n7 }`
Packit	c4476c	`{ .mfi; (p42) cmp.leu p43,p41=a7,n7`
Packit	c4476c	`(p16) xma.lu nlo[2]=ni2,mj[0],nhi[1]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p16) getf.sig n1=nlo[1] // 19:`
Packit	c4476c	`(p48) cmp.ltu p51,p49=t[2],a7`
Packit	c4476c	`(p50) cmp.leu p51,p49=t[2],a7 };;`
Packit	c4476c	`.pred.rel "mutex",p41,p43`
Packit	c4476c	`.pred.rel "mutex",p49,p51`
Packit	c4476c	`{ .mfi; (p16) nop.m 0 // 20:`
Packit	c4476c	`(p16) xma.hu ahi[5]=ai5,bj[7],ahi[4] // ap[5]*b[i]`
Packit	c4476c	`(p41) add a8=a8,n8 } // (p17) a8+=n8`
Packit	c4476c	`{ .mfi; (p43) add a8=a8,n8,1`
Packit	c4476c	`(p16) xma.lu alo[5]=ai5,bj[7],ahi[4]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p16) getf.sig a4=alo[4] // 21:`
Packit	c4476c	`(p49) add t[1]=t[1],a8 // (p17) t[1]+=a8`
Packit	c4476c	`(p51) add t[1]=t[1],a8,1 };;`
Packit	c4476c	`{ .mfi; (p16) nop.m 0 // 22:`
Packit	c4476c	`(p16) xma.hu nhi[3]=ni3,mj[0],nhi[2] // np[3]*m0`
Packit	c4476c	`(p41) cmp.ltu p42,p40=a8,n8 }`
Packit	c4476c	`{ .mfi; (p43) cmp.leu p42,p40=a8,n8`
Packit	c4476c	`(p16) xma.lu nlo[3]=ni3,mj[0],nhi[2]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p16) getf.sig n2=nlo[2] // 23:`
Packit	c4476c	`(p49) cmp.ltu p50,p48=t[1],a8`
Packit	c4476c	`(p51) cmp.leu p50,p48=t[1],a8 };;`
Packit	c4476c	`{ .mfi; (p16) nop.m 0 // 24:`
Packit	c4476c	`(p16) xma.hu ahi[6]=ai6,bj[7],ahi[5] // ap[6]*b[i]`
Packit	c4476c	`(p16) add a1=a1,n1 } // (p16) a1+=n1`
Packit	c4476c	`{ .mfi; (p16) nop.m 0`
Packit	c4476c	`(p16) xma.lu alo[6]=ai6,bj[7],ahi[5]`
Packit	c4476c	`(p17) mov t[0]=r0 };;`
Packit	c4476c	`{ .mii; (p16) getf.sig a5=alo[5] // 25:`
Packit	c4476c	`(p16) add t0=t[7],a1 // (p16) t[7]+=a1`
Packit	c4476c	`(p42) add t[0]=t[0],r0,1 };;`
Packit	c4476c	`{ .mfi; (p16) setf.sig tf[0]=t0 // 26:`
Packit	c4476c	`(p16) xma.hu nhi[4]=ni4,mj[0],nhi[3] // np[4]*m0`
Packit	c4476c	`(p50) add t[0]=t[0],r0,1 }`
Packit	c4476c	`{ .mfi; (p16) cmp.ltu.unc p42,p40=a1,n1`
Packit	c4476c	`(p16) xma.lu nlo[4]=ni4,mj[0],nhi[3]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p16) getf.sig n3=nlo[3] // 27:`
Packit	c4476c	`(p16) cmp.ltu.unc p50,p48=t0,a1`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`.pred.rel "mutex",p40,p42`
Packit	c4476c	`.pred.rel "mutex",p48,p50`
Packit	c4476c	`{ .mfi; (p16) nop.m 0 // 28:`
Packit	c4476c	`(p16) xma.hu ahi[7]=ai7,bj[7],ahi[6] // ap[7]*b[i]`
Packit	c4476c	`(p40) add a2=a2,n2 } // (p16) a2+=n2`
Packit	c4476c	`{ .mfi; (p42) add a2=a2,n2,1`
Packit	c4476c	`(p16) xma.lu alo[7]=ai7,bj[7],ahi[6]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p16) getf.sig a6=alo[6] // 29:`
Packit	c4476c	`(p48) add t[6]=t[6],a2 // (p16) t[6]+=a2`
Packit	c4476c	`(p50) add t[6]=t[6],a2,1 };;`
Packit	c4476c	`{ .mfi; (p16) nop.m 0 // 30:`
Packit	c4476c	`(p16) xma.hu nhi[5]=ni5,mj[0],nhi[4] // np[5]*m0`
Packit	c4476c	`(p40) cmp.ltu p41,p39=a2,n2 }`
Packit	c4476c	`{ .mfi; (p42) cmp.leu p41,p39=a2,n2`
Packit	c4476c	`(p16) xma.lu nlo[5]=ni5,mj[0],nhi[4]`
Packit	c4476c	`(p16) nop.i 0 };;`
Packit	c4476c	`{ .mfi; (p16) getf.sig n4=nlo[4] // 31:`
Packit	c4476c	`(p16) nop.f 0`
Packit	c4476c	`(p48) cmp.ltu p49,p47=t[6],a2 }`
Packit	c4476c	`{ .mfb; (p50) cmp.leu p49,p47=t[6],a2`
Packit	c4476c	`(p16) nop.f 0`
Packit	c4476c	`br.ctop.sptk.many .Louter_8_ctop };;`
Packit	c4476c	`.Louter_8_cend:`
Packit	c4476c
Packit	c4476c	`// above loop has to execute one more time, without (p16), which is`
Packit	c4476c	`// replaced with merged move of np[8] to GPR bank`
Packit	c4476c	`.pred.rel "mutex",p40,p42`
Packit	c4476c	`.pred.rel "mutex",p48,p50`
Packit	c4476c	`{ .mmi; (p0) getf.sig n1=ni0 // 0:`
Packit	c4476c	`(p40) add a3=a3,n3 // (p17) a3+=n3`
Packit	c4476c	`(p42) add a3=a3,n3,1 };;`
Packit	c4476c	`{ .mii; (p17) getf.sig a7=alo[8] // 1:`
Packit	c4476c	`(p48) add t[6]=t[6],a3 // (p17) t[6]+=a3`
Packit	c4476c	`(p50) add t[6]=t[6],a3,1 };;`
Packit	c4476c	`{ .mfi; (p17) getf.sig a8=ahi[8] // 2:`
Packit	c4476c	`(p17) xma.hu nhi[7]=ni6,mj[1],nhi[6] // np[6]*m0`
Packit	c4476c	`(p40) cmp.ltu p43,p41=a3,n3 }`
Packit	c4476c	`{ .mfi; (p42) cmp.leu p43,p41=a3,n3`
Packit	c4476c	`(p17) xma.lu nlo[7]=ni6,mj[1],nhi[6]`
Packit	c4476c	`(p0) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p17) getf.sig n5=nlo[6] // 3:`
Packit	c4476c	`(p48) cmp.ltu p51,p49=t[6],a3`
Packit	c4476c	`(p50) cmp.leu p51,p49=t[6],a3 };;`
Packit	c4476c	`.pred.rel "mutex",p41,p43`
Packit	c4476c	`.pred.rel "mutex",p49,p51`
Packit	c4476c	`{ .mmi; (p0) getf.sig n2=ni1 // 4:`
Packit	c4476c	`(p41) add a4=a4,n4 // (p17) a4+=n4`
Packit	c4476c	`(p43) add a4=a4,n4,1 };;`
Packit	c4476c	`{ .mfi; (p49) add t[5]=t[5],a4 // 5: (p17) t[5]+=a4`
Packit	c4476c	`(p0) nop.f 0`
Packit	c4476c	`(p51) add t[5]=t[5],a4,1 };;`
Packit	c4476c	`{ .mfi; (p0) getf.sig n3=ni2 // 6:`
Packit	c4476c	`(p17) xma.hu nhi[8]=ni7,mj[1],nhi[7] // np[7]*m0`
Packit	c4476c	`(p41) cmp.ltu p42,p40=a4,n4 }`
Packit	c4476c	`{ .mfi; (p43) cmp.leu p42,p40=a4,n4`
Packit	c4476c	`(p17) xma.lu nlo[8]=ni7,mj[1],nhi[7]`
Packit	c4476c	`(p0) nop.i 0 };;`
Packit	c4476c	`{ .mii; (p17) getf.sig n6=nlo[7] // 7:`
Packit	c4476c	`(p49) cmp.ltu p50,p48=t[5],a4`
Packit	c4476c	`(p51) cmp.leu p50,p48=t[5],a4 };;`
Packit	c4476c	`.pred.rel "mutex",p40,p42`
Packit	c4476c	`.pred.rel "mutex",p48,p50`
Packit	c4476c	`{ .mii; (p0) getf.sig n4=ni3 // 8:`
Packit	c4476c	`(p40) add a5=a5,n5 // (p17) a5+=n5`
Packit	c4476c	`(p42) add a5=a5,n5,1 };;`
Packit	c4476c	`{ .mii; (p0) nop.m 0 // 9:`
Packit	c4476c	`(p48) add t[4]=t[4],a5 // p(17) t[4]+=a5`
Packit	c4476c	`(p50) add t[4]=t[4],a5,1 };;`
Packit	c4476c	`{ .mii; (p0) nop.m 0 // 10:`
Packit	c4476c	`(p40) cmp.ltu p43,p41=a5,n5`
Packit	c4476c	`(p42) cmp.leu p43,p41=a5,n5 };;`
Packit	c4476c	`{ .mii; (p17) getf.sig n7=nlo[8] // 11:`
Packit	c4476c	`(p48) cmp.ltu p51,p49=t[4],a5`
Packit	c4476c	`(p50) cmp.leu p51,p49=t[4],a5 };;`
Packit	c4476c	`.pred.rel "mutex",p41,p43`
Packit	c4476c	`.pred.rel "mutex",p49,p51`
Packit	c4476c	`{ .mii; (p17) getf.sig n8=nhi[8] // 12:`
Packit	c4476c	`(p41) add a6=a6,n6 // (p17) a6+=n6`
Packit	c4476c	`(p43) add a6=a6,n6,1 };;`
Packit	c4476c	`{ .mii; (p0) getf.sig n5=ni4 // 13:`
Packit	c4476c	`(p49) add t[3]=t[3],a6 // (p17) t[3]+=a6`
Packit	c4476c	`(p51) add t[3]=t[3],a6,1 };;`
Packit	c4476c	`{ .mii; (p0) nop.m 0 // 14:`
Packit	c4476c	`(p41) cmp.ltu p42,p40=a6,n6`
Packit	c4476c	`(p43) cmp.leu p42,p40=a6,n6 };;`
Packit	c4476c	`{ .mii; (p0) getf.sig n6=ni5 // 15:`
Packit	c4476c	`(p49) cmp.ltu p50,p48=t[3],a6`
Packit	c4476c	`(p51) cmp.leu p50,p48=t[3],a6 };;`
Packit	c4476c	`.pred.rel "mutex",p40,p42`
Packit	c4476c	`.pred.rel "mutex",p48,p50`
Packit	c4476c	`{ .mii; (p0) nop.m 0 // 16:`
Packit	c4476c	`(p40) add a7=a7,n7 // (p17) a7+=n7`
Packit	c4476c	`(p42) add a7=a7,n7,1 };;`
Packit	c4476c	`{ .mii; (p0) nop.m 0 // 17:`
Packit	c4476c	`(p48) add t[2]=t[2],a7 // (p17) t[2]+=a7`
Packit	c4476c	`(p50) add t[2]=t[2],a7,1 };;`
Packit	c4476c	`{ .mii; (p0) nop.m 0 // 18:`
Packit	c4476c	`(p40) cmp.ltu p43,p41=a7,n7`
Packit	c4476c	`(p42) cmp.leu p43,p41=a7,n7 };;`
Packit	c4476c	`{ .mii; (p0) getf.sig n7=ni6 // 19:`
Packit	c4476c	`(p48) cmp.ltu p51,p49=t[2],a7`
Packit	c4476c	`(p50) cmp.leu p51,p49=t[2],a7 };;`
Packit	c4476c	`.pred.rel "mutex",p41,p43`
Packit	c4476c	`.pred.rel "mutex",p49,p51`
Packit	c4476c	`{ .mii; (p0) nop.m 0 // 20:`
Packit	c4476c	`(p41) add a8=a8,n8 // (p17) a8+=n8`
Packit	c4476c	`(p43) add a8=a8,n8,1 };;`
Packit	c4476c	`{ .mmi; (p0) nop.m 0 // 21:`
Packit	c4476c	`(p49) add t[1]=t[1],a8 // (p17) t[1]+=a8`
Packit	c4476c	`(p51) add t[1]=t[1],a8,1 }`
Packit	c4476c	`{ .mmi; (p17) mov t[0]=r0`
Packit	c4476c	`(p41) cmp.ltu p42,p40=a8,n8`
Packit	c4476c	`(p43) cmp.leu p42,p40=a8,n8 };;`
Packit	c4476c	`{ .mmi; (p0) getf.sig n8=ni7 // 22:`
Packit	c4476c	`(p49) cmp.ltu p50,p48=t[1],a8`
Packit	c4476c	`(p51) cmp.leu p50,p48=t[1],a8 }`
Packit	c4476c	`{ .mmi; (p42) add t[0]=t[0],r0,1`
Packit	c4476c	`(p0) add r16=-7*16,prevsp`
Packit	c4476c	`(p0) add r17=-6*16,prevsp };;`
Packit	c4476c
Packit	c4476c	`// subtract np[8] from carrybit\|tmp[8]`
Packit	c4476c	`// carrybit\|tmp[8] layout upon exit from above loop is:`
Packit	c4476c	`// t[0]\|t[1]\|t[2]\|t[3]\|t[4]\|t[5]\|t[6]\|t[7]\|t0 (least significant)`
Packit	c4476c	`{ .mmi; (p50)add t[0]=t[0],r0,1`
Packit	c4476c	`add r18=-5*16,prevsp`
Packit	c4476c	`sub n1=t0,n1 };;`
Packit	c4476c	`{ .mmi; cmp.gtu p34,p32=n1,t0;;`
Packit	c4476c	`.pred.rel "mutex",p32,p34`
Packit	c4476c	`(p32)sub n2=t[7],n2`
Packit	c4476c	`(p34)sub n2=t[7],n2,1 };;`
Packit	c4476c	`{ .mii; (p32)cmp.gtu p35,p33=n2,t[7]`
Packit	c4476c	`(p34)cmp.geu p35,p33=n2,t[7];;`
Packit	c4476c	`.pred.rel "mutex",p33,p35`
Packit	c4476c	`(p33)sub n3=t[6],n3 }`
Packit	c4476c	`{ .mmi; (p35)sub n3=t[6],n3,1;;`
Packit	c4476c	`(p33)cmp.gtu p34,p32=n3,t[6]`
Packit	c4476c	`(p35)cmp.geu p34,p32=n3,t[6] };;`
Packit	c4476c	`.pred.rel "mutex",p32,p34`
Packit	c4476c	`{ .mii; (p32)sub n4=t[5],n4`
Packit	c4476c	`(p34)sub n4=t[5],n4,1;;`
Packit	c4476c	`(p32)cmp.gtu p35,p33=n4,t[5] }`
Packit	c4476c	`{ .mmi; (p34)cmp.geu p35,p33=n4,t[5];;`
Packit	c4476c	`.pred.rel "mutex",p33,p35`
Packit	c4476c	`(p33)sub n5=t[4],n5`
Packit	c4476c	`(p35)sub n5=t[4],n5,1 };;`
Packit	c4476c	`{ .mii; (p33)cmp.gtu p34,p32=n5,t[4]`
Packit	c4476c	`(p35)cmp.geu p34,p32=n5,t[4];;`
Packit	c4476c	`.pred.rel "mutex",p32,p34`
Packit	c4476c	`(p32)sub n6=t[3],n6 }`
Packit	c4476c	`{ .mmi; (p34)sub n6=t[3],n6,1;;`
Packit	c4476c	`(p32)cmp.gtu p35,p33=n6,t[3]`
Packit	c4476c	`(p34)cmp.geu p35,p33=n6,t[3] };;`
Packit	c4476c	`.pred.rel "mutex",p33,p35`
Packit	c4476c	`{ .mii; (p33)sub n7=t[2],n7`
Packit	c4476c	`(p35)sub n7=t[2],n7,1;;`
Packit	c4476c	`(p33)cmp.gtu p34,p32=n7,t[2] }`
Packit	c4476c	`{ .mmi; (p35)cmp.geu p34,p32=n7,t[2];;`
Packit	c4476c	`.pred.rel "mutex",p32,p34`
Packit	c4476c	`(p32)sub n8=t[1],n8`
Packit	c4476c	`(p34)sub n8=t[1],n8,1 };;`
Packit	c4476c	`{ .mii; (p32)cmp.gtu p35,p33=n8,t[1]`
Packit	c4476c	`(p34)cmp.geu p35,p33=n8,t[1];;`
Packit	c4476c	`.pred.rel "mutex",p33,p35`
Packit	c4476c	`(p33)sub a8=t[0],r0 }`
Packit	c4476c	`{ .mmi; (p35)sub a8=t[0],r0,1;;`
Packit	c4476c	`(p33)cmp.gtu p34,p32=a8,t[0]`
Packit	c4476c	`(p35)cmp.geu p34,p32=a8,t[0] };;`
Packit	c4476c
Packit	c4476c	`// save the result, either tmp[num] or tmp[num]-np[num]`
Packit	c4476c	`.pred.rel "mutex",p32,p34`
Packit	c4476c	`{ .mmi; (p32)st8 [rptr]=n1,8`
Packit	c4476c	`(p34)st8 [rptr]=t0,8`
Packit	c4476c	`add r19=-4*16,prevsp};;`
Packit	c4476c	`{ .mmb; (p32)st8 [rptr]=n2,8`
Packit	c4476c	`(p34)st8 [rptr]=t[7],8`
Packit	c4476c	`(p5)br.cond.dpnt.few .Ldone };;`
Packit	c4476c	`{ .mmb; (p32)st8 [rptr]=n3,8`
Packit	c4476c	`(p34)st8 [rptr]=t[6],8`
Packit	c4476c	`(p7)br.cond.dpnt.few .Ldone };;`
Packit	c4476c	`{ .mmb; (p32)st8 [rptr]=n4,8`
Packit	c4476c	`(p34)st8 [rptr]=t[5],8`
Packit	c4476c	`(p9)br.cond.dpnt.few .Ldone };;`
Packit	c4476c	`{ .mmb; (p32)st8 [rptr]=n5,8`
Packit	c4476c	`(p34)st8 [rptr]=t[4],8`
Packit	c4476c	`(p11)br.cond.dpnt.few .Ldone };;`
Packit	c4476c	`{ .mmb; (p32)st8 [rptr]=n6,8`
Packit	c4476c	`(p34)st8 [rptr]=t[3],8`
Packit	c4476c	`(p13)br.cond.dpnt.few .Ldone };;`
Packit	c4476c	`{ .mmb; (p32)st8 [rptr]=n7,8`
Packit	c4476c	`(p34)st8 [rptr]=t[2],8`
Packit	c4476c	`(p15)br.cond.dpnt.few .Ldone };;`
Packit	c4476c	`{ .mmb; (p32)st8 [rptr]=n8,8`
Packit	c4476c	`(p34)st8 [rptr]=t[1],8`
Packit	c4476c	`nop.b 0 };;`
Packit	c4476c	`.Ldone: // epilogue`
Packit	c4476c	`{ .mmi; ldf.fill f16=[r16],64`
Packit	c4476c	`ldf.fill f17=[r17],64`
Packit	c4476c	`nop.i 0 }`
Packit	c4476c	`{ .mmi; ldf.fill f18=[r18],64`
Packit	c4476c	`ldf.fill f19=[r19],64`
Packit	c4476c	`mov pr=prevpr,0x1ffff };;`
Packit	c4476c	`{ .mmi; ldf.fill f20=[r16]`
Packit	c4476c	`ldf.fill f21=[r17]`
Packit	c4476c	`mov ar.lc=prevlc }`
Packit	c4476c	`{ .mmi; ldf.fill f22=[r18]`
Packit	c4476c	`ldf.fill f23=[r19]`
Packit	c4476c	`mov ret0=1 } // signal "handled"`
Packit	c4476c	`{ .mib; rum 1<<5`
Packit	c4476c	`.restore sp`
Packit	c4476c	`mov sp=prevsp`
Packit	c4476c	`br.ret.sptk.many b0 };;`
Packit	c4476c	`.endp bn_mul_mont_8#`
Packit	c4476c
Packit	c4476c	`.type copyright#,\@object`
Packit	c4476c	`copyright:`
Packit	c4476c	`stringz "Montgomery multiplication for IA-64, CRYPTOGAMS by <appro\@openssl.org>"`
Packit	c4476c	`___`
Packit	c4476c
Packit	c4476c	`open STDOUT,">$output" if $output;`
Packit	c4476c	`print $code;`
Packit	c4476c	`close STDOUT or die "error closing STDOUT: $!";`

source-git / openssl

Source Code

Blame crypto/bn/asm/ia64-mont.pl