Tree - source-git/gmp - CentOS Git server

source-git / gmp

Blame mpn/x86_64/fastsse/lshift-movdqu2.asm

Blob History Raw

Packit	5c3484	`dnl AMD64 mpn_lshift optimised for CPUs with fast SSE including fast movdqu.`
Packit	5c3484
Packit	5c3484	`dnl Contributed to the GNU project by Torbjorn Granlund.`
Packit	5c3484
Packit	5c3484	`dnl Copyright 2010-2012 Free Software Foundation, Inc.`
Packit	5c3484
Packit	5c3484	`dnl This file is part of the GNU MP Library.`
Packit	5c3484	`dnl`
Packit	5c3484	`dnl The GNU MP Library is free software; you can redistribute it and/or modify`
Packit	5c3484	`dnl it under the terms of either:`
Packit	5c3484	`dnl`
Packit	5c3484	`dnl * the GNU Lesser General Public License as published by the Free`
Packit	5c3484	`dnl Software Foundation; either version 3 of the License, or (at your`
Packit	5c3484	`dnl option) any later version.`
Packit	5c3484	`dnl`
Packit	5c3484	`dnl or`
Packit	5c3484	`dnl`
Packit	5c3484	`dnl * the GNU General Public License as published by the Free Software`
Packit	5c3484	`dnl Foundation; either version 2 of the License, or (at your option) any`
Packit	5c3484	`dnl later version.`
Packit	5c3484	`dnl`
Packit	5c3484	`dnl or both in parallel, as here.`
Packit	5c3484	`dnl`
Packit	5c3484	`dnl The GNU MP Library is distributed in the hope that it will be useful, but`
Packit	5c3484	`dnl WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY`
Packit	5c3484	`dnl or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License`
Packit	5c3484	`dnl for more details.`
Packit	5c3484	`dnl`
Packit	5c3484	`dnl You should have received copies of the GNU General Public License and the`
Packit	5c3484	`dnl GNU Lesser General Public License along with the GNU MP Library. If not,`
Packit	5c3484	`dnl see https://www.gnu.org/licenses/.`
Packit	5c3484
Packit	5c3484	include(`../config.m4')
Packit	5c3484
Packit	5c3484
Packit	5c3484	`C cycles/limb cycles/limb cycles/limb good`
Packit	5c3484	`C aligned unaligned best seen for cpu?`
Packit	5c3484	`C AMD K8,K9 3 3 2.35 no, use shl/shr`
Packit	5c3484	`C AMD K10 1.5-1.8 1.5-1.8 1.33 yes`
Packit	5c3484	`C AMD bd1 1.7-1.9 1.7-1.9 1.33 yes`
Packit	5c3484	`C AMD bobcat 3.17 3.17 yes, bad for n < 20`
Packit	5c3484	`C Intel P4 4.67 4.67 2.7 no, slow movdqu`
Packit	5c3484	`C Intel core2 2.15 2.15 1.25 no, use shld/shrd`
Packit	5c3484	`C Intel NHM 1.66 1.66 1.25 no, use shld/shrd`
Packit	5c3484	`C Intel SBR 1.3 1.3 1.25 yes, bad for n = 4-6`
Packit	5c3484	`C Intel atom 11.7 11.7 4.5 no`
Packit	5c3484	`C VIA nano 5.7 5.95 2.0 no, slow movdqu`
Packit	5c3484
Packit	5c3484	`C We try to do as many aligned 16-byte operations as possible. The top-most`
Packit	5c3484	`C and bottom-most writes might need 8-byte operations.`
Packit	5c3484	`C`
Packit	5c3484	`C This variant rely on fast load movdqu, and uses it even for aligned operands,`
Packit	5c3484	`C in order to avoid the need for two separate loops.`
Packit	5c3484	`C`
Packit	5c3484	`C TODO`
Packit	5c3484	`C * Could 2-limb wind-down code be simplified?`
Packit	5c3484	`C * Improve basecase code, using shld/shrd for SBR, discrete integer shifts`
Packit	5c3484	`C for other affected CPUs.`
Packit	5c3484
Packit	5c3484	`C INPUT PARAMETERS`
Packit	5c3484	define(`rp', `%rdi')
Packit	5c3484	define(`ap', `%rsi')
Packit	5c3484	define(`n', `%rdx')
Packit	5c3484	define(`cnt', `%rcx')
Packit	5c3484
Packit	5c3484	`ASM_START()`
Packit	5c3484	`TEXT`
Packit	5c3484	`ALIGN(64)`
Packit	5c3484	`PROLOGUE(mpn_lshift)`
Packit	5c3484	`FUNC_ENTRY(4)`
Packit	5c3484	`movd R32(%rcx), %xmm4`
Packit	5c3484	`mov $64, R32(%rax)`
Packit	5c3484	`sub R32(%rcx), R32(%rax)`
Packit	5c3484	`movd R32(%rax), %xmm5`
Packit	5c3484
Packit	5c3484	`neg R32(%rcx)`
Packit	5c3484	`mov -8(ap,n,8), %rax`
Packit	5c3484	`shr R8(%rcx), %rax`
Packit	5c3484
Packit	5c3484	`cmp $3, n`
Packit	5c3484	`jle L(bc)`
Packit	5c3484
Packit	5c3484	`lea (rp,n,8), R32(%rcx)`
Packit	5c3484	`test $8, R8(%rcx)`
Packit	5c3484	`jz L(rp_aligned)`
Packit	5c3484
Packit	5c3484	`C Do one initial limb in order to make rp aligned`
Packit	5c3484	`movq -8(ap,n,8), %xmm0`
Packit	5c3484	`movq -16(ap,n,8), %xmm1`
Packit	5c3484	`psllq %xmm4, %xmm0`
Packit	5c3484	`psrlq %xmm5, %xmm1`
Packit	5c3484	`por %xmm1, %xmm0`
Packit	5c3484	`movq %xmm0, -8(rp,n,8)`
Packit	5c3484	`dec n`
Packit	5c3484
Packit	5c3484	`L(rp_aligned):`
Packit	5c3484	`lea 1(n), %r8d`
Packit	5c3484
Packit	5c3484	`and $6, R32(%r8)`
Packit	5c3484	`jz L(ba0)`
Packit	5c3484	`cmp $4, R32(%r8)`
Packit	5c3484	`jz L(ba4)`
Packit	5c3484	`jc L(ba2)`
Packit	5c3484	`L(ba6): add $-4, n`
Packit	5c3484	`jmp L(i56)`
Packit	5c3484	`L(ba0): add $-6, n`
Packit	5c3484	`jmp L(i70)`
Packit	5c3484	`L(ba4): add $-2, n`
Packit	5c3484	`jmp L(i34)`
Packit	5c3484	`L(ba2): add $-8, n`
Packit	5c3484	`jle L(end)`
Packit	5c3484
Packit	5c3484	`ALIGN(16)`
Packit	5c3484	`L(top): movdqu 40(ap,n,8), %xmm1`
Packit	5c3484	`movdqu 48(ap,n,8), %xmm0`
Packit	5c3484	`psllq %xmm4, %xmm0`
Packit	5c3484	`psrlq %xmm5, %xmm1`
Packit	5c3484	`por %xmm1, %xmm0`
Packit	5c3484	`movdqa %xmm0, 48(rp,n,8)`
Packit	5c3484	`L(i70):`
Packit	5c3484	`movdqu 24(ap,n,8), %xmm1`
Packit	5c3484	`movdqu 32(ap,n,8), %xmm0`
Packit	5c3484	`psllq %xmm4, %xmm0`
Packit	5c3484	`psrlq %xmm5, %xmm1`
Packit	5c3484	`por %xmm1, %xmm0`
Packit	5c3484	`movdqa %xmm0, 32(rp,n,8)`
Packit	5c3484	`L(i56):`
Packit	5c3484	`movdqu 8(ap,n,8), %xmm1`
Packit	5c3484	`movdqu 16(ap,n,8), %xmm0`
Packit	5c3484	`psllq %xmm4, %xmm0`
Packit	5c3484	`psrlq %xmm5, %xmm1`
Packit	5c3484	`por %xmm1, %xmm0`
Packit	5c3484	`movdqa %xmm0, 16(rp,n,8)`
Packit	5c3484	`L(i34):`
Packit	5c3484	`movdqu -8(ap,n,8), %xmm1`
Packit	5c3484	`movdqu (ap,n,8), %xmm0`
Packit	5c3484	`psllq %xmm4, %xmm0`
Packit	5c3484	`psrlq %xmm5, %xmm1`
Packit	5c3484	`por %xmm1, %xmm0`
Packit	5c3484	`movdqa %xmm0, (rp,n,8)`
Packit	5c3484	`sub $8, n`
Packit	5c3484	`jg L(top)`
Packit	5c3484
Packit	5c3484	`L(end): test $1, R8(n)`
Packit	5c3484	`jnz L(end8)`
Packit	5c3484
Packit	5c3484	`movdqu (ap), %xmm1`
Packit	5c3484	`pxor %xmm0, %xmm0`
Packit	5c3484	`punpcklqdq %xmm1, %xmm0`
Packit	5c3484	`psllq %xmm4, %xmm1`
Packit	5c3484	`psrlq %xmm5, %xmm0`
Packit	5c3484	`por %xmm1, %xmm0`
Packit	5c3484	`movdqa %xmm0, (rp)`
Packit	5c3484	`FUNC_EXIT()`
Packit	5c3484	`ret`
Packit	5c3484
Packit	5c3484	`C Basecase`
Packit	5c3484	`ALIGN(16)`
Packit	5c3484	`L(bc): dec R32(n)`
Packit	5c3484	`jz L(end8)`
Packit	5c3484
Packit	5c3484	`movq (ap,n,8), %xmm1`
Packit	5c3484	`movq -8(ap,n,8), %xmm0`
Packit	5c3484	`psllq %xmm4, %xmm1`
Packit	5c3484	`psrlq %xmm5, %xmm0`
Packit	5c3484	`por %xmm1, %xmm0`
Packit	5c3484	`movq %xmm0, (rp,n,8)`
Packit	5c3484	`sub $2, R32(n)`
Packit	5c3484	`jl L(end8)`
Packit	5c3484	`movq 8(ap), %xmm1`
Packit	5c3484	`movq (ap), %xmm0`
Packit	5c3484	`psllq %xmm4, %xmm1`
Packit	5c3484	`psrlq %xmm5, %xmm0`
Packit	5c3484	`por %xmm1, %xmm0`
Packit	5c3484	`movq %xmm0, 8(rp)`
Packit	5c3484
Packit	5c3484	`L(end8):movq (ap), %xmm0`
Packit	5c3484	`psllq %xmm4, %xmm0`
Packit	5c3484	`movq %xmm0, (rp)`
Packit	5c3484	`FUNC_EXIT()`
Packit	5c3484	`ret`
Packit	5c3484	`EPILOGUE()`
rpm-build	c3cd4f	`CF_PROT`

source-git / gmp

Source Code

Blame mpn/x86_64/fastsse/lshift-movdqu2.asm