Tree - source-git/OpenEXR - CentOS Git server

source-git / OpenEXR

Blame IlmImf/ImfDwaCompressorSimd.h

Blob History Raw

Packit	0d464f	`///////////////////////////////////////////////////////////////////////////`
Packit	0d464f	`//`
Packit	0d464f	`// Copyright (c) 2009-2014 DreamWorks Animation LLC.`
Packit	0d464f	`//`
Packit	0d464f	`// All rights reserved.`
Packit	0d464f	`//`
Packit	0d464f	`// Redistribution and use in source and binary forms, with or without`
Packit	0d464f	`// modification, are permitted provided that the following conditions are`
Packit	0d464f	`// met:`
Packit	0d464f	`// * Redistributions of source code must retain the above copyright`
Packit	0d464f	`// notice, this list of conditions and the following disclaimer.`
Packit	0d464f	`// * Redistributions in binary form must reproduce the above`
Packit	0d464f	`// copyright notice, this list of conditions and the following disclaimer`
Packit	0d464f	`// in the documentation and/or other materials provided with the`
Packit	0d464f	`// distribution.`
Packit	0d464f	`// * Neither the name of DreamWorks Animation nor the names of`
Packit	0d464f	`// its contributors may be used to endorse or promote products derived`
Packit	0d464f	`// from this software without specific prior written permission.`
Packit	0d464f	`//`
Packit	0d464f	`// THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS`
Packit	0d464f	`// "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT`
Packit	0d464f	`// LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR`
Packit	0d464f	`// A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT`
Packit	0d464f	`// OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,`
Packit	0d464f	`// SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT`
Packit	0d464f	`// LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,`
Packit	0d464f	`// DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY`
Packit	0d464f	`// THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT`
Packit	0d464f	`// (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE`
Packit	0d464f	`// OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.`
Packit	0d464f	`//`
Packit	0d464f	`///////////////////////////////////////////////////////////////////////////`
Packit	0d464f
Packit	0d464f	`#ifndef IMF_DWACOMPRESSORSIMD_H_HAS_BEEN_INCLUDED`
Packit	0d464f	`#define IMF_DWACOMPRESSORSIMD_H_HAS_BEEN_INCLUDED`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Various SSE accelerated functions, used by Imf::DwaCompressor.`
Packit	0d464f	`// These have been separated into a separate .h file, as the fast`
Packit	0d464f	`// paths are done with template specialization.`
Packit	0d464f	`//`
Packit	0d464f	`// Unless otherwise noted, all pointers are assumed to be 32-byte`
Packit	0d464f	`// aligned. Unaligned pointers may risk seg-faulting.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`#include "ImfNamespace.h"`
Packit	0d464f	`#include "ImfSimd.h"`
Packit	0d464f	`#include "ImfSystemSpecific.h"`
Packit	0d464f	`#include "OpenEXRConfig.h"`
Packit	0d464f
Packit	0d464f	`#include <half.h>`
Packit	0d464f	`#include <assert.h>`
Packit	0d464f
Packit	0d464f	`OPENEXR_IMF_INTERNAL_NAMESPACE_HEADER_ENTER`
Packit	0d464f
Packit	0d464f	`#define _SSE_ALIGNMENT 32`
Packit	0d464f	`#define _SSE_ALIGNMENT_MASK 0x0F`
Packit	0d464f	`#define _AVX_ALIGNMENT_MASK 0x1F`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Test if we should enable GCC inline asm paths for AVX`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`#ifdef OPENEXR_IMF_HAVE_GCC_INLINE_ASM_AVX`
Packit	0d464f
Packit	0d464f	`#define IMF_HAVE_GCC_INLINEASM`
Packit	0d464f
Packit	0d464f	`#ifdef __LP64__`
Packit	0d464f	`#define IMF_HAVE_GCC_INLINEASM_64`
Packit	0d464f	`#endif /* __LP64__ */`
Packit	0d464f
Packit	0d464f	`#endif /* OPENEXR_IMF_HAVE_GCC_INLINE_ASM_AVX */`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// A simple 64-element array, aligned properly for SIMD access.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`template <class T>`
Packit	0d464f	`class SimdAlignedBuffer64`
Packit	0d464f	`{`
Packit	0d464f	`public:`
Packit	0d464f
Packit	0d464f	`SimdAlignedBuffer64(): _buffer (0), _handle (0)`
Packit	0d464f	`{`
Packit	0d464f	`alloc();`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`SimdAlignedBuffer64(const SimdAlignedBuffer64 &rhs): _handle(0)`
Packit	0d464f	`{`
Packit	0d464f	`alloc();`
Packit	0d464f	`memcpy (_buffer, rhs._buffer, 64 * sizeof (T));`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`~SimdAlignedBuffer64 ()`
Packit	0d464f	`{`
Packit	0d464f	`EXRFreeAligned (_handle);`
Packit	0d464f	`_handle = 0;`
Packit	0d464f	`_buffer = 0;`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`void alloc()`
Packit	0d464f	`{`
Packit	0d464f	`//`
Packit	0d464f	`// Try EXRAllocAligned first - but it might fallback to`
Packit	0d464f	`// unaligned allocs. If so, overalloc.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`_handle = (char *) EXRAllocAligned`
Packit	0d464f	`(64 * sizeof(T), _SSE_ALIGNMENT);`
Packit	0d464f
Packit	0d464f	`if (((size_t)_handle & (_SSE_ALIGNMENT - 1)) == 0)`
Packit	0d464f	`{`
Packit	0d464f	`_buffer = (T *)_handle;`
Packit	0d464f	`return;`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`EXRFreeAligned(_handle);`
Packit	0d464f	`_handle = (char *) EXRAllocAligned`
Packit	0d464f	`(64 * sizeof(T) + _SSE_ALIGNMENT, _SSE_ALIGNMENT);`
Packit	0d464f
Packit	0d464f	`char *aligned = _handle;`
Packit	0d464f
Packit	0d464f	`while ((size_t)aligned & (_SSE_ALIGNMENT - 1))`
Packit	0d464f	`aligned++;`
Packit	0d464f
Packit	0d464f	`_buffer = (T *)aligned;`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`T *_buffer;`
Packit	0d464f
Packit	0d464f	`private:`
Packit	0d464f
Packit	0d464f	`char *_handle;`
Packit	0d464f	`};`
Packit	0d464f
Packit	0d464f	`typedef SimdAlignedBuffer64<float> SimdAlignedBuffer64f;`
Packit	0d464f	`typedef SimdAlignedBuffer64<unsigned short> SimdAlignedBuffer64us;`
Packit	0d464f
Packit	0d464f	`namespace {`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Color space conversion, Inverse 709 CSC, Y'CbCr -> R'G'B'`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`csc709Inverse (float &comp0, float &comp1, float &comp2)`
Packit	0d464f	`{`
Packit	0d464f	`float src[3];`
Packit	0d464f
Packit	0d464f	`src[0] = comp0;`
Packit	0d464f	`src[1] = comp1;`
Packit	0d464f	`src[2] = comp2;`
Packit	0d464f
Packit	0d464f	`comp0 = src[0] + 1.5747f * src[2];`
Packit	0d464f	`comp1 = src[0] - 0.1873f * src[1] - 0.4682f * src[2];`
Packit	0d464f	`comp2 = src[0] + 1.8556f * src[1];`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`#ifndef IMF_HAVE_SSE2`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Scalar color space conversion, based on 709 primiary chromaticies.`
Packit	0d464f	`// No scaling or offsets, just the matrix`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`csc709Inverse64 (float comp0, float comp1, float *comp2)`
Packit	0d464f	`{`
Packit	0d464f	`for (int i = 0; i < 64; ++i)`
Packit	0d464f	`csc709Inverse (comp0[i], comp1[i], comp2[i]);`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`#else /* IMF_HAVE_SSE2 */`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// SSE2 color space conversion`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`csc709Inverse64 (float comp0, float comp1, float *comp2)`
Packit	0d464f	`{`
Packit	0d464f	`__m128 c0 = { 1.5747f, 1.5747f, 1.5747f, 1.5747f};`
Packit	0d464f	`__m128 c1 = { 1.8556f, 1.8556f, 1.8556f, 1.8556f};`
Packit	0d464f	`__m128 c2 = {-0.1873f, -0.1873f, -0.1873f, -0.1873f};`
Packit	0d464f	`__m128 c3 = {-0.4682f, -0.4682f, -0.4682f, -0.4682f};`
Packit	0d464f
Packit	0d464f	`__m128 r = (__m128 )comp0;`
Packit	0d464f	`__m128 g = (__m128 )comp1;`
Packit	0d464f	`__m128 b = (__m128 )comp2;`
Packit	0d464f	`__m128 src[3];`
Packit	0d464f
Packit	0d464f	`#define CSC_INVERSE_709_SSE2_LOOP(i) \`
Packit	0d464f	`src[0] = r[i]; \`
Packit	0d464f	`src[1] = g[i]; \`
Packit	0d464f	`src[2] = b[i]; \`
Packit	0d464f	`\`
Packit	0d464f	`r[i] = _mm_add_ps (r[i], _mm_mul_ps (src[2], c0)); \`
Packit	0d464f	`\`
Packit	0d464f	`g[i] = _mm_mul_ps (g[i], c2); \`
Packit	0d464f	`src[2] = _mm_mul_ps (src[2], c3); \`
Packit	0d464f	`g[i] = _mm_add_ps (g[i], src[0]); \`
Packit	0d464f	`g[i] = _mm_add_ps (g[i], src[2]); \`
Packit	0d464f	`\`
Packit	0d464f	`b[i] = _mm_mul_ps (c1, src[1]); \`
Packit	0d464f	`b[i] = _mm_add_ps (b[i], src[0]);`
Packit	0d464f
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (0)`
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (1)`
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (2)`
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (3)`
Packit	0d464f
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (4)`
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (5)`
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (6)`
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (7)`
Packit	0d464f
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (8)`
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (9)`
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (10)`
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (11)`
Packit	0d464f
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (12)`
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (13)`
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (14)`
Packit	0d464f	`CSC_INVERSE_709_SSE2_LOOP (15)`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`#endif /* IMF_HAVE_SSE2 */`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Color space conversion, Forward 709 CSC, R'G'B' -> Y'CbCr`
Packit	0d464f	`//`
Packit	0d464f	`// Simple FPU color space conversion. Based on the 709`
Packit	0d464f	`// primary chromaticies, with no scaling or offsets.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`csc709Forward64 (float comp0, float comp1, float *comp2)`
Packit	0d464f	`{`
Packit	0d464f	`float src[3];`
Packit	0d464f
Packit	0d464f	`for (int i = 0; i<64; ++i)`
Packit	0d464f	`{`
Packit	0d464f	`src[0] = comp0[i];`
Packit	0d464f	`src[1] = comp1[i];`
Packit	0d464f	`src[2] = comp2[i];`
Packit	0d464f
Packit	0d464f	`comp0[i] = 0.2126f * src[0] + 0.7152f * src[1] + 0.0722f * src[2];`
Packit	0d464f	`comp1[i] = -0.1146f * src[0] - 0.3854f * src[1] + 0.5000f * src[2];`
Packit	0d464f	`comp2[i] = 0.5000f * src[0] - 0.4542f * src[1] - 0.0458f * src[2];`
Packit	0d464f	`}`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Byte interleaving of 2 byte arrays:`
Packit	0d464f	`// src0 = AAAA`
Packit	0d464f	`// src1 = BBBB`
Packit	0d464f	`// dst = ABABABAB`
Packit	0d464f	`//`
Packit	0d464f	`// numBytes is the size of each of the source buffers`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`#ifndef IMF_HAVE_SSE2`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Scalar default implementation`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`interleaveByte2 (char dst, char src0, char *src1, int numBytes)`
Packit	0d464f	`{`
Packit	0d464f	`for (int x = 0; x < numBytes; ++x)`
Packit	0d464f	`{`
Packit	0d464f	`dst[2 * x] = src0[x];`
Packit	0d464f	`dst[2 * x + 1] = src1[x];`
Packit	0d464f	`}`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`#else /* IMF_HAVE_SSE2 */`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// SSE2 byte interleaving`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`interleaveByte2 (char dst, char src0, char *src1, int numBytes)`
Packit	0d464f	`{`
Packit	0d464f	`int dstAlignment = (size_t)dst % 16;`
Packit	0d464f	`int src0Alignment = (size_t)src0 % 16;`
Packit	0d464f	`int src1Alignment = (size_t)src1 % 16;`
Packit	0d464f
Packit	0d464f	`__m128i dst_epi8 = (__m128i)dst;`
Packit	0d464f	`__m128i src0_epi8 = (__m128i)src0;`
Packit	0d464f	`__m128i src1_epi8 = (__m128i)src1;`
Packit	0d464f	`int sseWidth = numBytes / 16;`
Packit	0d464f
Packit	0d464f	`if ((!dstAlignment) && (!src0Alignment) && (!src1Alignment))`
Packit	0d464f	`{`
Packit	0d464f	`__m128i tmp0, tmp1;`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Aligned loads and stores`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`for (int x = 0; x < sseWidth; ++x)`
Packit	0d464f	`{`
Packit	0d464f	`tmp0 = src0_epi8[x];`
Packit	0d464f	`tmp1 = src1_epi8[x];`
Packit	0d464f
Packit	0d464f	`_mm_stream_si128 (&dst_epi8[2 * x],`
Packit	0d464f	`_mm_unpacklo_epi8 (tmp0, tmp1));`
Packit	0d464f
Packit	0d464f	`_mm_stream_si128 (&dst_epi8[2 * x + 1],`
Packit	0d464f	`_mm_unpackhi_epi8 (tmp0, tmp1));`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Then do run the leftovers one at a time`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`for (int x = 16 * sseWidth; x < numBytes; ++x)`
Packit	0d464f	`{`
Packit	0d464f	`dst[2 * x] = src0[x];`
Packit	0d464f	`dst[2 * x + 1] = src1[x];`
Packit	0d464f	`}`
Packit	0d464f	`}`
Packit	0d464f	`else if ((!dstAlignment) && (src0Alignment == 8) && (src1Alignment == 8))`
Packit	0d464f	`{`
Packit	0d464f	`//`
Packit	0d464f	`// Aligned stores, but catch up a few values so we can`
Packit	0d464f	`// use aligned loads`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`for (int x = 0; x < 8; ++x)`
Packit	0d464f	`{`
Packit	0d464f	`dst[2 * x] = src0[x];`
Packit	0d464f	`dst[2 * x + 1] = src1[x];`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`dst_epi8 = (__m128i*)&dst[16];`
Packit	0d464f	`src0_epi8 = (__m128i*)&src0[8];`
Packit	0d464f	`src1_epi8 = (__m128i*)&src1[8];`
Packit	0d464f	`sseWidth = (numBytes - 8) / 16;`
Packit	0d464f
Packit	0d464f	`for (int x=0; x`
Packit	0d464f	`{`
Packit	0d464f	`_mm_stream_si128 (&dst_epi8[2 * x],`
Packit	0d464f	`_mm_unpacklo_epi8 (src0_epi8[x], src1_epi8[x]));`
Packit	0d464f
Packit	0d464f	`_mm_stream_si128 (&dst_epi8[2 * x + 1],`
Packit	0d464f	`_mm_unpackhi_epi8 (src0_epi8[x], src1_epi8[x]));`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Then do run the leftovers one at a time`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`for (int x = 16 * sseWidth + 8; x < numBytes; ++x)`
Packit	0d464f	`{`
Packit	0d464f	`dst[2 * x] = src0[x];`
Packit	0d464f	`dst[2 * x + 1] = src1[x];`
Packit	0d464f	`}`
Packit	0d464f	`}`
Packit	0d464f	`else`
Packit	0d464f	`{`
Packit	0d464f	`//`
Packit	0d464f	`// Unaligned everything`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`for (int x = 0; x < sseWidth; ++x)`
Packit	0d464f	`{`
Packit	0d464f	`__m128i tmpSrc0_epi8 = _mm_loadu_si128 (&src0_epi8[x]);`
Packit	0d464f	`__m128i tmpSrc1_epi8 = _mm_loadu_si128 (&src1_epi8[x]);`
Packit	0d464f
Packit	0d464f	`_mm_storeu_si128 (&dst_epi8[2 * x],`
Packit	0d464f	`_mm_unpacklo_epi8 (tmpSrc0_epi8, tmpSrc1_epi8));`
Packit	0d464f
Packit	0d464f	`_mm_storeu_si128 (&dst_epi8[2 * x + 1],`
Packit	0d464f	`_mm_unpackhi_epi8 (tmpSrc0_epi8, tmpSrc1_epi8));`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Then do run the leftovers one at a time`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`for (int x = 16 * sseWidth; x < numBytes; ++x)`
Packit	0d464f	`{`
Packit	0d464f	`dst[2 * x] = src0[x];`
Packit	0d464f	`dst[2 * x + 1] = src1[x];`
Packit	0d464f	`}`
Packit	0d464f	`}`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`#endif /* IMF_HAVE_SSE2 */`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Float -> half float conversion`
Packit	0d464f	`//`
Packit	0d464f	`// To enable F16C based conversion, we can't rely on compile-time`
Packit	0d464f	`// detection, hence the multiple defined versions. Pick one based`
Packit	0d464f	`// on runtime cpuid detection.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Default boring conversion`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`convertFloatToHalf64_scalar (unsigned short dst, float src)`
Packit	0d464f	`{`
Packit	0d464f	`for (int i=0; i<64; ++i)`
Packit	0d464f	`dst[i] = ((half)src[i]).bits();`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// F16C conversion - Assumes aligned src and dst`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`convertFloatToHalf64_f16c (unsigned short dst, float src)`
Packit	0d464f	`{`
Packit	0d464f	`//`
Packit	0d464f	`// Ordinarly, I'd avoid using inline asm and prefer intrinsics.`
Packit	0d464f	`// However, in order to get the intrinsics, we need to tell`
Packit	0d464f	`// the compiler to generate VEX instructions.`
Packit	0d464f	`//`
Packit	0d464f	`// (On the GCC side, -mf16c goes ahead and activates -mavc,`
Packit	0d464f	`// resulting in VEX code. Without -mf16c, no intrinsics..)`
Packit	0d464f	`//`
Packit	0d464f	`// Now, it's quite likely that we'll find ourselves in situations`
Packit	0d464f	`// where we want to build without VEX, in order to maintain`
Packit	0d464f	`// maximum compatability. But to get there with intrinsics,`
Packit	0d464f	`// we'd need to break out code into a separate file. Bleh.`
Packit	0d464f	`// I'll take the asm.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`#if defined IMF_HAVE_GCC_INLINEASM`
Packit	0d464f	`__asm__`
Packit	0d464f	`("vmovaps (%0), %%ymm0 \n"`
Packit	0d464f	`"vmovaps 0x20(%0), %%ymm1 \n"`
Packit	0d464f	`"vmovaps 0x40(%0), %%ymm2 \n"`
Packit	0d464f	`"vmovaps 0x60(%0), %%ymm3 \n"`
Packit	0d464f	`"vcvtps2ph $0, %%ymm0, %%xmm0 \n"`
Packit	0d464f	`"vcvtps2ph $0, %%ymm1, %%xmm1 \n"`
Packit	0d464f	`"vcvtps2ph $0, %%ymm2, %%xmm2 \n"`
Packit	0d464f	`"vcvtps2ph $0, %%ymm3, %%xmm3 \n"`
Packit	0d464f	`"vmovdqa %%xmm0, 0x00(%1) \n"`
Packit	0d464f	`"vmovdqa %%xmm1, 0x10(%1) \n"`
Packit	0d464f	`"vmovdqa %%xmm2, 0x20(%1) \n"`
Packit	0d464f	`"vmovdqa %%xmm3, 0x30(%1) \n"`
Packit	0d464f	`"vmovaps 0x80(%0), %%ymm0 \n"`
Packit	0d464f	`"vmovaps 0xa0(%0), %%ymm1 \n"`
Packit	0d464f	`"vmovaps 0xc0(%0), %%ymm2 \n"`
Packit	0d464f	`"vmovaps 0xe0(%0), %%ymm3 \n"`
Packit	0d464f	`"vcvtps2ph $0, %%ymm0, %%xmm0 \n"`
Packit	0d464f	`"vcvtps2ph $0, %%ymm1, %%xmm1 \n"`
Packit	0d464f	`"vcvtps2ph $0, %%ymm2, %%xmm2 \n"`
Packit	0d464f	`"vcvtps2ph $0, %%ymm3, %%xmm3 \n"`
Packit	0d464f	`"vmovdqa %%xmm0, 0x40(%1) \n"`
Packit	0d464f	`"vmovdqa %%xmm1, 0x50(%1) \n"`
Packit	0d464f	`"vmovdqa %%xmm2, 0x60(%1) \n"`
Packit	0d464f	`"vmovdqa %%xmm3, 0x70(%1) \n"`
Packit	0d464f	`#ifndef __AVX__`
Packit	0d464f	`"vzeroupper \n"`
Packit	0d464f	`#endif /* __AVX__ */`
Packit	0d464f	`: /* Output */`
Packit	0d464f	`: /* Input */ "r"(src), "r"(dst)`
Packit	0d464f	`#ifndef __AVX__`
Packit	0d464f	`: /* Clobber */ "%xmm0", "%xmm1", "%xmm2", "%xmm3", "memory"`
Packit	0d464f	`#else`
Packit	0d464f	`: /* Clobber */ "%ymm0", "%ymm1", "%ymm2", "%ymm3", "memory"`
Packit	0d464f	`#endif /* __AVX__ */`
Packit	0d464f	`);`
Packit	0d464f	`#else`
Packit	0d464f	`convertFloatToHalf64_scalar (dst, src);`
Packit	0d464f	`#endif /* IMF_HAVE_GCC_INLINEASM */`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Convert an 8x8 block of HALF from zig-zag order to`
Packit	0d464f	`// FLOAT in normal order. The order we want is:`
Packit	0d464f	`//`
Packit	0d464f	`// src dst`
Packit	0d464f	`// 0 1 2 3 4 5 6 7 0 1 5 6 14 15 27 28`
Packit	0d464f	`// 8 9 10 11 12 13 14 15 2 4 7 13 16 26 29 42`
Packit	0d464f	`// 16 17 18 19 20 21 22 23 3 8 12 17 25 30 41 43`
Packit	0d464f	`// 24 25 26 27 28 29 30 31 9 11 18 24 31 40 44 53`
Packit	0d464f	`// 32 33 34 35 36 37 38 39 10 19 23 32 39 45 52 54`
Packit	0d464f	`// 40 41 42 43 44 45 46 47 20 22 33 38 46 51 55 60`
Packit	0d464f	`// 48 49 50 51 52 53 54 55 21 34 37 47 50 56 59 61`
Packit	0d464f	`// 56 57 58 59 60 61 62 63 35 36 48 49 57 58 62 63`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`fromHalfZigZag_scalar (unsigned short src, float dst)`
Packit	0d464f	`{`
Packit	0d464f	`half srcHalf = (half )src;`
Packit	0d464f
Packit	0d464f	`dst[0] = (float)srcHalf[0];`
Packit	0d464f	`dst[1] = (float)srcHalf[1];`
Packit	0d464f	`dst[2] = (float)srcHalf[5];`
Packit	0d464f	`dst[3] = (float)srcHalf[6];`
Packit	0d464f	`dst[4] = (float)srcHalf[14];`
Packit	0d464f	`dst[5] = (float)srcHalf[15];`
Packit	0d464f	`dst[6] = (float)srcHalf[27];`
Packit	0d464f	`dst[7] = (float)srcHalf[28];`
Packit	0d464f	`dst[8] = (float)srcHalf[2];`
Packit	0d464f	`dst[9] = (float)srcHalf[4];`
Packit	0d464f
Packit	0d464f	`dst[10] = (float)srcHalf[7];`
Packit	0d464f	`dst[11] = (float)srcHalf[13];`
Packit	0d464f	`dst[12] = (float)srcHalf[16];`
Packit	0d464f	`dst[13] = (float)srcHalf[26];`
Packit	0d464f	`dst[14] = (float)srcHalf[29];`
Packit	0d464f	`dst[15] = (float)srcHalf[42];`
Packit	0d464f	`dst[16] = (float)srcHalf[3];`
Packit	0d464f	`dst[17] = (float)srcHalf[8];`
Packit	0d464f	`dst[18] = (float)srcHalf[12];`
Packit	0d464f	`dst[19] = (float)srcHalf[17];`
Packit	0d464f
Packit	0d464f	`dst[20] = (float)srcHalf[25];`
Packit	0d464f	`dst[21] = (float)srcHalf[30];`
Packit	0d464f	`dst[22] = (float)srcHalf[41];`
Packit	0d464f	`dst[23] = (float)srcHalf[43];`
Packit	0d464f	`dst[24] = (float)srcHalf[9];`
Packit	0d464f	`dst[25] = (float)srcHalf[11];`
Packit	0d464f	`dst[26] = (float)srcHalf[18];`
Packit	0d464f	`dst[27] = (float)srcHalf[24];`
Packit	0d464f	`dst[28] = (float)srcHalf[31];`
Packit	0d464f	`dst[29] = (float)srcHalf[40];`
Packit	0d464f
Packit	0d464f	`dst[30] = (float)srcHalf[44];`
Packit	0d464f	`dst[31] = (float)srcHalf[53];`
Packit	0d464f	`dst[32] = (float)srcHalf[10];`
Packit	0d464f	`dst[33] = (float)srcHalf[19];`
Packit	0d464f	`dst[34] = (float)srcHalf[23];`
Packit	0d464f	`dst[35] = (float)srcHalf[32];`
Packit	0d464f	`dst[36] = (float)srcHalf[39];`
Packit	0d464f	`dst[37] = (float)srcHalf[45];`
Packit	0d464f	`dst[38] = (float)srcHalf[52];`
Packit	0d464f	`dst[39] = (float)srcHalf[54];`
Packit	0d464f
Packit	0d464f	`dst[40] = (float)srcHalf[20];`
Packit	0d464f	`dst[41] = (float)srcHalf[22];`
Packit	0d464f	`dst[42] = (float)srcHalf[33];`
Packit	0d464f	`dst[43] = (float)srcHalf[38];`
Packit	0d464f	`dst[44] = (float)srcHalf[46];`
Packit	0d464f	`dst[45] = (float)srcHalf[51];`
Packit	0d464f	`dst[46] = (float)srcHalf[55];`
Packit	0d464f	`dst[47] = (float)srcHalf[60];`
Packit	0d464f	`dst[48] = (float)srcHalf[21];`
Packit	0d464f	`dst[49] = (float)srcHalf[34];`
Packit	0d464f
Packit	0d464f	`dst[50] = (float)srcHalf[37];`
Packit	0d464f	`dst[51] = (float)srcHalf[47];`
Packit	0d464f	`dst[52] = (float)srcHalf[50];`
Packit	0d464f	`dst[53] = (float)srcHalf[56];`
Packit	0d464f	`dst[54] = (float)srcHalf[59];`
Packit	0d464f	`dst[55] = (float)srcHalf[61];`
Packit	0d464f	`dst[56] = (float)srcHalf[35];`
Packit	0d464f	`dst[57] = (float)srcHalf[36];`
Packit	0d464f	`dst[58] = (float)srcHalf[48];`
Packit	0d464f	`dst[59] = (float)srcHalf[49];`
Packit	0d464f
Packit	0d464f	`dst[60] = (float)srcHalf[57];`
Packit	0d464f	`dst[61] = (float)srcHalf[58];`
Packit	0d464f	`dst[62] = (float)srcHalf[62];`
Packit	0d464f	`dst[63] = (float)srcHalf[63];`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// If we can form the correct ordering in xmm registers,`
Packit	0d464f	`// we can use F16C to convert from HALF -> FLOAT. However,`
Packit	0d464f	`// making the correct order isn't trivial.`
Packit	0d464f	`//`
Packit	0d464f	`// We want to re-order a source 8x8 matrix from:`
Packit	0d464f	`//`
Packit	0d464f	`// 0 1 2 3 4 5 6 7 0 1 5 6 14 15 27 28`
Packit	0d464f	`// 8 9 10 11 12 13 14 15 2 4 7 13 16 26 29 42`
Packit	0d464f	`// 16 17 18 19 20 21 22 23 3 8 12 17 25 30 41 43`
Packit	0d464f	`// 24 25 26 27 28 29 30 31 9 11 18 24 31 40 44 53 (A)`
Packit	0d464f	`// 32 33 34 35 36 37 38 39 --> 10 19 23 32 39 45 52 54`
Packit	0d464f	`// 40 41 42 43 44 45 46 47 20 22 33 38 46 51 55 60`
Packit	0d464f	`// 48 49 50 51 52 53 54 55 21 34 37 47 50 56 59 61`
Packit	0d464f	`// 56 57 58 59 60 61 62 63 35 36 48 49 57 58 62 63`
Packit	0d464f	`//`
Packit	0d464f	`// Which looks like a mess, right?`
Packit	0d464f	`//`
Packit	0d464f	`// Now, check out the NE/SW diagonals of (A). Along those lines,`
Packit	0d464f	`// we have runs of contiguous values! If we rewrite (A) a bit, we get:`
Packit	0d464f	`//`
Packit	0d464f	`// 0`
Packit	0d464f	`// 1 2`
Packit	0d464f	`// 5 4 3`
Packit	0d464f	`// 6 7 8 9`
Packit	0d464f	`// 14 13 12 11 10`
Packit	0d464f	`// 15 16 17 18 19 20`
Packit	0d464f	`// 27 26 25 24 23 22 21 (B)`
Packit	0d464f	`// 28 29 30 31 32 33 34 35`
Packit	0d464f	`// 42 41 40 39 38 37 36`
Packit	0d464f	`// 43 44 45 46 47 48`
Packit	0d464f	`// 53 52 51 50 49`
Packit	0d464f	`// 54 55 56 57`
Packit	0d464f	`// 60 59 58`
Packit	0d464f	`// 61 62`
Packit	0d464f	`// 63`
Packit	0d464f	`//`
Packit	0d464f	`// In this ordering, the columns are the rows (A). If we can 'transpose'`
Packit	0d464f	`// (B), we'll achieve our goal. But we want this to fit nicely into`
Packit	0d464f	`// xmm registers and still be able to load large runs efficiently.`
Packit	0d464f	`// Also, notice that the odd rows are in ascending order, while`
Packit	0d464f	`// the even rows are in descending order.`
Packit	0d464f	`//`
Packit	0d464f	`// If we 'fold' the bottom half up into the top, we can preserve ordered`
Packit	0d464f	`// runs accross rows, and still keep all the correct values in columns.`
Packit	0d464f	`// After transposing, we'll need to rotate things back into place.`
Packit	0d464f	`// This gives us:`
Packit	0d464f	`//`
Packit	0d464f	`// 0 \| 42 41 40 39 38 37 36`
Packit	0d464f	`// 1 2 \| 43 44 45 46 47 48`
Packit	0d464f	`// 5 4 3 \| 53 52 51 50 49`
Packit	0d464f	`// 6 7 8 9 \| 54 55 56 57 (C)`
Packit	0d464f	`// 14 13 12 11 10 \| 60 59 58`
Packit	0d464f	`// 15 16 17 18 19 20 \| 61 62`
Packit	0d464f	`// 27 26 25 24 23 22 21 \| 61`
Packit	0d464f	`// 28 29 30 31 32 33 34 35`
Packit	0d464f	`//`
Packit	0d464f	`// But hang on. We still have the backwards descending rows to deal with.`
Packit	0d464f	`// Lets reverse the even rows so that all values are in ascending order`
Packit	0d464f	`//`
Packit	0d464f	`// 36 37 38 39 40 41 42 \| 0`
Packit	0d464f	`// 1 2 \| 43 44 45 46 47 48`
Packit	0d464f	`// 49 50 51 52 53 \| 3 4 5`
Packit	0d464f	`// 6 7 8 9 \| 54 55 56 57 (D)`
Packit	0d464f	`// 58 59 60 \| 10 11 12 13 14`
Packit	0d464f	`// 15 16 17 18 19 20 \| 61 62`
Packit	0d464f	`// 61 \| 21 22 23 24 25 26 27`
Packit	0d464f	`// 28 29 30 31 32 33 34 35`
Packit	0d464f	`//`
Packit	0d464f	`// If we can form (D), we will then:`
Packit	0d464f	`// 1) Reverse the even rows`
Packit	0d464f	`// 2) Transpose`
Packit	0d464f	`// 3) Rotate the rows`
Packit	0d464f	`//`
Packit	0d464f	`// and we'll have (A).`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`fromHalfZigZag_f16c (unsigned short src, float dst)`
Packit	0d464f	`{`
Packit	0d464f	`#if defined IMF_HAVE_GCC_INLINEASM_64`
Packit	0d464f	`__asm__`
Packit	0d464f
Packit	0d464f	`/* x3 <- 0`
Packit	0d464f	`* x8 <- [ 0- 7]`
Packit	0d464f	`* x6 <- [56-63]`
Packit	0d464f	`* x9 <- [21-28]`
Packit	0d464f	`* x7 <- [28-35]`
Packit	0d464f	`* x3 <- [ 6- 9] (lower half) */`
Packit	0d464f
Packit	0d464f	`("vpxor %%xmm3, %%xmm3, %%xmm3 \n"`
Packit	0d464f	`"vmovdqa (%0), %%xmm8 \n"`
Packit	0d464f	`"vmovdqa 112(%0), %%xmm6 \n"`
Packit	0d464f	`"vmovdqu 42(%0), %%xmm9 \n"`
Packit	0d464f	`"vmovdqu 56(%0), %%xmm7 \n"`
Packit	0d464f	`"vmovq 12(%0), %%xmm3 \n"`
Packit	0d464f
Packit	0d464f	`/* Setup rows 0-2 of A in xmm0-xmm2`
Packit	0d464f	`* x1 <- x8 >> 16 (1 value)`
Packit	0d464f	`* x2 <- x8 << 32 (2 values)`
Packit	0d464f	`* x0 <- alignr([35-42], x8, 2)`
Packit	0d464f	`* x1 <- blend(x1, [41-48])`
Packit	0d464f	`* x2 <- blend(x2, [49-56]) */`
Packit	0d464f
Packit	0d464f	`"vpsrldq $2, %%xmm8, %%xmm1 \n"`
Packit	0d464f	`"vpslldq $4, %%xmm8, %%xmm2 \n"`
Packit	0d464f	`"vpalignr $2, 70(%0), %%xmm8, %%xmm0 \n"`
Packit	0d464f	`"vpblendw $0xfc, 82(%0), %%xmm1, %%xmm1 \n"`
Packit	0d464f	`"vpblendw $0x1f, 98(%0), %%xmm2, %%xmm2 \n"`
Packit	0d464f
Packit	0d464f	`/* Setup rows 4-6 of A in xmm4-xmm6`
Packit	0d464f	`* x4 <- x6 >> 32 (2 values)`
Packit	0d464f	`* x5 <- x6 << 16 (1 value)`
Packit	0d464f	`* x6 <- alignr(x6,x9,14)`
Packit	0d464f	`* x4 <- blend(x4, [ 7-14])`
Packit	0d464f	`* x5 <- blend(x5, [15-22]) */`
Packit	0d464f
Packit	0d464f	`"vpsrldq $4, %%xmm6, %%xmm4 \n"`
Packit	0d464f	`"vpslldq $2, %%xmm6, %%xmm5 \n"`
Packit	0d464f	`"vpalignr $14, %%xmm6, %%xmm9, %%xmm6 \n"`
Packit	0d464f	`"vpblendw $0xf8, 14(%0), %%xmm4, %%xmm4 \n"`
Packit	0d464f	`"vpblendw $0x3f, 30(%0), %%xmm5, %%xmm5 \n"`
Packit	0d464f
Packit	0d464f	`/* Load the upper half of row 3 into xmm3`
Packit	0d464f	`* x3 <- [54-57] (upper half) */`
Packit	0d464f
Packit	0d464f	`"vpinsrq $1, 108(%0), %%xmm3, %%xmm3\n"`
Packit	0d464f
Packit	0d464f	`/* Reverse the even rows. We're not using PSHUFB as`
Packit	0d464f	`* that requires loading an extra constant all the time,`
Packit	0d464f	`* and we're alreadly pretty memory bound.`
Packit	0d464f	`*/`
Packit	0d464f
Packit	0d464f	`"vpshuflw $0x1b, %%xmm0, %%xmm0 \n"`
Packit	0d464f	`"vpshuflw $0x1b, %%xmm2, %%xmm2 \n"`
Packit	0d464f	`"vpshuflw $0x1b, %%xmm4, %%xmm4 \n"`
Packit	0d464f	`"vpshuflw $0x1b, %%xmm6, %%xmm6 \n"`
Packit	0d464f
Packit	0d464f	`"vpshufhw $0x1b, %%xmm0, %%xmm0 \n"`
Packit	0d464f	`"vpshufhw $0x1b, %%xmm2, %%xmm2 \n"`
Packit	0d464f	`"vpshufhw $0x1b, %%xmm4, %%xmm4 \n"`
Packit	0d464f	`"vpshufhw $0x1b, %%xmm6, %%xmm6 \n"`
Packit	0d464f
Packit	0d464f	`"vpshufd $0x4e, %%xmm0, %%xmm0 \n"`
Packit	0d464f	`"vpshufd $0x4e, %%xmm2, %%xmm2 \n"`
Packit	0d464f	`"vpshufd $0x4e, %%xmm4, %%xmm4 \n"`
Packit	0d464f	`"vpshufd $0x4e, %%xmm6, %%xmm6 \n"`
Packit	0d464f
Packit	0d464f	`/* Transpose xmm0-xmm7 into xmm8-xmm15 */`
Packit	0d464f
Packit	0d464f	`"vpunpcklwd %%xmm1, %%xmm0, %%xmm8 \n"`
Packit	0d464f	`"vpunpcklwd %%xmm3, %%xmm2, %%xmm9 \n"`
Packit	0d464f	`"vpunpcklwd %%xmm5, %%xmm4, %%xmm10 \n"`
Packit	0d464f	`"vpunpcklwd %%xmm7, %%xmm6, %%xmm11 \n"`
Packit	0d464f	`"vpunpckhwd %%xmm1, %%xmm0, %%xmm12 \n"`
Packit	0d464f	`"vpunpckhwd %%xmm3, %%xmm2, %%xmm13 \n"`
Packit	0d464f	`"vpunpckhwd %%xmm5, %%xmm4, %%xmm14 \n"`
Packit	0d464f	`"vpunpckhwd %%xmm7, %%xmm6, %%xmm15 \n"`
Packit	0d464f
Packit	0d464f	`"vpunpckldq %%xmm9, %%xmm8, %%xmm0 \n"`
Packit	0d464f	`"vpunpckldq %%xmm11, %%xmm10, %%xmm1 \n"`
Packit	0d464f	`"vpunpckhdq %%xmm9, %%xmm8, %%xmm2 \n"`
Packit	0d464f	`"vpunpckhdq %%xmm11, %%xmm10, %%xmm3 \n"`
Packit	0d464f	`"vpunpckldq %%xmm13, %%xmm12, %%xmm4 \n"`
Packit	0d464f	`"vpunpckldq %%xmm15, %%xmm14, %%xmm5 \n"`
Packit	0d464f	`"vpunpckhdq %%xmm13, %%xmm12, %%xmm6 \n"`
Packit	0d464f	`"vpunpckhdq %%xmm15, %%xmm14, %%xmm7 \n"`
Packit	0d464f
Packit	0d464f	`"vpunpcklqdq %%xmm1, %%xmm0, %%xmm8 \n"`
Packit	0d464f	`"vpunpckhqdq %%xmm1, %%xmm0, %%xmm9 \n"`
Packit	0d464f	`"vpunpcklqdq %%xmm3, %%xmm2, %%xmm10 \n"`
Packit	0d464f	`"vpunpckhqdq %%xmm3, %%xmm2, %%xmm11 \n"`
Packit	0d464f	`"vpunpcklqdq %%xmm4, %%xmm5, %%xmm12 \n"`
Packit	0d464f	`"vpunpckhqdq %%xmm5, %%xmm4, %%xmm13 \n"`
Packit	0d464f	`"vpunpcklqdq %%xmm7, %%xmm6, %%xmm14 \n"`
Packit	0d464f	`"vpunpckhqdq %%xmm7, %%xmm6, %%xmm15 \n"`
Packit	0d464f
Packit	0d464f	`/* Rotate the rows to get the correct final order.`
Packit	0d464f	`* Rotating xmm12 isn't needed, as we can handle`
Packit	0d464f	`* the rotation in the PUNPCKLQDQ above. Rotating`
Packit	0d464f	`* xmm8 isn't needed as it's already in the right order`
Packit	0d464f	`*/`
Packit	0d464f
Packit	0d464f	`"vpalignr $2, %%xmm9, %%xmm9, %%xmm9 \n"`
Packit	0d464f	`"vpalignr $4, %%xmm10, %%xmm10, %%xmm10 \n"`
Packit	0d464f	`"vpalignr $6, %%xmm11, %%xmm11, %%xmm11 \n"`
Packit	0d464f	`"vpalignr $10, %%xmm13, %%xmm13, %%xmm13 \n"`
Packit	0d464f	`"vpalignr $12, %%xmm14, %%xmm14, %%xmm14 \n"`
Packit	0d464f	`"vpalignr $14, %%xmm15, %%xmm15, %%xmm15 \n"`
Packit	0d464f
Packit	0d464f	`/* Convert from half -> float */`
Packit	0d464f
Packit	0d464f	`"vcvtph2ps %%xmm8, %%ymm8 \n"`
Packit	0d464f	`"vcvtph2ps %%xmm9, %%ymm9 \n"`
Packit	0d464f	`"vcvtph2ps %%xmm10, %%ymm10 \n"`
Packit	0d464f	`"vcvtph2ps %%xmm11, %%ymm11 \n"`
Packit	0d464f	`"vcvtph2ps %%xmm12, %%ymm12 \n"`
Packit	0d464f	`"vcvtph2ps %%xmm13, %%ymm13 \n"`
Packit	0d464f	`"vcvtph2ps %%xmm14, %%ymm14 \n"`
Packit	0d464f	`"vcvtph2ps %%xmm15, %%ymm15 \n"`
Packit	0d464f
Packit	0d464f	`/* Move float values to dst */`
Packit	0d464f
Packit	0d464f	`"vmovaps %%ymm8, (%1) \n"`
Packit	0d464f	`"vmovaps %%ymm9, 32(%1) \n"`
Packit	0d464f	`"vmovaps %%ymm10, 64(%1) \n"`
Packit	0d464f	`"vmovaps %%ymm11, 96(%1) \n"`
Packit	0d464f	`"vmovaps %%ymm12, 128(%1) \n"`
Packit	0d464f	`"vmovaps %%ymm13, 160(%1) \n"`
Packit	0d464f	`"vmovaps %%ymm14, 192(%1) \n"`
Packit	0d464f	`"vmovaps %%ymm15, 224(%1) \n"`
Packit	0d464f	`#ifndef __AVX__`
Packit	0d464f	`"vzeroupper \n"`
Packit	0d464f	`#endif /* __AVX__ */`
Packit	0d464f	`: /* Output */`
Packit	0d464f	`: /* Input */ "r"(src), "r"(dst)`
Packit	0d464f	`: /* Clobber */ "memory",`
Packit	0d464f	`#ifndef __AVX__`
Packit	0d464f	`"%xmm0", "%xmm1", "%xmm2", "%xmm3",`
Packit	0d464f	`"%xmm4", "%xmm5", "%xmm6", "%xmm7",`
Packit	0d464f	`"%xmm8", "%xmm9", "%xmm10", "%xmm11",`
Packit	0d464f	`"%xmm12", "%xmm13", "%xmm14", "%xmm15"`
Packit	0d464f	`#else`
Packit	0d464f	`"%ymm0", "%ymm1", "%ymm2", "%ymm3",`
Packit	0d464f	`"%ymm4", "%ymm5", "%ymm6", "%ymm7",`
Packit	0d464f	`"%ymm8", "%ymm9", "%ymm10", "%ymm11",`
Packit	0d464f	`"%ymm12", "%ymm13", "%ymm14", "%ymm15"`
Packit	0d464f	`#endif /* __AVX__ */`
Packit	0d464f	`);`
Packit	0d464f
Packit	0d464f	`#else`
Packit	0d464f	`fromHalfZigZag_scalar(src, dst);`
Packit	0d464f	`#endif /* defined IMF_HAVE_GCC_INLINEASM_64 */`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Inverse 8x8 DCT, only inverting the DC. This assumes that`
Packit	0d464f	`// all AC frequencies are 0.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`#ifndef IMF_HAVE_SSE2`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`dctInverse8x8DcOnly (float *data)`
Packit	0d464f	`{`
Packit	0d464f	`float val = data[0] * 3.535536e-01f * 3.535536e-01f;`
Packit	0d464f
Packit	0d464f	`for (int i = 0; i < 64; ++i)`
Packit	0d464f	`data[i] = val;`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`#else /* IMF_HAVE_SSE2 */`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`dctInverse8x8DcOnly (float *data)`
Packit	0d464f	`{`
Packit	0d464f	`__m128 src = _mm_set1_ps (data[0] * 3.535536e-01f * 3.535536e-01f);`
Packit	0d464f	`__m128 dst = (__m128 )data;`
Packit	0d464f
Packit	0d464f	`for (int i = 0; i < 16; ++i)`
Packit	0d464f	`dst[i] = src;`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`#endif /* IMF_HAVE_SSE2 */`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Full 8x8 Inverse DCT:`
Packit	0d464f	`//`
Packit	0d464f	`// Simple inverse DCT on an 8x8 block, with scalar ops only.`
Packit	0d464f	`// Operates on data in-place.`
Packit	0d464f	`//`
Packit	0d464f	`// This is based on the iDCT formuation (y = frequency domain,`
Packit	0d464f	`// x = spatial domain)`
Packit	0d464f	`//`
Packit	0d464f	`// [x0] [ ][y0] [ ][y1]`
Packit	0d464f	`// [x1] = [ M1 ][y2] + [ M2 ][y3]`
Packit	0d464f	`// [x2] [ ][y4] [ ][y5]`
Packit	0d464f	`// [x3] [ ][y6] [ ][y7]`
Packit	0d464f	`//`
Packit	0d464f	`// [x7] [ ][y0] [ ][y1]`
Packit	0d464f	`// [x6] = [ M1 ][y2] - [ M2 ][y3]`
Packit	0d464f	`// [x5] [ ][y4] [ ][y5]`
Packit	0d464f	`// [x4] [ ][y6] [ ][y7]`
Packit	0d464f	`//`
Packit	0d464f	`// where M1: M2:`
Packit	0d464f	`//`
Packit	0d464f	`// [a c a f] [b d e g]`
Packit	0d464f	`// [a f -a -c] [d -g -b -e]`
Packit	0d464f	`// [a -f -a c] [e -b g d]`
Packit	0d464f	`// [a -c a -f] [g -e d -b]`
Packit	0d464f	`//`
Packit	0d464f	`// and the constants are as defined below..`
Packit	0d464f	`//`
Packit	0d464f	`// If you know how many of the lower rows are zero, that can`
Packit	0d464f	`// be passed in to help speed things up. If you don't know,`
Packit	0d464f	`// just set zeroedRows=0.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Default implementation`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`template <int zeroedRows>`
Packit	0d464f	`void`
Packit	0d464f	`dctInverse8x8_scalar (float *data)`
Packit	0d464f	`{`
Packit	0d464f	`const float a = .5f * cosf (3.14159f / 4.0f);`
Packit	0d464f	`const float b = .5f * cosf (3.14159f / 16.0f);`
Packit	0d464f	`const float c = .5f * cosf (3.14159f / 8.0f);`
Packit	0d464f	`const float d = .5f * cosf (3.f*3.14159f / 16.0f);`
Packit	0d464f	`const float e = .5f * cosf (5.f*3.14159f / 16.0f);`
Packit	0d464f	`const float f = .5f * cosf (3.f*3.14159f / 8.0f);`
Packit	0d464f	`const float g = .5f * cosf (7.f*3.14159f / 16.0f);`
Packit	0d464f
Packit	0d464f	`float alpha[4], beta[4], theta[4], gamma[4];`
Packit	0d464f
Packit	0d464f	`float *rowPtr = NULL;`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// First pass - row wise.`
Packit	0d464f	`//`
Packit	0d464f	`// This looks less-compact than the description above in`
Packit	0d464f	`// an attempt to fold together common sub-expressions.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`for (int row = 0; row < 8 - zeroedRows; ++row)`
Packit	0d464f	`{`
Packit	0d464f	`rowPtr = data + row * 8;`
Packit	0d464f
Packit	0d464f	`alpha[0] = c * rowPtr[2];`
Packit	0d464f	`alpha[1] = f * rowPtr[2];`
Packit	0d464f	`alpha[2] = c * rowPtr[6];`
Packit	0d464f	`alpha[3] = f * rowPtr[6];`
Packit	0d464f
Packit	0d464f	`beta[0] = b * rowPtr[1] + d * rowPtr[3] + e * rowPtr[5] + g * rowPtr[7];`
Packit	0d464f	`beta[1] = d * rowPtr[1] - g * rowPtr[3] - b * rowPtr[5] - e * rowPtr[7];`
Packit	0d464f	`beta[2] = e * rowPtr[1] - b * rowPtr[3] + g * rowPtr[5] + d * rowPtr[7];`
Packit	0d464f	`beta[3] = g * rowPtr[1] - e * rowPtr[3] + d * rowPtr[5] - b * rowPtr[7];`
Packit	0d464f
Packit	0d464f	`theta[0] = a * (rowPtr[0] + rowPtr[4]);`
Packit	0d464f	`theta[3] = a * (rowPtr[0] - rowPtr[4]);`
Packit	0d464f
Packit	0d464f	`theta[1] = alpha[0] + alpha[3];`
Packit	0d464f	`theta[2] = alpha[1] - alpha[2];`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`gamma[0] = theta[0] + theta[1];`
Packit	0d464f	`gamma[1] = theta[3] + theta[2];`
Packit	0d464f	`gamma[2] = theta[3] - theta[2];`
Packit	0d464f	`gamma[3] = theta[0] - theta[1];`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`rowPtr[0] = gamma[0] + beta[0];`
Packit	0d464f	`rowPtr[1] = gamma[1] + beta[1];`
Packit	0d464f	`rowPtr[2] = gamma[2] + beta[2];`
Packit	0d464f	`rowPtr[3] = gamma[3] + beta[3];`
Packit	0d464f
Packit	0d464f	`rowPtr[4] = gamma[3] - beta[3];`
Packit	0d464f	`rowPtr[5] = gamma[2] - beta[2];`
Packit	0d464f	`rowPtr[6] = gamma[1] - beta[1];`
Packit	0d464f	`rowPtr[7] = gamma[0] - beta[0];`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Second pass - column wise.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`for (int column = 0; column < 8; ++column)`
Packit	0d464f	`{`
Packit	0d464f	`alpha[0] = c * data[16+column];`
Packit	0d464f	`alpha[1] = f * data[16+column];`
Packit	0d464f	`alpha[2] = c * data[48+column];`
Packit	0d464f	`alpha[3] = f * data[48+column];`
Packit	0d464f
Packit	0d464f	`beta[0] = b * data[8+column] + d * data[24+column] +`
Packit	0d464f	`e * data[40+column] + g * data[56+column];`
Packit	0d464f
Packit	0d464f	`beta[1] = d * data[8+column] - g * data[24+column] -`
Packit	0d464f	`b * data[40+column] - e * data[56+column];`
Packit	0d464f
Packit	0d464f	`beta[2] = e * data[8+column] - b * data[24+column] +`
Packit	0d464f	`g * data[40+column] + d * data[56+column];`
Packit	0d464f
Packit	0d464f	`beta[3] = g * data[8+column] - e * data[24+column] +`
Packit	0d464f	`d * data[40+column] - b * data[56+column];`
Packit	0d464f
Packit	0d464f	`theta[0] = a * (data[column] + data[32+column]);`
Packit	0d464f	`theta[3] = a * (data[column] - data[32+column]);`
Packit	0d464f
Packit	0d464f	`theta[1] = alpha[0] + alpha[3];`
Packit	0d464f	`theta[2] = alpha[1] - alpha[2];`
Packit	0d464f
Packit	0d464f	`gamma[0] = theta[0] + theta[1];`
Packit	0d464f	`gamma[1] = theta[3] + theta[2];`
Packit	0d464f	`gamma[2] = theta[3] - theta[2];`
Packit	0d464f	`gamma[3] = theta[0] - theta[1];`
Packit	0d464f
Packit	0d464f	`data[ column] = gamma[0] + beta[0];`
Packit	0d464f	`data[ 8 + column] = gamma[1] + beta[1];`
Packit	0d464f	`data[16 + column] = gamma[2] + beta[2];`
Packit	0d464f	`data[24 + column] = gamma[3] + beta[3];`
Packit	0d464f
Packit	0d464f	`data[32 + column] = gamma[3] - beta[3];`
Packit	0d464f	`data[40 + column] = gamma[2] - beta[2];`
Packit	0d464f	`data[48 + column] = gamma[1] - beta[1];`
Packit	0d464f	`data[56 + column] = gamma[0] - beta[0];`
Packit	0d464f	`}`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// SSE2 Implementation`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`template <int zeroedRows>`
Packit	0d464f	`void`
Packit	0d464f	`dctInverse8x8_sse2 (float *data)`
Packit	0d464f	`{`
Packit	0d464f	`#ifdef IMF_HAVE_SSE2`
Packit	0d464f	`__m128 a = {3.535536e-01f,3.535536e-01f,3.535536e-01f,3.535536e-01f};`
Packit	0d464f	`__m128 b = {4.903927e-01f,4.903927e-01f,4.903927e-01f,4.903927e-01f};`
Packit	0d464f	`__m128 c = {4.619398e-01f,4.619398e-01f,4.619398e-01f,4.619398e-01f};`
Packit	0d464f	`__m128 d = {4.157349e-01f,4.157349e-01f,4.157349e-01f,4.157349e-01f};`
Packit	0d464f	`__m128 e = {2.777855e-01f,2.777855e-01f,2.777855e-01f,2.777855e-01f};`
Packit	0d464f	`__m128 f = {1.913422e-01f,1.913422e-01f,1.913422e-01f,1.913422e-01f};`
Packit	0d464f	`__m128 g = {9.754573e-02f,9.754573e-02f,9.754573e-02f,9.754573e-02f};`
Packit	0d464f
Packit	0d464f	`__m128 c0 = {3.535536e-01f, 3.535536e-01f, 3.535536e-01f, 3.535536e-01f};`
Packit	0d464f	`__m128 c1 = {4.619398e-01f, 1.913422e-01f,-1.913422e-01f,-4.619398e-01f};`
Packit	0d464f	`__m128 c2 = {3.535536e-01f,-3.535536e-01f,-3.535536e-01f, 3.535536e-01f};`
Packit	0d464f	`__m128 c3 = {1.913422e-01f,-4.619398e-01f, 4.619398e-01f,-1.913422e-01f};`
Packit	0d464f
Packit	0d464f	`__m128 c4 = {4.903927e-01f, 4.157349e-01f, 2.777855e-01f, 9.754573e-02f};`
Packit	0d464f	`__m128 c5 = {4.157349e-01f,-9.754573e-02f,-4.903927e-01f,-2.777855e-01f};`
Packit	0d464f	`__m128 c6 = {2.777855e-01f,-4.903927e-01f, 9.754573e-02f, 4.157349e-01f};`
Packit	0d464f	`__m128 c7 = {9.754573e-02f,-2.777855e-01f, 4.157349e-01f,-4.903927e-01f};`
Packit	0d464f
Packit	0d464f	`__m128 srcVec = (__m128 )data;`
Packit	0d464f	`__m128 x[8], evenSum, oddSum;`
Packit	0d464f	`__m128 in[8], alpha[4], beta[4], theta[4], gamma[4];`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Rows -`
Packit	0d464f	`//`
Packit	0d464f	`// Treat this just like matrix-vector multiplication. The`
Packit	0d464f	`// trick is to note that:`
Packit	0d464f	`//`
Packit	0d464f	`// [M00 M01 M02 M03][v0] [(v0 M00) + (v1 M01) + (v2 M02) + (v3 M03)]`
Packit	0d464f	`// [M10 M11 M12 M13][v1] = [(v0 M10) + (v1 M11) + (v2 M12) + (v3 M13)]`
Packit	0d464f	`// [M20 M21 M22 M23][v2] [(v0 M20) + (v1 M21) + (v2 M22) + (v3 M23)]`
Packit	0d464f	`// [M30 M31 M32 M33][v3] [(v0 M30) + (v1 M31) + (v2 M32) + (v3 M33)]`
Packit	0d464f	`//`
Packit	0d464f	`// Then, we can fill a register with v_i and multiply by the i-th column`
Packit	0d464f	`// of M, accumulating across all i-s.`
Packit	0d464f	`//`
Packit	0d464f	`// The kids refer to the populating of a register with a single value`
Packit	0d464f	`// "broadcasting", and it can be done with a shuffle instruction. It`
Packit	0d464f	`// seems to be the slowest part of the whole ordeal.`
Packit	0d464f	`//`
Packit	0d464f	`// Our matrix columns are stored above in c0-c7. c0-3 make up M1, and`
Packit	0d464f	`// c4-7 are from M2.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`#define DCT_INVERSE_8x8_SS2_ROW_LOOP(i) \`
Packit	0d464f	`/* \`
Packit	0d464f	`* Broadcast the components of the row \`
Packit	0d464f	`*/ \`
Packit	0d464f	`\`
Packit	0d464f	`x[0] = _mm_shuffle_ps (srcVec[2 * i], \`
Packit	0d464f	`srcVec[2 * i], \`
Packit	0d464f	`_MM_SHUFFLE (0, 0, 0, 0)); \`
Packit	0d464f	`\`
Packit	0d464f	`x[1] = _mm_shuffle_ps (srcVec[2 * i], \`
Packit	0d464f	`srcVec[2 * i], \`
Packit	0d464f	`_MM_SHUFFLE (1, 1, 1, 1)); \`
Packit	0d464f	`\`
Packit	0d464f	`x[2] = _mm_shuffle_ps (srcVec[2 * i], \`
Packit	0d464f	`srcVec[2 * i], \`
Packit	0d464f	`_MM_SHUFFLE (2, 2, 2, 2)); \`
Packit	0d464f	`\`
Packit	0d464f	`x[3] = _mm_shuffle_ps (srcVec[2 * i], \`
Packit	0d464f	`srcVec[2 * i], \`
Packit	0d464f	`_MM_SHUFFLE (3, 3, 3, 3)); \`
Packit	0d464f	`\`
Packit	0d464f	`x[4] = _mm_shuffle_ps (srcVec[2 * i + 1], \`
Packit	0d464f	`srcVec[2 * i + 1], \`
Packit	0d464f	`_MM_SHUFFLE (0, 0, 0, 0)); \`
Packit	0d464f	`\`
Packit	0d464f	`x[5] = _mm_shuffle_ps (srcVec[2 * i + 1], \`
Packit	0d464f	`srcVec[2 * i + 1], \`
Packit	0d464f	`_MM_SHUFFLE (1, 1, 1, 1)); \`
Packit	0d464f	`\`
Packit	0d464f	`x[6] = _mm_shuffle_ps (srcVec[2 * i + 1], \`
Packit	0d464f	`srcVec[2 * i + 1], \`
Packit	0d464f	`_MM_SHUFFLE (2, 2, 2, 2)); \`
Packit	0d464f	`\`
Packit	0d464f	`x[7] = _mm_shuffle_ps (srcVec[2 * i + 1], \`
Packit	0d464f	`srcVec[2 * i + 1], \`
Packit	0d464f	`_MM_SHUFFLE (3, 3, 3, 3)); \`
Packit	0d464f	`/* \`
Packit	0d464f	`* Multiply the components by each column of the matrix \`
Packit	0d464f	`*/ \`
Packit	0d464f	`\`
Packit	0d464f	`x[0] = _mm_mul_ps (x[0], c0); \`
Packit	0d464f	`x[2] = _mm_mul_ps (x[2], c1); \`
Packit	0d464f	`x[4] = _mm_mul_ps (x[4], c2); \`
Packit	0d464f	`x[6] = _mm_mul_ps (x[6], c3); \`
Packit	0d464f	`\`
Packit	0d464f	`x[1] = _mm_mul_ps (x[1], c4); \`
Packit	0d464f	`x[3] = _mm_mul_ps (x[3], c5); \`
Packit	0d464f	`x[5] = _mm_mul_ps (x[5], c6); \`
Packit	0d464f	`x[7] = _mm_mul_ps (x[7], c7); \`
Packit	0d464f	`\`
Packit	0d464f	`/* \`
Packit	0d464f	`* Add across \`
Packit	0d464f	`*/ \`
Packit	0d464f	`\`
Packit	0d464f	`evenSum = _mm_setzero_ps(); \`
Packit	0d464f	`evenSum = _mm_add_ps (evenSum, x[0]); \`
Packit	0d464f	`evenSum = _mm_add_ps (evenSum, x[2]); \`
Packit	0d464f	`evenSum = _mm_add_ps (evenSum, x[4]); \`
Packit	0d464f	`evenSum = _mm_add_ps (evenSum, x[6]); \`
Packit	0d464f	`\`
Packit	0d464f	`oddSum = _mm_setzero_ps(); \`
Packit	0d464f	`oddSum = _mm_add_ps (oddSum, x[1]); \`
Packit	0d464f	`oddSum = _mm_add_ps (oddSum, x[3]); \`
Packit	0d464f	`oddSum = _mm_add_ps (oddSum, x[5]); \`
Packit	0d464f	`oddSum = _mm_add_ps (oddSum, x[7]); \`
Packit	0d464f	`\`
Packit	0d464f	`/* \`
Packit	0d464f	`* Final Sum: \`
Packit	0d464f	`* out [0, 1, 2, 3] = evenSum + oddSum \`
Packit	0d464f	`* out [7, 6, 5, 4] = evenSum - oddSum \`
Packit	0d464f	`*/ \`
Packit	0d464f	`\`
Packit	0d464f	`srcVec[2 * i] = _mm_add_ps (evenSum, oddSum); \`
Packit	0d464f	`srcVec[2 * i + 1] = _mm_sub_ps (evenSum, oddSum); \`
Packit	0d464f	`srcVec[2 * i + 1] = _mm_shuffle_ps (srcVec[2 * i + 1], \`
Packit	0d464f	`srcVec[2 * i + 1], \`
Packit	0d464f	`_MM_SHUFFLE (0, 1, 2, 3));`
Packit	0d464f
Packit	0d464f	`switch (zeroedRows)`
Packit	0d464f	`{`
Packit	0d464f	`case 0:`
Packit	0d464f	`default:`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (0)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (1)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (2)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (3)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (4)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (5)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (6)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (7)`
Packit	0d464f	`break;`
Packit	0d464f
Packit	0d464f	`case 1:`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (0)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (1)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (2)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (3)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (4)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (5)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (6)`
Packit	0d464f	`break;`
Packit	0d464f
Packit	0d464f	`case 2:`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (0)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (1)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (2)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (3)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (4)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (5)`
Packit	0d464f	`break;`
Packit	0d464f
Packit	0d464f	`case 3:`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (0)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (1)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (2)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (3)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (4)`
Packit	0d464f	`break;`
Packit	0d464f
Packit	0d464f	`case 4:`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (0)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (1)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (2)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (3)`
Packit	0d464f	`break;`
Packit	0d464f
Packit	0d464f	`case 5:`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (0)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (1)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (2)`
Packit	0d464f	`break;`
Packit	0d464f
Packit	0d464f	`case 6:`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (0)`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (1)`
Packit	0d464f	`break;`
Packit	0d464f
Packit	0d464f	`case 7:`
Packit	0d464f	`DCT_INVERSE_8x8_SS2_ROW_LOOP (0)`
Packit	0d464f	`break;`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Columns -`
Packit	0d464f	`//`
Packit	0d464f	`// This is slightly more straightforward, if less readable. Here`
Packit	0d464f	`// we just operate on 4 columns at a time, in two batches.`
Packit	0d464f	`//`
Packit	0d464f	`// The slight mess is to try and cache sub-expressions, which`
Packit	0d464f	`// we ignore in the row-wise pass.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`for (int col = 0; col < 2; ++col)`
Packit	0d464f	`{`
Packit	0d464f
Packit	0d464f	`for (int i = 0; i < 8; ++i)`
Packit	0d464f	`in[i] = srcVec[2 * i + col];`
Packit	0d464f
Packit	0d464f	`alpha[0] = _mm_mul_ps (c, in[2]);`
Packit	0d464f	`alpha[1] = _mm_mul_ps (f, in[2]);`
Packit	0d464f	`alpha[2] = _mm_mul_ps (c, in[6]);`
Packit	0d464f	`alpha[3] = _mm_mul_ps (f, in[6]);`
Packit	0d464f
Packit	0d464f	`beta[0] = _mm_add_ps (_mm_add_ps (_mm_mul_ps (in[1], b),`
Packit	0d464f	`_mm_mul_ps (in[3], d)),`
Packit	0d464f	`_mm_add_ps (_mm_mul_ps (in[5], e),`
Packit	0d464f	`_mm_mul_ps (in[7], g)));`
Packit	0d464f
Packit	0d464f	`beta[1] = _mm_sub_ps (_mm_sub_ps (_mm_mul_ps (in[1], d),`
Packit	0d464f	`_mm_mul_ps (in[3], g)),`
Packit	0d464f	`_mm_add_ps (_mm_mul_ps (in[5], b),`
Packit	0d464f	`_mm_mul_ps (in[7], e)));`
Packit	0d464f
Packit	0d464f	`beta[2] = _mm_add_ps (_mm_sub_ps (_mm_mul_ps (in[1], e),`
Packit	0d464f	`_mm_mul_ps (in[3], b)),`
Packit	0d464f	`_mm_add_ps (_mm_mul_ps (in[5], g),`
Packit	0d464f	`_mm_mul_ps (in[7], d)));`
Packit	0d464f
Packit	0d464f	`beta[3] = _mm_add_ps (_mm_sub_ps (_mm_mul_ps (in[1], g),`
Packit	0d464f	`_mm_mul_ps (in[3], e)),`
Packit	0d464f	`_mm_sub_ps (_mm_mul_ps (in[5], d),`
Packit	0d464f	`_mm_mul_ps (in[7], b)));`
Packit	0d464f
Packit	0d464f	`theta[0] = _mm_mul_ps (a, _mm_add_ps (in[0], in[4]));`
Packit	0d464f	`theta[3] = _mm_mul_ps (a, _mm_sub_ps (in[0], in[4]));`
Packit	0d464f
Packit	0d464f	`theta[1] = _mm_add_ps (alpha[0], alpha[3]);`
Packit	0d464f	`theta[2] = _mm_sub_ps (alpha[1], alpha[2]);`
Packit	0d464f
Packit	0d464f	`gamma[0] = _mm_add_ps (theta[0], theta[1]);`
Packit	0d464f	`gamma[1] = _mm_add_ps (theta[3], theta[2]);`
Packit	0d464f	`gamma[2] = _mm_sub_ps (theta[3], theta[2]);`
Packit	0d464f	`gamma[3] = _mm_sub_ps (theta[0], theta[1]);`
Packit	0d464f
Packit	0d464f	`srcVec[ col] = _mm_add_ps (gamma[0], beta[0]);`
Packit	0d464f	`srcVec[2+col] = _mm_add_ps (gamma[1], beta[1]);`
Packit	0d464f	`srcVec[4+col] = _mm_add_ps (gamma[2], beta[2]);`
Packit	0d464f	`srcVec[6+col] = _mm_add_ps (gamma[3], beta[3]);`
Packit	0d464f
Packit	0d464f	`srcVec[ 8+col] = _mm_sub_ps (gamma[3], beta[3]);`
Packit	0d464f	`srcVec[10+col] = _mm_sub_ps (gamma[2], beta[2]);`
Packit	0d464f	`srcVec[12+col] = _mm_sub_ps (gamma[1], beta[1]);`
Packit	0d464f	`srcVec[14+col] = _mm_sub_ps (gamma[0], beta[0]);`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`#else /* IMF_HAVE_SSE2 */`
Packit	0d464f
Packit	0d464f	`dctInverse8x8_scalar<zeroedRows> (data);`
Packit	0d464f
Packit	0d464f	`#endif /* IMF_HAVE_SSE2 */`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// AVX Implementation`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`#define STR(A) #A`
Packit	0d464f
Packit	0d464f	`#define IDCT_AVX_SETUP_2_ROWS(_DST0, _DST1, _TMP0, _TMP1, \`
Packit	0d464f	`_OFF00, _OFF01, _OFF10, _OFF11) \`
Packit	0d464f	`"vmovaps " STR(_OFF00) "(%0), %%xmm" STR(_TMP0) " \n" \`
Packit	0d464f	`"vmovaps " STR(_OFF01) "(%0), %%xmm" STR(_TMP1) " \n" \`
Packit	0d464f	`" \n" \`
Packit	0d464f	`"vinsertf128 $1, " STR(_OFF10) "(%0), %%ymm" STR(_TMP0) ", %%ymm" STR(_TMP0) " \n" \`
Packit	0d464f	`"vinsertf128 $1, " STR(_OFF11) "(%0), %%ymm" STR(_TMP1) ", %%ymm" STR(_TMP1) " \n" \`
Packit	0d464f	`" \n" \`
Packit	0d464f	`"vunpcklpd %%ymm" STR(_TMP1) ", %%ymm" STR(_TMP0) ", %%ymm" STR(_DST0) " \n" \`
Packit	0d464f	`"vunpckhpd %%ymm" STR(_TMP1) ", %%ymm" STR(_TMP0) ", %%ymm" STR(_DST1) " \n" \`
Packit	0d464f	`" \n" \`
Packit	0d464f	`"vunpcklps %%ymm" STR(_DST1) ", %%ymm" STR(_DST0) ", %%ymm" STR(_TMP0) " \n" \`
Packit	0d464f	`"vunpckhps %%ymm" STR(_DST1) ", %%ymm" STR(_DST0) ", %%ymm" STR(_TMP1) " \n" \`
Packit	0d464f	`" \n" \`
Packit	0d464f	`"vunpcklpd %%ymm" STR(_TMP1) ", %%ymm" STR(_TMP0) ", %%ymm" STR(_DST0) " \n" \`
Packit	0d464f	`"vunpckhpd %%ymm" STR(_TMP1) ", %%ymm" STR(_TMP0) ", %%ymm" STR(_DST1) " \n"`
Packit	0d464f
Packit	0d464f	`#define IDCT_AVX_MMULT_ROWS(_SRC) \`
Packit	0d464f	`/* Broadcast the source values into y12-y15 */ \`
Packit	0d464f	`"vpermilps $0x00, " STR(_SRC) ", %%ymm12 \n" \`
Packit	0d464f	`"vpermilps $0x55, " STR(_SRC) ", %%ymm13 \n" \`
Packit	0d464f	`"vpermilps $0xaa, " STR(_SRC) ", %%ymm14 \n" \`
Packit	0d464f	`"vpermilps $0xff, " STR(_SRC) ", %%ymm15 \n" \`
Packit	0d464f	`\`
Packit	0d464f	`/* Multiple coefs and the broadcasted values */ \`
Packit	0d464f	`"vmulps %%ymm12, %%ymm8, %%ymm12 \n" \`
Packit	0d464f	`"vmulps %%ymm13, %%ymm9, %%ymm13 \n" \`
Packit	0d464f	`"vmulps %%ymm14, %%ymm10, %%ymm14 \n" \`
Packit	0d464f	`"vmulps %%ymm15, %%ymm11, %%ymm15 \n" \`
Packit	0d464f	`\`
Packit	0d464f	`/* Accumulate the result back into the source */ \`
Packit	0d464f	`"vaddps %%ymm13, %%ymm12, %%ymm12 \n" \`
Packit	0d464f	`"vaddps %%ymm15, %%ymm14, %%ymm14 \n" \`
Packit	0d464f	`"vaddps %%ymm14, %%ymm12, " STR(_SRC) "\n"`
Packit	0d464f
Packit	0d464f	`#define IDCT_AVX_EO_TO_ROW_HALVES(_EVEN, _ODD, _FRONT, _BACK) \`
Packit	0d464f	`"vsubps " STR(_ODD) "," STR(_EVEN) "," STR(_BACK) "\n" \`
Packit	0d464f	`"vaddps " STR(_ODD) "," STR(_EVEN) "," STR(_FRONT) "\n" \`
Packit	0d464f	`/* Reverse the back half */ \`
Packit	0d464f	`"vpermilps $0x1b," STR(_BACK) "," STR(_BACK) "\n"`
Packit	0d464f
Packit	0d464f	`/* In order to allow for path paths when we know certain rows`
Packit	0d464f	`* of the 8x8 block are zero, most of the body of the DCT is`
Packit	0d464f	`* in the following macro. Statements are wrapped in a ROWn()`
Packit	0d464f	`* macro, where n is the lowest row in the 8x8 block in which`
Packit	0d464f	`* they depend.`
Packit	0d464f	`*`
Packit	0d464f	`* This should work for the cases where we have 2-8 full rows.`
Packit	0d464f	`* the 1-row case is special, and we'll handle it seperately.`
Packit	0d464f	`*/`
Packit	0d464f	`#define IDCT_AVX_BODY \`
Packit	0d464f	`/* ==============================================`
Packit	0d464f	`* Row 1D DCT`
Packit	0d464f	`* ----------------------------------------------`
Packit	0d464f	`*/ \`
Packit	0d464f	`\`
Packit	0d464f	`/* Setup for the row-oriented 1D DCT. Assuming that (%0) holds`
Packit	0d464f	`* the row-major 8x8 block, load ymm0-3 with the even columns`
Packit	0d464f	`* and ymm4-7 with the odd columns. The lower half of the ymm`
Packit	0d464f	`* holds one row, while the upper half holds the next row.`
Packit	0d464f	`*`
Packit	0d464f	`* If our source is:`
Packit	0d464f	`* a0 a1 a2 a3 a4 a5 a6 a7`
Packit	0d464f	`* b0 b1 b2 b3 b4 b5 b6 b7`
Packit	0d464f	`*`
Packit	0d464f	`* We'll be forming:`
Packit	0d464f	`* a0 a2 a4 a6 b0 b2 b4 b6`
Packit	0d464f	`* a1 a3 a5 a7 b1 b3 b5 b7`
Packit	0d464f	`*/ \`
Packit	0d464f	`ROW0( IDCT_AVX_SETUP_2_ROWS(0, 4, 14, 15, 0, 16, 32, 48) ) \`
Packit	0d464f	`ROW2( IDCT_AVX_SETUP_2_ROWS(1, 5, 12, 13, 64, 80, 96, 112) ) \`
Packit	0d464f	`ROW4( IDCT_AVX_SETUP_2_ROWS(2, 6, 10, 11, 128, 144, 160, 176) ) \`
Packit	0d464f	`ROW6( IDCT_AVX_SETUP_2_ROWS(3, 7, 8, 9, 192, 208, 224, 240) ) \`
Packit	0d464f	`\`
Packit	0d464f	`/* Multiple the even columns (ymm0-3) by the matrix M1`
Packit	0d464f	`* storing the results back in ymm0-3`
Packit	0d464f	`*`
Packit	0d464f	`* Assume that (%1) holds the matrix in column major order`
Packit	0d464f	`*/ \`
Packit	0d464f	`"vbroadcastf128 (%1), %%ymm8 \n" \`
Packit	0d464f	`"vbroadcastf128 16(%1), %%ymm9 \n" \`
Packit	0d464f	`"vbroadcastf128 32(%1), %%ymm10 \n" \`
Packit	0d464f	`"vbroadcastf128 48(%1), %%ymm11 \n" \`
Packit	0d464f	`\`
Packit	0d464f	`ROW0( IDCT_AVX_MMULT_ROWS(%%ymm0) ) \`
Packit	0d464f	`ROW2( IDCT_AVX_MMULT_ROWS(%%ymm1) ) \`
Packit	0d464f	`ROW4( IDCT_AVX_MMULT_ROWS(%%ymm2) ) \`
Packit	0d464f	`ROW6( IDCT_AVX_MMULT_ROWS(%%ymm3) ) \`
Packit	0d464f	`\`
Packit	0d464f	`/* Repeat, but with the odd columns (ymm4-7) and the`
Packit	0d464f	`* matrix M2`
Packit	0d464f	`*/ \`
Packit	0d464f	`"vbroadcastf128 64(%1), %%ymm8 \n" \`
Packit	0d464f	`"vbroadcastf128 80(%1), %%ymm9 \n" \`
Packit	0d464f	`"vbroadcastf128 96(%1), %%ymm10 \n" \`
Packit	0d464f	`"vbroadcastf128 112(%1), %%ymm11 \n" \`
Packit	0d464f	`\`
Packit	0d464f	`ROW0( IDCT_AVX_MMULT_ROWS(%%ymm4) ) \`
Packit	0d464f	`ROW2( IDCT_AVX_MMULT_ROWS(%%ymm5) ) \`
Packit	0d464f	`ROW4( IDCT_AVX_MMULT_ROWS(%%ymm6) ) \`
Packit	0d464f	`ROW6( IDCT_AVX_MMULT_ROWS(%%ymm7) ) \`
Packit	0d464f	`\`
Packit	0d464f	`/* Sum the M1 (ymm0-3) and M2 (ymm4-7) results to get the`
Packit	0d464f	`* front halves of the results, and difference to get the`
Packit	0d464f	`* back halves. The front halfs end up in ymm0-3, the back`
Packit	0d464f	`* halves end up in ymm12-15.`
Packit	0d464f	`*/ \`
Packit	0d464f	`ROW0( IDCT_AVX_EO_TO_ROW_HALVES(%%ymm0, %%ymm4, %%ymm0, %%ymm12) ) \`
Packit	0d464f	`ROW2( IDCT_AVX_EO_TO_ROW_HALVES(%%ymm1, %%ymm5, %%ymm1, %%ymm13) ) \`
Packit	0d464f	`ROW4( IDCT_AVX_EO_TO_ROW_HALVES(%%ymm2, %%ymm6, %%ymm2, %%ymm14) ) \`
Packit	0d464f	`ROW6( IDCT_AVX_EO_TO_ROW_HALVES(%%ymm3, %%ymm7, %%ymm3, %%ymm15) ) \`
Packit	0d464f	`\`
Packit	0d464f	`/* Reassemble the rows halves into ymm0-7 */ \`
Packit	0d464f	`ROW7( "vperm2f128 $0x13, %%ymm3, %%ymm15, %%ymm7 \n" ) \`
Packit	0d464f	`ROW6( "vperm2f128 $0x02, %%ymm3, %%ymm15, %%ymm6 \n" ) \`
Packit	0d464f	`ROW5( "vperm2f128 $0x13, %%ymm2, %%ymm14, %%ymm5 \n" ) \`
Packit	0d464f	`ROW4( "vperm2f128 $0x02, %%ymm2, %%ymm14, %%ymm4 \n" ) \`
Packit	0d464f	`ROW3( "vperm2f128 $0x13, %%ymm1, %%ymm13, %%ymm3 \n" ) \`
Packit	0d464f	`ROW2( "vperm2f128 $0x02, %%ymm1, %%ymm13, %%ymm2 \n" ) \`
Packit	0d464f	`ROW1( "vperm2f128 $0x13, %%ymm0, %%ymm12, %%ymm1 \n" ) \`
Packit	0d464f	`ROW0( "vperm2f128 $0x02, %%ymm0, %%ymm12, %%ymm0 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`\`
Packit	0d464f	`/* ==============================================`
Packit	0d464f	`* Column 1D DCT`
Packit	0d464f	`* ----------------------------------------------`
Packit	0d464f	`*/ \`
Packit	0d464f	`\`
Packit	0d464f	`/* Rows should be in ymm0-7, and M2 columns should still be`
Packit	0d464f	`* preserved in ymm8-11. M2 has 4 unique values (and +-`
Packit	0d464f	`* versions of each), and all (positive) values appear in`
Packit	0d464f	`* the first column (and row), which is in ymm8.`
Packit	0d464f	`*`
Packit	0d464f	`* For the column-wise DCT, we need to:`
Packit	0d464f	`* 1) Broadcast each element a row of M2 into 4 vectors`
Packit	0d464f	`* 2) Multiple the odd rows (ymm1,3,5,7) by the broadcasts.`
Packit	0d464f	`* 3) Accumulate into ymm12-15 for the odd outputs.`
Packit	0d464f	`*`
Packit	0d464f	`* Instead of doing 16 broadcasts for each element in M2,`
Packit	0d464f	`* do 4, filling y8-11 with:`
Packit	0d464f	`*`
Packit	0d464f	`* ymm8: [ b b b b \| b b b b ]`
Packit	0d464f	`* ymm9: [ d d d d \| d d d d ]`
Packit	0d464f	`* ymm10: [ e e e e \| e e e e ]`
Packit	0d464f	`* ymm11: [ g g g g \| g g g g ]`
Packit	0d464f	`*`
Packit	0d464f	`* And deal with the negative values by subtracting during accum.`
Packit	0d464f	`*/ \`
Packit	0d464f	`"vpermilps $0xff, %%ymm8, %%ymm11 \n" \`
Packit	0d464f	`"vpermilps $0xaa, %%ymm8, %%ymm10 \n" \`
Packit	0d464f	`"vpermilps $0x55, %%ymm8, %%ymm9 \n" \`
Packit	0d464f	`"vpermilps $0x00, %%ymm8, %%ymm8 \n" \`
Packit	0d464f	`\`
Packit	0d464f	`/* This one is easy, since we have ymm12-15 open for scratch`
Packit	0d464f	`* ymm12 = b ymm1 + d ymm3 + e ymm5 + g ymm7`
Packit	0d464f	`*/ \`
Packit	0d464f	`ROW1( "vmulps %%ymm1, %%ymm8, %%ymm12 \n" ) \`
Packit	0d464f	`ROW3( "vmulps %%ymm3, %%ymm9, %%ymm13 \n" ) \`
Packit	0d464f	`ROW5( "vmulps %%ymm5, %%ymm10, %%ymm14 \n" ) \`
Packit	0d464f	`ROW7( "vmulps %%ymm7, %%ymm11, %%ymm15 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`ROW3( "vaddps %%ymm12, %%ymm13, %%ymm12 \n" ) \`
Packit	0d464f	`ROW7( "vaddps %%ymm14, %%ymm15, %%ymm14 \n" ) \`
Packit	0d464f	`ROW5( "vaddps %%ymm12, %%ymm14, %%ymm12 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`/* Tricker, since only y13-15 are open for scratch`
Packit	0d464f	`* ymm13 = d ymm1 - g ymm3 - b ymm5 - e ymm7`
Packit	0d464f	`*/ \`
Packit	0d464f	`ROW1( "vmulps %%ymm1, %%ymm9, %%ymm13 \n" ) \`
Packit	0d464f	`ROW3( "vmulps %%ymm3, %%ymm11, %%ymm14 \n" ) \`
Packit	0d464f	`ROW5( "vmulps %%ymm5, %%ymm8, %%ymm15 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`ROW5( "vaddps %%ymm14, %%ymm15, %%ymm14 \n" ) \`
Packit	0d464f	`ROW3( "vsubps %%ymm14, %%ymm13, %%ymm13 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`ROW7( "vmulps %%ymm7, %%ymm10, %%ymm15 \n" ) \`
Packit	0d464f	`ROW7( "vsubps %%ymm15, %%ymm13, %%ymm13 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`/* Tricker still, as only y14-15 are open for scratch`
Packit	0d464f	`* ymm14 = e ymm1 - b ymm3 + g ymm5 + d ymm7`
Packit	0d464f	`*/ \`
Packit	0d464f	`ROW1( "vmulps %%ymm1, %%ymm10, %%ymm14 \n" ) \`
Packit	0d464f	`ROW3( "vmulps %%ymm3, %%ymm8, %%ymm15 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`ROW3( "vsubps %%ymm15, %%ymm14, %%ymm14 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`ROW5( "vmulps %%ymm5, %%ymm11, %%ymm15 \n" ) \`
Packit	0d464f	`ROW5( "vaddps %%ymm15, %%ymm14, %%ymm14 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`ROW7( "vmulps %%ymm7, %%ymm9, %%ymm15 \n" ) \`
Packit	0d464f	`ROW7( "vaddps %%ymm15, %%ymm14, %%ymm14 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`\`
Packit	0d464f	`/* Easy, as we can blow away ymm1,3,5,7 for scratch`
Packit	0d464f	`* ymm15 = g ymm1 - e ymm3 + d ymm5 - b ymm7`
Packit	0d464f	`*/ \`
Packit	0d464f	`ROW1( "vmulps %%ymm1, %%ymm11, %%ymm15 \n" ) \`
Packit	0d464f	`ROW3( "vmulps %%ymm3, %%ymm10, %%ymm3 \n" ) \`
Packit	0d464f	`ROW5( "vmulps %%ymm5, %%ymm9, %%ymm5 \n" ) \`
Packit	0d464f	`ROW7( "vmulps %%ymm7, %%ymm8, %%ymm7 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`ROW5( "vaddps %%ymm15, %%ymm5, %%ymm15 \n" ) \`
Packit	0d464f	`ROW7( "vaddps %%ymm3, %%ymm7, %%ymm3 \n" ) \`
Packit	0d464f	`ROW3( "vsubps %%ymm3, %%ymm15, %%ymm15 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`\`
Packit	0d464f	`/* Load coefs for M1. Because we're going to broadcast`
Packit	0d464f	`* coefs, we don't need to load the actual structure from`
Packit	0d464f	`* M1. Instead, just load enough that we can broadcast.`
Packit	0d464f	`* There are only 6 unique values in M1, but they're in +-`
Packit	0d464f	`* pairs, leaving only 3 unique coefs if we add and subtract`
Packit	0d464f	`* properly.`
Packit	0d464f	`*`
Packit	0d464f	`* Fill ymm1 with coef[2] = [ a a c f \| a a c f ]`
Packit	0d464f	`* Broadcast ymm5 with [ f f f f \| f f f f ]`
Packit	0d464f	`* Broadcast ymm3 with [ c c c c \| c c c c ]`
Packit	0d464f	`* Broadcast ymm1 with [ a a a a \| a a a a ]`
Packit	0d464f	`*/ \`
Packit	0d464f	`"vbroadcastf128 8(%1), %%ymm1 \n" \`
Packit	0d464f	`"vpermilps $0xff, %%ymm1, %%ymm5 \n" \`
Packit	0d464f	`"vpermilps $0xaa, %%ymm1, %%ymm3 \n" \`
Packit	0d464f	`"vpermilps $0x00, %%ymm1, %%ymm1 \n" \`
Packit	0d464f	`\`
Packit	0d464f	`/* If we expand E = [M1] [x0 x2 x4 x6]^t, we get the following`
Packit	0d464f	`* common expressions:`
Packit	0d464f	`*`
Packit	0d464f	`* E_0 = ymm8 = (a ymm0 + a ymm4) + (c ymm2 + f ymm6)`
Packit	0d464f	`* E_3 = ymm11 = (a ymm0 + a ymm4) - (c ymm2 + f ymm6)`
Packit	0d464f	`*`
Packit	0d464f	`* E_1 = ymm9 = (a ymm0 - a ymm4) + (f ymm2 - c ymm6)`
Packit	0d464f	`* E_2 = ymm10 = (a ymm0 - a ymm4) - (f ymm2 - c ymm6)`
Packit	0d464f	`*`
Packit	0d464f	`* Afterwards, ymm8-11 will hold the even outputs.`
Packit	0d464f	`*/ \`
Packit	0d464f	`\`
Packit	0d464f	`/* ymm11 = (a ymm0 + a ymm4), ymm1 = (a ymm0 - a ymm4) */ \`
Packit	0d464f	`ROW0( "vmulps %%ymm1, %%ymm0, %%ymm11 \n" ) \`
Packit	0d464f	`ROW4( "vmulps %%ymm1, %%ymm4, %%ymm4 \n" ) \`
Packit	0d464f	`ROW0( "vmovaps %%ymm11, %%ymm1 \n" ) \`
Packit	0d464f	`ROW4( "vaddps %%ymm4, %%ymm11, %%ymm11 \n" ) \`
Packit	0d464f	`ROW4( "vsubps %%ymm4, %%ymm1, %%ymm1 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`/* ymm7 = (c ymm2 + f ymm6) */ \`
Packit	0d464f	`ROW2( "vmulps %%ymm3, %%ymm2, %%ymm7 \n" ) \`
Packit	0d464f	`ROW6( "vmulps %%ymm5, %%ymm6, %%ymm9 \n" ) \`
Packit	0d464f	`ROW6( "vaddps %%ymm9, %%ymm7, %%ymm7 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`/* E_0 = ymm8 = (a ymm0 + a ymm4) + (c ymm2 + f ymm6)`
Packit	0d464f	`* E_3 = ymm11 = (a ymm0 + a ymm4) - (c ymm2 + f ymm6)`
Packit	0d464f	`*/ \`
Packit	0d464f	`ROW0( "vmovaps %%ymm11, %%ymm8 \n" ) \`
Packit	0d464f	`ROW2( "vaddps %%ymm7, %%ymm8, %%ymm8 \n" ) \`
Packit	0d464f	`ROW2( "vsubps %%ymm7, %%ymm11, %%ymm11 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`/* ymm7 = (f ymm2 - c ymm6) */ \`
Packit	0d464f	`ROW2( "vmulps %%ymm5, %%ymm2, %%ymm7 \n" ) \`
Packit	0d464f	`ROW6( "vmulps %%ymm3, %%ymm6, %%ymm9 \n" ) \`
Packit	0d464f	`ROW6( "vsubps %%ymm9, %%ymm7, %%ymm7 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`/* E_1 = ymm9 = (a ymm0 - a ymm4) + (f ymm2 - c ymm6)`
Packit	0d464f	`* E_2 = ymm10 = (a ymm0 - a ymm4) - (f ymm2 - c ymm6)`
Packit	0d464f	`*/ \`
Packit	0d464f	`ROW0( "vmovaps %%ymm1, %%ymm9 \n" ) \`
Packit	0d464f	`ROW0( "vmovaps %%ymm1, %%ymm10 \n" ) \`
Packit	0d464f	`ROW2( "vaddps %%ymm7, %%ymm1, %%ymm9 \n" ) \`
Packit	0d464f	`ROW2( "vsubps %%ymm7, %%ymm1, %%ymm10 \n" ) \`
Packit	0d464f	`\`
Packit	0d464f	`/* Add the even (ymm8-11) and the odds (ymm12-15),`
Packit	0d464f	`* placing the results into ymm0-7`
Packit	0d464f	`*/ \`
Packit	0d464f	`"vaddps %%ymm12, %%ymm8, %%ymm0 \n" \`
Packit	0d464f	`"vaddps %%ymm13, %%ymm9, %%ymm1 \n" \`
Packit	0d464f	`"vaddps %%ymm14, %%ymm10, %%ymm2 \n" \`
Packit	0d464f	`"vaddps %%ymm15, %%ymm11, %%ymm3 \n" \`
Packit	0d464f	`\`
Packit	0d464f	`"vsubps %%ymm12, %%ymm8, %%ymm7 \n" \`
Packit	0d464f	`"vsubps %%ymm13, %%ymm9, %%ymm6 \n" \`
Packit	0d464f	`"vsubps %%ymm14, %%ymm10, %%ymm5 \n" \`
Packit	0d464f	`"vsubps %%ymm15, %%ymm11, %%ymm4 \n" \`
Packit	0d464f	`\`
Packit	0d464f	`/* Copy out the results from ymm0-7 */ \`
Packit	0d464f	`"vmovaps %%ymm0, (%0) \n" \`
Packit	0d464f	`"vmovaps %%ymm1, 32(%0) \n" \`
Packit	0d464f	`"vmovaps %%ymm2, 64(%0) \n" \`
Packit	0d464f	`"vmovaps %%ymm3, 96(%0) \n" \`
Packit	0d464f	`"vmovaps %%ymm4, 128(%0) \n" \`
Packit	0d464f	`"vmovaps %%ymm5, 160(%0) \n" \`
Packit	0d464f	`"vmovaps %%ymm6, 192(%0) \n" \`
Packit	0d464f	`"vmovaps %%ymm7, 224(%0) \n"`
Packit	0d464f
Packit	0d464f	`/* Output, input, and clobber (OIC) sections of the inline asm */`
Packit	0d464f	`#define IDCT_AVX_OIC(_IN0) \`
Packit	0d464f	`: /* Output */ \`
Packit	0d464f	`: /* Input */ "r"(_IN0), "r"(sAvxCoef) \`
Packit	0d464f	`: /* Clobber */ "memory", \`
Packit	0d464f	`"%xmm0", "%xmm1", "%xmm2", "%xmm3", \`
Packit	0d464f	`"%xmm4", "%xmm5", "%xmm6", "%xmm7", \`
Packit	0d464f	`"%xmm8", "%xmm9", "%xmm10", "%xmm11",\`
Packit	0d464f	`"%xmm12", "%xmm13", "%xmm14", "%xmm15"`
Packit	0d464f
Packit	0d464f	`/* Include vzeroupper for non-AVX builds */`
Packit	0d464f	`#ifndef __AVX__`
Packit	0d464f	`#define IDCT_AVX_ASM(_IN0) \`
Packit	0d464f	`__asm__( \`
Packit	0d464f	`IDCT_AVX_BODY \`
Packit	0d464f	`"vzeroupper \n" \`
Packit	0d464f	`IDCT_AVX_OIC(_IN0) \`
Packit	0d464f	`);`
Packit	0d464f	`#else /* __AVX__ */`
Packit	0d464f	`#define IDCT_AVX_ASM(_IN0) \`
Packit	0d464f	`__asm__( \`
Packit	0d464f	`IDCT_AVX_BODY \`
Packit	0d464f	`IDCT_AVX_OIC(_IN0) \`
Packit	0d464f	`);`
Packit	0d464f	`#endif /* __AVX__ */`
Packit	0d464f
Packit	0d464f	`template <int zeroedRows>`
Packit	0d464f	`void`
Packit	0d464f	`dctInverse8x8_avx (float *data)`
Packit	0d464f	`{`
Packit	0d464f	`#if defined IMF_HAVE_GCC_INLINEASM_64`
Packit	0d464f
Packit	0d464f	`/* The column-major version of M1, followed by the`
Packit	0d464f	`* column-major version of M2:`
Packit	0d464f	`*`
Packit	0d464f	`* [ a c a f ] [ b d e g ]`
Packit	0d464f	`* M1 = [ a f -a -c ] M2 = [ d -g -b -e ]`
Packit	0d464f	`* [ a -f -a c ] [ e -b g d ]`
Packit	0d464f	`* [ a -c a -f ] [ g -e d -b ]`
Packit	0d464f	`*/`
Packit	0d464f	`const float sAvxCoef[32] __attribute__((aligned(32))) = {`
Packit	0d464f	`3.535536e-01, 3.535536e-01, 3.535536e-01, 3.535536e-01, /* a a a a */`
Packit	0d464f	`4.619398e-01, 1.913422e-01, -1.913422e-01, -4.619398e-01, /* c f -f -c */`
Packit	0d464f	`3.535536e-01, -3.535536e-01, -3.535536e-01, 3.535536e-01, /* a -a -a a */`
Packit	0d464f	`1.913422e-01, -4.619398e-01, 4.619398e-01, -1.913422e-01, /* f -c c -f */`
Packit	0d464f
Packit	0d464f	`4.903927e-01, 4.157349e-01, 2.777855e-01, 9.754573e-02, /* b d e g */`
Packit	0d464f	`4.157349e-01, -9.754573e-02, -4.903927e-01, -2.777855e-01, /* d -g -b -e */`
Packit	0d464f	`2.777855e-01, -4.903927e-01, 9.754573e-02, 4.157349e-01, /* e -b g d */`
Packit	0d464f	`9.754573e-02, -2.777855e-01, 4.157349e-01, -4.903927e-01 /* g -e d -b */`
Packit	0d464f	`};`
Packit	0d464f
Packit	0d464f	`#define ROW0(_X) _X`
Packit	0d464f	`#define ROW1(_X) _X`
Packit	0d464f	`#define ROW2(_X) _X`
Packit	0d464f	`#define ROW3(_X) _X`
Packit	0d464f	`#define ROW4(_X) _X`
Packit	0d464f	`#define ROW5(_X) _X`
Packit	0d464f	`#define ROW6(_X) _X`
Packit	0d464f	`#define ROW7(_X) _X`
Packit	0d464f
Packit	0d464f	`if (zeroedRows == 0) {`
Packit	0d464f
Packit	0d464f	`IDCT_AVX_ASM(data)`
Packit	0d464f
Packit	0d464f	`} else if (zeroedRows == 1) {`
Packit	0d464f
Packit	0d464f	`#undef ROW7`
Packit	0d464f	`#define ROW7(_X)`
Packit	0d464f	`IDCT_AVX_ASM(data)`
Packit	0d464f
Packit	0d464f	`} else if (zeroedRows == 2) {`
Packit	0d464f
Packit	0d464f	`#undef ROW6`
Packit	0d464f	`#define ROW6(_X)`
Packit	0d464f	`IDCT_AVX_ASM(data)`
Packit	0d464f
Packit	0d464f	`} else if (zeroedRows == 3) {`
Packit	0d464f
Packit	0d464f	`#undef ROW5`
Packit	0d464f	`#define ROW5(_X)`
Packit	0d464f	`IDCT_AVX_ASM(data)`
Packit	0d464f
Packit	0d464f	`} else if (zeroedRows == 4) {`
Packit	0d464f
Packit	0d464f	`#undef ROW4`
Packit	0d464f	`#define ROW4(_X)`
Packit	0d464f	`IDCT_AVX_ASM(data)`
Packit	0d464f
Packit	0d464f	`} else if (zeroedRows == 5) {`
Packit	0d464f
Packit	0d464f	`#undef ROW3`
Packit	0d464f	`#define ROW3(_X)`
Packit	0d464f	`IDCT_AVX_ASM(data)`
Packit	0d464f
Packit	0d464f	`} else if (zeroedRows == 6) {`
Packit	0d464f
Packit	0d464f	`#undef ROW2`
Packit	0d464f	`#define ROW2(_X)`
Packit	0d464f	`IDCT_AVX_ASM(data)`
Packit	0d464f
Packit	0d464f	`} else if (zeroedRows == 7) {`
Packit	0d464f
Packit	0d464f	`__asm__(`
Packit	0d464f
Packit	0d464f	`/* ==============================================`
Packit	0d464f	`* Row 1D DCT`
Packit	0d464f	`* ----------------------------------------------`
Packit	0d464f	`*/`
Packit	0d464f	`IDCT_AVX_SETUP_2_ROWS(0, 4, 14, 15, 0, 16, 32, 48)`
Packit	0d464f
Packit	0d464f	`"vbroadcastf128 (%1), %%ymm8 \n"`
Packit	0d464f	`"vbroadcastf128 16(%1), %%ymm9 \n"`
Packit	0d464f	`"vbroadcastf128 32(%1), %%ymm10 \n"`
Packit	0d464f	`"vbroadcastf128 48(%1), %%ymm11 \n"`
Packit	0d464f
Packit	0d464f	`/* Stash a vector of [a a a a \| a a a a] away in ymm2 */`
Packit	0d464f	`"vinsertf128 $1, %%xmm8, %%ymm8, %%ymm2 \n"`
Packit	0d464f
Packit	0d464f	`IDCT_AVX_MMULT_ROWS(%%ymm0)`
Packit	0d464f
Packit	0d464f	`"vbroadcastf128 64(%1), %%ymm8 \n"`
Packit	0d464f	`"vbroadcastf128 80(%1), %%ymm9 \n"`
Packit	0d464f	`"vbroadcastf128 96(%1), %%ymm10 \n"`
Packit	0d464f	`"vbroadcastf128 112(%1), %%ymm11 \n"`
Packit	0d464f
Packit	0d464f	`IDCT_AVX_MMULT_ROWS(%%ymm4)`
Packit	0d464f
Packit	0d464f	`IDCT_AVX_EO_TO_ROW_HALVES(%%ymm0, %%ymm4, %%ymm0, %%ymm12)`
Packit	0d464f
Packit	0d464f	`"vperm2f128 $0x02, %%ymm0, %%ymm12, %%ymm0 \n"`
Packit	0d464f
Packit	0d464f	`/* ==============================================`
Packit	0d464f	`* Column 1D DCT`
Packit	0d464f	`* ----------------------------------------------`
Packit	0d464f	`*/`
Packit	0d464f
Packit	0d464f	`/* DC only, so multiple by a and we're done */`
Packit	0d464f	`"vmulps %%ymm2, %%ymm0, %%ymm0 \n"`
Packit	0d464f
Packit	0d464f	`/* Copy out results */`
Packit	0d464f	`"vmovaps %%ymm0, (%0) \n"`
Packit	0d464f	`"vmovaps %%ymm0, 32(%0) \n"`
Packit	0d464f	`"vmovaps %%ymm0, 64(%0) \n"`
Packit	0d464f	`"vmovaps %%ymm0, 96(%0) \n"`
Packit	0d464f	`"vmovaps %%ymm0, 128(%0) \n"`
Packit	0d464f	`"vmovaps %%ymm0, 160(%0) \n"`
Packit	0d464f	`"vmovaps %%ymm0, 192(%0) \n"`
Packit	0d464f	`"vmovaps %%ymm0, 224(%0) \n"`
Packit	0d464f
Packit	0d464f	`#ifndef __AVX__`
Packit	0d464f	`"vzeroupper \n"`
Packit	0d464f	`#endif /* __AVX__ */`
Packit	0d464f	`IDCT_AVX_OIC(data)`
Packit	0d464f	`);`
Packit	0d464f	`} else {`
Packit	0d464f	`assert(false); // Invalid template instance parameter`
Packit	0d464f	`}`
Packit	0d464f	`#else /* IMF_HAVE_GCC_INLINEASM_64 */`
Packit	0d464f
Packit	0d464f	`dctInverse8x8_scalar<zeroedRows>(data);`
Packit	0d464f
Packit	0d464f	`#endif /* IMF_HAVE_GCC_INLINEASM_64 */`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Full 8x8 Forward DCT:`
Packit	0d464f	`//`
Packit	0d464f	`// Base forward 8x8 DCT implementation. Works on the data in-place`
Packit	0d464f	`//`
Packit	0d464f	`// The implementation describedin Pennebaker + Mitchell,`
Packit	0d464f	`// section 4.3.2, and illustrated in figure 4-7`
Packit	0d464f	`//`
Packit	0d464f	`// The basic idea is that the 1D DCT math reduces to:`
Packit	0d464f	`//`
Packit	0d464f	`// 2*out_0 = c_4 [(s_07 + s_34) + (s_12 + s_56)]`
Packit	0d464f	`// 2*out_4 = c_4 [(s_07 + s_34) - (s_12 + s_56)]`
Packit	0d464f	`//`
Packit	0d464f	`// {2out_2, 2out_6} = rot_6 ((d_12 - d_56), (s_07 - s_34))`
Packit	0d464f	`//`
Packit	0d464f	`// {2out_3, 2out_5} = rot_-3 (d_07 - c_4 (s_12 - s_56),`
Packit	0d464f	`// d_34 - c_4 (d_12 + d_56))`
Packit	0d464f	`//`
Packit	0d464f	`// {2out_1, 2out_7} = rot_-1 (d_07 + c_4 (s_12 - s_56),`
Packit	0d464f	`// -d_34 - c_4 (d_12 + d_56))`
Packit	0d464f	`//`
Packit	0d464f	`// where:`
Packit	0d464f	`//`
Packit	0d464f	`// c_i = cos(i*pi/16)`
Packit	0d464f	`// s_i = sin(i*pi/16)`
Packit	0d464f	`//`
Packit	0d464f	`// s_ij = in_i + in_j`
Packit	0d464f	`// d_ij = in_i - in_j`
Packit	0d464f	`//`
Packit	0d464f	`// rot_i(x, y) = {c_ix + s_iy, -s_ix + c_iy}`
Packit	0d464f	`//`
Packit	0d464f	`// We'll run the DCT in two passes. First, run the 1D DCT on`
Packit	0d464f	`// the rows, in-place. Then, run over the columns in-place,`
Packit	0d464f	`// and be done with it.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`#ifndef IMF_HAVE_SSE2`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Default implementation`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`dctForward8x8 (float *data)`
Packit	0d464f	`{`
Packit	0d464f	`float A0, A1, A2, A3, A4, A5, A6, A7;`
Packit	0d464f	`float K0, K1, rot_x, rot_y;`
Packit	0d464f
Packit	0d464f	`float *srcPtr = data;`
Packit	0d464f	`float *dstPtr = data;`
Packit	0d464f
Packit	0d464f	`const float c1 = cosf (3.14159f * 1.0f / 16.0f);`
Packit	0d464f	`const float c2 = cosf (3.14159f * 2.0f / 16.0f);`
Packit	0d464f	`const float c3 = cosf (3.14159f * 3.0f / 16.0f);`
Packit	0d464f	`const float c4 = cosf (3.14159f * 4.0f / 16.0f);`
Packit	0d464f	`const float c5 = cosf (3.14159f * 5.0f / 16.0f);`
Packit	0d464f	`const float c6 = cosf (3.14159f * 6.0f / 16.0f);`
Packit	0d464f	`const float c7 = cosf (3.14159f * 7.0f / 16.0f);`
Packit	0d464f
Packit	0d464f	`const float c1Half = .5f * c1;`
Packit	0d464f	`const float c2Half = .5f * c2;`
Packit	0d464f	`const float c3Half = .5f * c3;`
Packit	0d464f	`const float c5Half = .5f * c5;`
Packit	0d464f	`const float c6Half = .5f * c6;`
Packit	0d464f	`const float c7Half = .5f * c7;`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// First pass - do a 1D DCT over the rows and write the`
Packit	0d464f	`// results back in place`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`for (int row=0; row<8; ++row)`
Packit	0d464f	`{`
Packit	0d464f	`float srcRowPtr = srcPtr + 8 row;`
Packit	0d464f	`float dstRowPtr = dstPtr + 8 row;`
Packit	0d464f
Packit	0d464f	`A0 = srcRowPtr[0] + srcRowPtr[7];`
Packit	0d464f	`A1 = srcRowPtr[1] + srcRowPtr[2];`
Packit	0d464f	`A2 = srcRowPtr[1] - srcRowPtr[2];`
Packit	0d464f	`A3 = srcRowPtr[3] + srcRowPtr[4];`
Packit	0d464f	`A4 = srcRowPtr[3] - srcRowPtr[4];`
Packit	0d464f	`A5 = srcRowPtr[5] + srcRowPtr[6];`
Packit	0d464f	`A6 = srcRowPtr[5] - srcRowPtr[6];`
Packit	0d464f	`A7 = srcRowPtr[0] - srcRowPtr[7];`
Packit	0d464f
Packit	0d464f	`K0 = c4 * (A0 + A3);`
Packit	0d464f	`K1 = c4 * (A1 + A5);`
Packit	0d464f
Packit	0d464f	`dstRowPtr[0] = .5f * (K0 + K1);`
Packit	0d464f	`dstRowPtr[4] = .5f * (K0 - K1);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// (2dst2, 2dst6) = rot 6 (d12 - d56, s07 - s34)`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`rot_x = A2 - A6;`
Packit	0d464f	`rot_y = A0 - A3;`
Packit	0d464f
Packit	0d464f	`dstRowPtr[2] = c6Half * rot_x + c2Half * rot_y;`
Packit	0d464f	`dstRowPtr[6] = c6Half * rot_y - c2Half * rot_x;`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// K0, K1 are active until after dst[1],dst[7]`
Packit	0d464f	`// as well as dst[3], dst[5] are computed.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`K0 = c4 * (A1 - A5);`
Packit	0d464f	`K1 = -1 * c4 * (A2 + A6);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Two ways to do a rotation:`
Packit	0d464f	`//`
Packit	0d464f	`// rot i (x, y) =`
Packit	0d464f	`// X = c_ix + s_iy`
Packit	0d464f	`// Y = -s_ix + c_iy`
Packit	0d464f	`//`
Packit	0d464f	`// OR`
Packit	0d464f	`//`
Packit	0d464f	`// X = c_i(x+y) + (s_i-c_i)y`
Packit	0d464f	`// Y = c_iy - (s_i+c_i)x`
Packit	0d464f	`//`
Packit	0d464f	`// the first case has 4 multiplies, but fewer constants,`
Packit	0d464f	`// while the 2nd case has fewer multiplies but takes more space.`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// (2dst3, 2dst5) = rot -3 ( d07 - K0, d34 + K1 )`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`rot_x = A7 - K0;`
Packit	0d464f	`rot_y = A4 + K1;`
Packit	0d464f
Packit	0d464f	`dstRowPtr[3] = c3Half * rot_x - c5Half * rot_y;`
Packit	0d464f	`dstRowPtr[5] = c5Half * rot_x + c3Half * rot_y;`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// (2dst1, 2dst7) = rot -1 ( d07 + K0, K1 - d34 )`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`rot_x = A7 + K0;`
Packit	0d464f	`rot_y = K1 - A4;`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// A: 4, 7 are inactive. All A's are inactive`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`dstRowPtr[1] = c1Half * rot_x - c7Half * rot_y;`
Packit	0d464f	`dstRowPtr[7] = c7Half * rot_x + c1Half * rot_y;`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Second pass - do the same, but on the columns`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`for (int column = 0; column < 8; ++column)`
Packit	0d464f	`{`
Packit	0d464f
Packit	0d464f	`A0 = srcPtr[ column] + srcPtr[56 + column];`
Packit	0d464f	`A7 = srcPtr[ column] - srcPtr[56 + column];`
Packit	0d464f
Packit	0d464f	`A1 = srcPtr[ 8 + column] + srcPtr[16 + column];`
Packit	0d464f	`A2 = srcPtr[ 8 + column] - srcPtr[16 + column];`
Packit	0d464f
Packit	0d464f	`A3 = srcPtr[24 + column] + srcPtr[32 + column];`
Packit	0d464f	`A4 = srcPtr[24 + column] - srcPtr[32 + column];`
Packit	0d464f
Packit	0d464f	`A5 = srcPtr[40 + column] + srcPtr[48 + column];`
Packit	0d464f	`A6 = srcPtr[40 + column] - srcPtr[48 + column];`
Packit	0d464f
Packit	0d464f	`K0 = c4 * (A0 + A3);`
Packit	0d464f	`K1 = c4 * (A1 + A5);`
Packit	0d464f
Packit	0d464f	`dstPtr[ column] = .5f * (K0 + K1);`
Packit	0d464f	`dstPtr[32+column] = .5f * (K0 - K1);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// (2dst2, 2dst6) = rot 6 ( d12 - d56, s07 - s34 )`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`rot_x = A2 - A6;`
Packit	0d464f	`rot_y = A0 - A3;`
Packit	0d464f
Packit	0d464f	`dstPtr[16+column] = .5f * (c6 * rot_x + c2 * rot_y);`
Packit	0d464f	`dstPtr[48+column] = .5f * (c6 * rot_y - c2 * rot_x);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// K0, K1 are active until after dst[1],dst[7]`
Packit	0d464f	`// as well as dst[3], dst[5] are computed.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`K0 = c4 * (A1 - A5);`
Packit	0d464f	`K1 = -1 * c4 * (A2 + A6);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// (2dst3, 2dst5) = rot -3 ( d07 - K0, d34 + K1 )`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`rot_x = A7 - K0;`
Packit	0d464f	`rot_y = A4 + K1;`
Packit	0d464f
Packit	0d464f	`dstPtr[24+column] = .5f * (c3 * rot_x - c5 * rot_y);`
Packit	0d464f	`dstPtr[40+column] = .5f * (c5 * rot_x + c3 * rot_y);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// (2dst1, 2dst7) = rot -1 ( d07 + K0, K1 - d34 )`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`rot_x = A7 + K0;`
Packit	0d464f	`rot_y = K1 - A4;`
Packit	0d464f
Packit	0d464f	`dstPtr[ 8+column] = .5f * (c1 * rot_x - c7 * rot_y);`
Packit	0d464f	`dstPtr[56+column] = .5f * (c7 * rot_x + c1 * rot_y);`
Packit	0d464f	`}`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`#else /* IMF_HAVE_SSE2 */`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// SSE2 implementation`
Packit	0d464f	`//`
Packit	0d464f	`// Here, we're always doing a column-wise operation`
Packit	0d464f	`// plus transposes. This might be faster to do differently`
Packit	0d464f	`// between rows-wise and column-wise`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`void`
Packit	0d464f	`dctForward8x8 (float *data)`
Packit	0d464f	`{`
Packit	0d464f	`__m128 srcVec = (__m128 )data;`
Packit	0d464f	`__m128 a0Vec, a1Vec, a2Vec, a3Vec, a4Vec, a5Vec, a6Vec, a7Vec;`
Packit	0d464f	`__m128 k0Vec, k1Vec, rotXVec, rotYVec;`
Packit	0d464f	`__m128 transTmp[4], transTmp2[4];`
Packit	0d464f
Packit	0d464f	`__m128 c4Vec = { .70710678f, .70710678f, .70710678f, .70710678f};`
Packit	0d464f	`__m128 c4NegVec = {-.70710678f, -.70710678f, -.70710678f, -.70710678f};`
Packit	0d464f
Packit	0d464f	`__m128 c1HalfVec = {.490392640f, .490392640f, .490392640f, .490392640f};`
Packit	0d464f	`__m128 c2HalfVec = {.461939770f, .461939770f, .461939770f, .461939770f};`
Packit	0d464f	`__m128 c3HalfVec = {.415734810f, .415734810f, .415734810f, .415734810f};`
Packit	0d464f	`__m128 c5HalfVec = {.277785120f, .277785120f, .277785120f, .277785120f};`
Packit	0d464f	`__m128 c6HalfVec = {.191341720f, .191341720f, .191341720f, .191341720f};`
Packit	0d464f	`__m128 c7HalfVec = {.097545161f, .097545161f, .097545161f, .097545161f};`
Packit	0d464f
Packit	0d464f	`__m128 halfVec = {.5f, .5f, .5f, .5f};`
Packit	0d464f
Packit	0d464f	`for (int iter = 0; iter < 2; ++iter)`
Packit	0d464f	`{`
Packit	0d464f	`//`
Packit	0d464f	`// Operate on 4 columns at a time. The`
Packit	0d464f	`// offsets into our row-major array are:`
Packit	0d464f	`// 0: 0 1`
Packit	0d464f	`// 1: 2 3`
Packit	0d464f	`// 2: 4 5`
Packit	0d464f	`// 3: 6 7`
Packit	0d464f	`// 4: 8 9`
Packit	0d464f	`// 5: 10 11`
Packit	0d464f	`// 6: 12 13`
Packit	0d464f	`// 7: 14 15`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`for (int pass=0; pass<2; ++pass)`
Packit	0d464f	`{`
Packit	0d464f	`a0Vec = _mm_add_ps (srcVec[ 0 + pass], srcVec[14 + pass]);`
Packit	0d464f	`a1Vec = _mm_add_ps (srcVec[ 2 + pass], srcVec[ 4 + pass]);`
Packit	0d464f	`a3Vec = _mm_add_ps (srcVec[ 6 + pass], srcVec[ 8 + pass]);`
Packit	0d464f	`a5Vec = _mm_add_ps (srcVec[10 + pass], srcVec[12 + pass]);`
Packit	0d464f
Packit	0d464f	`a7Vec = _mm_sub_ps (srcVec[ 0 + pass], srcVec[14 + pass]);`
Packit	0d464f	`a2Vec = _mm_sub_ps (srcVec[ 2 + pass], srcVec[ 4 + pass]);`
Packit	0d464f	`a4Vec = _mm_sub_ps (srcVec[ 6 + pass], srcVec[ 8 + pass]);`
Packit	0d464f	`a6Vec = _mm_sub_ps (srcVec[10 + pass], srcVec[12 + pass]);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// First stage; Compute out_0 and out_4`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`k0Vec = _mm_add_ps (a0Vec, a3Vec);`
Packit	0d464f	`k1Vec = _mm_add_ps (a1Vec, a5Vec);`
Packit	0d464f
Packit	0d464f	`k0Vec = _mm_mul_ps (c4Vec, k0Vec);`
Packit	0d464f	`k1Vec = _mm_mul_ps (c4Vec, k1Vec);`
Packit	0d464f
Packit	0d464f	`srcVec[0 + pass] = _mm_add_ps (k0Vec, k1Vec);`
Packit	0d464f	`srcVec[8 + pass] = _mm_sub_ps (k0Vec, k1Vec);`
Packit	0d464f
Packit	0d464f	`srcVec[0 + pass] = _mm_mul_ps (srcVec[0 + pass], halfVec );`
Packit	0d464f	`srcVec[8 + pass] = _mm_mul_ps (srcVec[8 + pass], halfVec );`
Packit	0d464f
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Second stage; Compute out_2 and out_6`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`k0Vec = _mm_sub_ps (a2Vec, a6Vec);`
Packit	0d464f	`k1Vec = _mm_sub_ps (a0Vec, a3Vec);`
Packit	0d464f
Packit	0d464f	`srcVec[ 4 + pass] = _mm_add_ps (_mm_mul_ps (c6HalfVec, k0Vec),`
Packit	0d464f	`_mm_mul_ps (c2HalfVec, k1Vec));`
Packit	0d464f
Packit	0d464f	`srcVec[12 + pass] = _mm_sub_ps (_mm_mul_ps (c6HalfVec, k1Vec),`
Packit	0d464f	`_mm_mul_ps (c2HalfVec, k0Vec));`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Precompute K0 and K1 for the remaining stages`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`k0Vec = _mm_mul_ps (_mm_sub_ps (a1Vec, a5Vec), c4Vec);`
Packit	0d464f	`k1Vec = _mm_mul_ps (_mm_add_ps (a2Vec, a6Vec), c4NegVec);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Third Stage, compute out_3 and out_5`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`rotXVec = _mm_sub_ps (a7Vec, k0Vec);`
Packit	0d464f	`rotYVec = _mm_add_ps (a4Vec, k1Vec);`
Packit	0d464f
Packit	0d464f	`srcVec[ 6 + pass] = _mm_sub_ps (_mm_mul_ps (c3HalfVec, rotXVec),`
Packit	0d464f	`_mm_mul_ps (c5HalfVec, rotYVec));`
Packit	0d464f
Packit	0d464f	`srcVec[10 + pass] = _mm_add_ps (_mm_mul_ps (c5HalfVec, rotXVec),`
Packit	0d464f	`_mm_mul_ps (c3HalfVec, rotYVec));`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Fourth Stage, compute out_1 and out_7`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`rotXVec = _mm_add_ps (a7Vec, k0Vec);`
Packit	0d464f	`rotYVec = _mm_sub_ps (k1Vec, a4Vec);`
Packit	0d464f
Packit	0d464f	`srcVec[ 2 + pass] = _mm_sub_ps (_mm_mul_ps (c1HalfVec, rotXVec),`
Packit	0d464f	`_mm_mul_ps (c7HalfVec, rotYVec));`
Packit	0d464f
Packit	0d464f	`srcVec[14 + pass] = _mm_add_ps (_mm_mul_ps (c7HalfVec, rotXVec),`
Packit	0d464f	`_mm_mul_ps (c1HalfVec, rotYVec));`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Transpose the matrix, in 4x4 blocks. So, if we have our`
Packit	0d464f	`// 8x8 matrix divied into 4x4 blocks:`
Packit	0d464f	`//`
Packit	0d464f	`// M0 \| M1 M0t \| M2t`
Packit	0d464f	`// ----+--- --> -----+------`
Packit	0d464f	`// M2 \| M3 M1t \| M3t`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// M0t, done in place, the first half.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`transTmp[0] = _mm_shuffle_ps (srcVec[0], srcVec[2], 0x44);`
Packit	0d464f	`transTmp[1] = _mm_shuffle_ps (srcVec[4], srcVec[6], 0x44);`
Packit	0d464f	`transTmp[3] = _mm_shuffle_ps (srcVec[4], srcVec[6], 0xEE);`
Packit	0d464f	`transTmp[2] = _mm_shuffle_ps (srcVec[0], srcVec[2], 0xEE);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// M3t, also done in place, the first half.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`transTmp2[0] = _mm_shuffle_ps (srcVec[ 9], srcVec[11], 0x44);`
Packit	0d464f	`transTmp2[1] = _mm_shuffle_ps (srcVec[13], srcVec[15], 0x44);`
Packit	0d464f	`transTmp2[2] = _mm_shuffle_ps (srcVec[ 9], srcVec[11], 0xEE);`
Packit	0d464f	`transTmp2[3] = _mm_shuffle_ps (srcVec[13], srcVec[15], 0xEE);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// M0t, the second half.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`srcVec[0] = _mm_shuffle_ps (transTmp[0], transTmp[1], 0x88);`
Packit	0d464f	`srcVec[4] = _mm_shuffle_ps (transTmp[2], transTmp[3], 0x88);`
Packit	0d464f	`srcVec[2] = _mm_shuffle_ps (transTmp[0], transTmp[1], 0xDD);`
Packit	0d464f	`srcVec[6] = _mm_shuffle_ps (transTmp[2], transTmp[3], 0xDD);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// M3t, the second half.`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`srcVec[ 9] = _mm_shuffle_ps (transTmp2[0], transTmp2[1], 0x88);`
Packit	0d464f	`srcVec[13] = _mm_shuffle_ps (transTmp2[2], transTmp2[3], 0x88);`
Packit	0d464f	`srcVec[11] = _mm_shuffle_ps (transTmp2[0], transTmp2[1], 0xDD);`
Packit	0d464f	`srcVec[15] = _mm_shuffle_ps (transTmp2[2], transTmp2[3], 0xDD);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// M1 and M2 need to be done at the same time, because we're`
Packit	0d464f	`// swapping.`
Packit	0d464f	`//`
Packit	0d464f	`// First, the first half of M1t`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`transTmp[0] = _mm_shuffle_ps (srcVec[1], srcVec[3], 0x44);`
Packit	0d464f	`transTmp[1] = _mm_shuffle_ps (srcVec[5], srcVec[7], 0x44);`
Packit	0d464f	`transTmp[2] = _mm_shuffle_ps (srcVec[1], srcVec[3], 0xEE);`
Packit	0d464f	`transTmp[3] = _mm_shuffle_ps (srcVec[5], srcVec[7], 0xEE);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// And the first half of M2t`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`transTmp2[0] = _mm_shuffle_ps (srcVec[ 8], srcVec[10], 0x44);`
Packit	0d464f	`transTmp2[1] = _mm_shuffle_ps (srcVec[12], srcVec[14], 0x44);`
Packit	0d464f	`transTmp2[2] = _mm_shuffle_ps (srcVec[ 8], srcVec[10], 0xEE);`
Packit	0d464f	`transTmp2[3] = _mm_shuffle_ps (srcVec[12], srcVec[14], 0xEE);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Second half of M1t`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`srcVec[ 8] = _mm_shuffle_ps (transTmp[0], transTmp[1], 0x88);`
Packit	0d464f	`srcVec[12] = _mm_shuffle_ps (transTmp[2], transTmp[3], 0x88);`
Packit	0d464f	`srcVec[10] = _mm_shuffle_ps (transTmp[0], transTmp[1], 0xDD);`
Packit	0d464f	`srcVec[14] = _mm_shuffle_ps (transTmp[2], transTmp[3], 0xDD);`
Packit	0d464f
Packit	0d464f	`//`
Packit	0d464f	`// Second half of M2`
Packit	0d464f	`//`
Packit	0d464f
Packit	0d464f	`srcVec[1] = _mm_shuffle_ps (transTmp2[0], transTmp2[1], 0x88);`
Packit	0d464f	`srcVec[5] = _mm_shuffle_ps (transTmp2[2], transTmp2[3], 0x88);`
Packit	0d464f	`srcVec[3] = _mm_shuffle_ps (transTmp2[0], transTmp2[1], 0xDD);`
Packit	0d464f	`srcVec[7] = _mm_shuffle_ps (transTmp2[2], transTmp2[3], 0xDD);`
Packit	0d464f	`}`
Packit	0d464f	`}`
Packit	0d464f
Packit	0d464f	`#endif /* IMF_HAVE_SSE2 */`
Packit	0d464f
Packit	0d464f	`} // anonymous namespace`
Packit	0d464f
Packit	0d464f	`OPENEXR_IMF_INTERNAL_NAMESPACE_HEADER_EXIT`
Packit	0d464f
Packit	0d464f	`#endif`

source-git / OpenEXR

Source Code

Blame IlmImf/ImfDwaCompressorSimd.h