mirror of
https://chromium.googlesource.com/libyuv/libyuv
synced 2026-02-09 11:16:43 +08:00
Port YUY2ToUV, YUY2ToUV422, UYVYToUV and UYVYToUV422 to AVX2 on GCC/Nacl.
BUG=269 TESTED=ncval R=harryjin@google.com Review URL: https://webrtc-codereview.appspot.com/26029004 git-svn-id: http://libyuv.googlecode.com/svn/trunk@1152 16f28f9a-4ce2-e073-06de-1de4eb20be90
This commit is contained in:
parent
067892c5a1
commit
3f87404769
@ -1,6 +1,6 @@
|
|||||||
Name: libyuv
|
Name: libyuv
|
||||||
URL: http://code.google.com/p/libyuv/
|
URL: http://code.google.com/p/libyuv/
|
||||||
Version: 1149
|
Version: 1152
|
||||||
License: BSD
|
License: BSD
|
||||||
License File: LICENSE
|
License File: LICENSE
|
||||||
|
|
||||||
|
|||||||
@ -192,6 +192,12 @@ extern "C" {
|
|||||||
#define HAS_ARGBCOPYALPHAROW_AVX2
|
#define HAS_ARGBCOPYALPHAROW_AVX2
|
||||||
#define HAS_ARGBCOPYYTOALPHAROW_AVX2
|
#define HAS_ARGBCOPYYTOALPHAROW_AVX2
|
||||||
#define HAS_I422TOBGRAROW_AVX2
|
#define HAS_I422TOBGRAROW_AVX2
|
||||||
|
#define HAS_YUY2TOYROW_AVX2
|
||||||
|
#define HAS_YUY2TOUV422ROW_AVX2
|
||||||
|
#define HAS_YUY2TOUVROW_AVX2
|
||||||
|
#define HAS_UYVYTOYROW_AVX2
|
||||||
|
#define HAS_UYVYTOUV422ROW_AVX2
|
||||||
|
#define HAS_UYVYTOUVROW_AVX2
|
||||||
#endif
|
#endif
|
||||||
|
|
||||||
// The following are require VS2012.
|
// The following are require VS2012.
|
||||||
@ -207,12 +213,6 @@ extern "C" {
|
|||||||
#define HAS_MERGEUVROW_AVX2
|
#define HAS_MERGEUVROW_AVX2
|
||||||
#define HAS_MIRRORROW_AVX2
|
#define HAS_MIRRORROW_AVX2
|
||||||
#define HAS_SPLITUVROW_AVX2
|
#define HAS_SPLITUVROW_AVX2
|
||||||
#define HAS_UYVYTOUV422ROW_AVX2
|
|
||||||
#define HAS_UYVYTOUVROW_AVX2
|
|
||||||
#define HAS_UYVYTOYROW_AVX2
|
|
||||||
#define HAS_YUY2TOUV422ROW_AVX2
|
|
||||||
#define HAS_YUY2TOUVROW_AVX2
|
|
||||||
#define HAS_YUY2TOYROW_AVX2
|
|
||||||
|
|
||||||
// Effects:
|
// Effects:
|
||||||
#define HAS_ARGBADDROW_AVX2
|
#define HAS_ARGBADDROW_AVX2
|
||||||
@ -531,6 +531,11 @@ typedef uint8 ulvec8[32];
|
|||||||
"lea " #offset "(%q" #base ",%q" #index "," #scale "),%%r14d\n" \
|
"lea " #offset "(%q" #base ",%q" #index "," #scale "),%%r14d\n" \
|
||||||
#opcode " (%%r15,%%r14),%" #arg "\n" \
|
#opcode " (%%r15,%%r14),%" #arg "\n" \
|
||||||
BUNDLEUNLOCK
|
BUNDLEUNLOCK
|
||||||
|
#define VMEMOPREG(opcode, offset, base, index, scale, reg1, reg2) \
|
||||||
|
BUNDLELOCK \
|
||||||
|
"lea " #offset "(%q" #base ",%q" #index "," #scale "),%%r14d\n" \
|
||||||
|
#opcode " (%%r15,%%r14),%%" #reg1 ",%%" #reg2 "\n" \
|
||||||
|
BUNDLEUNLOCK
|
||||||
#else // defined(__native_client__) && defined(__x86_64__)
|
#else // defined(__native_client__) && defined(__x86_64__)
|
||||||
#define BUNDLEALIGN "\n"
|
#define BUNDLEALIGN "\n"
|
||||||
#define MEMACCESS(base) "(%" #base ")"
|
#define MEMACCESS(base) "(%" #base ")"
|
||||||
@ -548,6 +553,9 @@ typedef uint8 ulvec8[32];
|
|||||||
#opcode " %%" #reg ","#offset "(%" #base ",%" #index "," #scale ")\n"
|
#opcode " %%" #reg ","#offset "(%" #base ",%" #index "," #scale ")\n"
|
||||||
#define MEMOPARG(opcode, offset, base, index, scale, arg) \
|
#define MEMOPARG(opcode, offset, base, index, scale, arg) \
|
||||||
#opcode " " #offset "(%" #base ",%" #index "," #scale "),%" #arg "\n"
|
#opcode " " #offset "(%" #base ",%" #index "," #scale "),%" #arg "\n"
|
||||||
|
#define VMEMOPREG(opcode, offset, base, index, scale, reg1, reg2) \
|
||||||
|
#opcode " " #offset "(%" #base ",%" #index "," #scale "),%%" #reg1 ",%%" \
|
||||||
|
#reg2 "\n"
|
||||||
#endif // defined(__native_client__) && defined(__x86_64__)
|
#endif // defined(__native_client__) && defined(__x86_64__)
|
||||||
|
|
||||||
#if defined(__arm__) || defined(__aarch64__)
|
#if defined(__arm__) || defined(__aarch64__)
|
||||||
|
|||||||
@ -11,6 +11,6 @@
|
|||||||
#ifndef INCLUDE_LIBYUV_VERSION_H_ // NOLINT
|
#ifndef INCLUDE_LIBYUV_VERSION_H_ // NOLINT
|
||||||
#define INCLUDE_LIBYUV_VERSION_H_
|
#define INCLUDE_LIBYUV_VERSION_H_
|
||||||
|
|
||||||
#define LIBYUV_VERSION 1149
|
#define LIBYUV_VERSION 1152
|
||||||
|
|
||||||
#endif // INCLUDE_LIBYUV_VERSION_H_ NOLINT
|
#endif // INCLUDE_LIBYUV_VERSION_H_ NOLINT
|
||||||
|
|||||||
@ -2882,6 +2882,93 @@ void YUY2ToYRow_AVX2(const uint8* src_yuy2, uint8* dst_y, int pix) {
|
|||||||
);
|
);
|
||||||
}
|
}
|
||||||
|
|
||||||
|
|
||||||
|
void YUY2ToUVRow_AVX2(const uint8* src_yuy2, int stride_yuy2,
|
||||||
|
uint8* dst_u, uint8* dst_v, int pix) {
|
||||||
|
asm volatile (
|
||||||
|
"vpcmpeqb %%ymm5,%%ymm5,%%ymm5 \n"
|
||||||
|
"vpsrlw $0x8,%%ymm5,%%ymm5 \n"
|
||||||
|
"sub %1,%2 \n"
|
||||||
|
LABELALIGN
|
||||||
|
"1: \n"
|
||||||
|
"vmovdqu " MEMACCESS(0) ",%%ymm0 \n"
|
||||||
|
"vmovdqu " MEMACCESS2(0x20,0) ",%%ymm1 \n"
|
||||||
|
VMEMOPREG(vpavgb,0x00,0,4,1,ymm0,ymm0) // vpavgb (%0,%4,1),%%ymm0,%%ymm0
|
||||||
|
VMEMOPREG(vpavgb,0x20,0,4,1,ymm1,ymm1)
|
||||||
|
"lea " MEMACCESS2(0x40,0) ",%0 \n"
|
||||||
|
"vpsrlw $0x8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpsrlw $0x8,%%ymm1,%%ymm1 \n"
|
||||||
|
"vpackuswb %%ymm1,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpermq $0xd8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpand %%ymm5,%%ymm0,%%ymm1 \n"
|
||||||
|
"vpsrlw $0x8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpackuswb %%ymm1,%%ymm1,%%ymm1 \n"
|
||||||
|
"vpackuswb %%ymm0,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpermq $0xd8,%%ymm1,%%ymm1 \n"
|
||||||
|
"vpermq $0xd8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vextractf128 $0x0,%%ymm1," MEMACCESS(1) " \n"
|
||||||
|
MEMOPMEM(vextractf128,ymm0,0x00,1,2,1) // vextractf128 $0x0,%%ymm0,(%1,%2,1)
|
||||||
|
"lea 0x10" MEMACCESS(1) ",%1 \n"
|
||||||
|
"sub $0x20,%3 \n"
|
||||||
|
"jg 1b \n"
|
||||||
|
"vzeroupper \n"
|
||||||
|
: "+r"(src_yuy2), // %0
|
||||||
|
"+r"(dst_u), // %1
|
||||||
|
"+r"(dst_v), // %2
|
||||||
|
"+r"(pix) // %3
|
||||||
|
: "r"((intptr_t)(stride_yuy2)) // %4
|
||||||
|
: "memory", "cc"
|
||||||
|
#if defined(__native_client__) && defined(__x86_64__)
|
||||||
|
, "r14"
|
||||||
|
#endif
|
||||||
|
#if defined(__SSE2__)
|
||||||
|
, "xmm0", "xmm1", "xmm5"
|
||||||
|
#endif
|
||||||
|
);
|
||||||
|
}
|
||||||
|
|
||||||
|
void YUY2ToUV422Row_AVX2(const uint8* src_yuy2,
|
||||||
|
uint8* dst_u, uint8* dst_v, int pix) {
|
||||||
|
asm volatile (
|
||||||
|
"vpcmpeqb %%ymm5,%%ymm5,%%ymm5 \n"
|
||||||
|
"vpsrlw $0x8,%%ymm5,%%ymm5 \n"
|
||||||
|
"sub %1,%2 \n"
|
||||||
|
LABELALIGN
|
||||||
|
"1: \n"
|
||||||
|
"vmovdqu " MEMACCESS(0) ",%%ymm0 \n"
|
||||||
|
"vmovdqu " MEMACCESS2(0x20,0) ",%%ymm1 \n"
|
||||||
|
"lea " MEMLEA(0x40,0) ",%0 \n"
|
||||||
|
"vpsrlw $0x8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpsrlw $0x8,%%ymm1,%%ymm1 \n"
|
||||||
|
"vpackuswb %%ymm1,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpermq $0xd8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpand %%ymm5,%%ymm0,%%ymm1 \n"
|
||||||
|
"vpsrlw $0x8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpackuswb %%ymm1,%%ymm1,%%ymm1 \n"
|
||||||
|
"vpackuswb %%ymm0,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpermq $0xd8,%%ymm1,%%ymm1 \n"
|
||||||
|
"vpermq $0xd8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vextractf128 $0x0,%%ymm1," MEMACCESS(1) " \n"
|
||||||
|
MEMOPMEM(vextractf128,ymm0,0x00,1,2,1) // vextractf128 $0x0,%%ymm0,(%1,%2,1)
|
||||||
|
"lea 0x10" MEMACCESS(1) ",%1 \n"
|
||||||
|
"sub $0x20,%3 \n"
|
||||||
|
"jg 1b \n"
|
||||||
|
"vzeroupper \n"
|
||||||
|
: "+r"(src_yuy2), // %0
|
||||||
|
"+r"(dst_u), // %1
|
||||||
|
"+r"(dst_v), // %2
|
||||||
|
"+r"(pix) // %3
|
||||||
|
:
|
||||||
|
: "memory", "cc"
|
||||||
|
#if defined(__native_client__) && defined(__x86_64__)
|
||||||
|
, "r14"
|
||||||
|
#endif
|
||||||
|
#if defined(__SSE2__)
|
||||||
|
, "xmm0", "xmm1", "xmm5"
|
||||||
|
#endif
|
||||||
|
);
|
||||||
|
}
|
||||||
|
|
||||||
void UYVYToYRow_AVX2(const uint8* src_uyvy, uint8* dst_y, int pix) {
|
void UYVYToYRow_AVX2(const uint8* src_uyvy, uint8* dst_y, int pix) {
|
||||||
asm volatile (
|
asm volatile (
|
||||||
LABELALIGN
|
LABELALIGN
|
||||||
@ -2898,7 +2985,6 @@ void UYVYToYRow_AVX2(const uint8* src_uyvy, uint8* dst_y, int pix) {
|
|||||||
"lea " MEMLEA(0x20,1) ",%1 \n"
|
"lea " MEMLEA(0x20,1) ",%1 \n"
|
||||||
"jg 1b \n"
|
"jg 1b \n"
|
||||||
"vzeroupper \n"
|
"vzeroupper \n"
|
||||||
"ret \n"
|
|
||||||
: "+r"(src_uyvy), // %0
|
: "+r"(src_uyvy), // %0
|
||||||
"+r"(dst_y), // %1
|
"+r"(dst_y), // %1
|
||||||
"+r"(pix) // %2
|
"+r"(pix) // %2
|
||||||
@ -2909,6 +2995,92 @@ void UYVYToYRow_AVX2(const uint8* src_uyvy, uint8* dst_y, int pix) {
|
|||||||
#endif
|
#endif
|
||||||
);
|
);
|
||||||
}
|
}
|
||||||
|
void UYVYToUVRow_AVX2(const uint8* src_uyvy, int stride_uyvy,
|
||||||
|
uint8* dst_u, uint8* dst_v, int pix) {
|
||||||
|
asm volatile (
|
||||||
|
"vpcmpeqb %%ymm5,%%ymm5,%%ymm5 \n"
|
||||||
|
"vpsrlw $0x8,%%ymm5,%%ymm5 \n"
|
||||||
|
"sub %1,%2 \n"
|
||||||
|
|
||||||
|
LABELALIGN
|
||||||
|
"1: \n"
|
||||||
|
"vmovdqu " MEMACCESS(0) ",%%ymm0 \n"
|
||||||
|
"vmovdqu " MEMACCESS2(0x20,0) ",%%ymm1 \n"
|
||||||
|
VMEMOPREG(vpavgb,0x00,0,4,1,ymm0,ymm0) // vpavgb (%0,%4,1),%%ymm0,%%ymm0
|
||||||
|
VMEMOPREG(vpavgb,0x20,0,4,1,ymm1,ymm1)
|
||||||
|
"lea " MEMACCESS2(0x40,0) ",%0 \n"
|
||||||
|
"vpand %%ymm5,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpand %%ymm5,%%ymm1,%%ymm1 \n"
|
||||||
|
"vpackuswb %%ymm1,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpermq $0xd8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpand %%ymm5,%%ymm0,%%ymm1 \n"
|
||||||
|
"vpsrlw $0x8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpackuswb %%ymm1,%%ymm1,%%ymm1 \n"
|
||||||
|
"vpackuswb %%ymm0,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpermq $0xd8,%%ymm1,%%ymm1 \n"
|
||||||
|
"vpermq $0xd8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vextractf128 $0x0,%%ymm1," MEMACCESS(1) " \n"
|
||||||
|
MEMOPMEM(vextractf128,ymm0,0x00,1,2,1) // vextractf128 $0x0,%%ymm0,(%1,%2,1)
|
||||||
|
"lea 0x10" MEMACCESS(1) ",%1 \n"
|
||||||
|
"sub $0x20,%3 \n"
|
||||||
|
"jg 1b \n"
|
||||||
|
"vzeroupper \n"
|
||||||
|
: "+r"(src_uyvy), // %0
|
||||||
|
"+r"(dst_u), // %1
|
||||||
|
"+r"(dst_v), // %2
|
||||||
|
"+r"(pix) // %3
|
||||||
|
: "r"((intptr_t)(stride_uyvy)) // %4
|
||||||
|
: "memory", "cc"
|
||||||
|
#if defined(__native_client__) && defined(__x86_64__)
|
||||||
|
, "r14"
|
||||||
|
#endif
|
||||||
|
#if defined(__SSE2__)
|
||||||
|
, "xmm0", "xmm1", "xmm5"
|
||||||
|
#endif
|
||||||
|
);
|
||||||
|
}
|
||||||
|
|
||||||
|
void UYVYToUV422Row_AVX2(const uint8* src_uyvy,
|
||||||
|
uint8* dst_u, uint8* dst_v, int pix) {
|
||||||
|
asm volatile (
|
||||||
|
"pcmpeqb %%xmm5,%%xmm5 \n"
|
||||||
|
"psrlw $0x8,%%xmm5 \n"
|
||||||
|
"sub %1,%2 \n"
|
||||||
|
LABELALIGN
|
||||||
|
"1: \n"
|
||||||
|
"vmovdqu " MEMACCESS(0) ",%%ymm0 \n"
|
||||||
|
"vmovdqu " MEMACCESS2(0x20,0) ",%%ymm1 \n"
|
||||||
|
"lea " MEMLEA(0x40,0) ",%0 \n"
|
||||||
|
"vpand %%ymm5,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpand %%ymm5,%%ymm1,%%ymm1 \n"
|
||||||
|
"vpackuswb %%ymm1,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpermq $0xd8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpand %%ymm5,%%ymm0,%%ymm1 \n"
|
||||||
|
"vpsrlw $0x8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpackuswb %%ymm1,%%ymm1,%%ymm1 \n"
|
||||||
|
"vpackuswb %%ymm0,%%ymm0,%%ymm0 \n"
|
||||||
|
"vpermq $0xd8,%%ymm1,%%ymm1 \n"
|
||||||
|
"vpermq $0xd8,%%ymm0,%%ymm0 \n"
|
||||||
|
"vextractf128 $0x0,%%ymm1," MEMACCESS(1) " \n"
|
||||||
|
MEMOPMEM(vextractf128,ymm0,0x00,1,2,1) // vextractf128 $0x0,%%ymm0,(%1,%2,1)
|
||||||
|
"lea 0x10" MEMACCESS(1) ",%1 \n"
|
||||||
|
"sub $0x20,%3 \n"
|
||||||
|
"jg 1b \n"
|
||||||
|
"vzeroupper \n"
|
||||||
|
: "+r"(src_uyvy), // %0
|
||||||
|
"+r"(dst_u), // %1
|
||||||
|
"+r"(dst_v), // %2
|
||||||
|
"+r"(pix) // %3
|
||||||
|
:
|
||||||
|
: "memory", "cc"
|
||||||
|
#if defined(__native_client__) && defined(__x86_64__)
|
||||||
|
, "r14"
|
||||||
|
#endif
|
||||||
|
#if defined(__SSE2__)
|
||||||
|
, "xmm0", "xmm1", "xmm5"
|
||||||
|
#endif
|
||||||
|
);
|
||||||
|
}
|
||||||
#endif // HAS_YUY2TOYROW_AVX2
|
#endif // HAS_YUY2TOYROW_AVX2
|
||||||
|
|
||||||
#ifdef HAS_ARGBBLENDROW_SSE2
|
#ifdef HAS_ARGBBLENDROW_SSE2
|
||||||
|
|||||||
Loading…
x
Reference in New Issue
Block a user