libyuv

mirror of https://chromium.googlesource.com/libyuv/libyuv synced 2025-12-07 17:26:49 +08:00

Author	SHA1	Message	Date
Frank Barchard	ffec313dbe	ABGRToAR30 used AVX2 with reversed shuffler vpshufb is used to reverse R and B channels; Code is otherwise the same as ARGBToAR30. Bug: libyuv:751 Test: ABGRToAR30 unittest Change-Id: I30e02925f5c729e4496c5963ba4ba4af16633b3b Reviewed-on: https://chromium-review.googlesource.com/891807 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2018-01-29 22:31:31 +00:00
Frank Barchard	ff8ab9baf1	AR30ToABGR for 10 to 8 bit RGB on Android ABGR is the more common format on Android. This CL converts 10 bit AR30, to standard 8 bit ABGR. Unoptimized but allows better testing and feature completeness. Bug: libyuv:751 Test: LibYUVConvertTest.AR30ToABGR_Opt Change-Id: I0c7e7273158be215129e0a1d355587ae15942299 Reviewed-on: https://chromium-review.googlesource.com/891694 Reviewed-by: Miguel Casas <mcasas@chromium.org>	2018-01-29 22:21:42 +00:00
Frank Barchard	ed96b7b2c7	AVX2 port of H010ToAR30_AVX2 Was SSSE3 H010ToAR30_Opt (635 ms) Now AVX2 H010ToAR30_Opt (448 ms) Bug: libyuv:751 Test: LibYUVConvertTest.H010ToAR30_Opt Change-Id: I17b1a0e3268c4a9836e09683dd3377fb1ce60932 Reviewed-on: https://chromium-review.googlesource.com/889906 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Miguel Casas <mcasas@chromium.org>	2018-01-27 00:14:27 +00:00
Frank Barchard	c95fd57993	AVX2 port of I010ToAR30_AVX2 Was SSSE3 I420ToAR30_Opt (635 ms) Now AVX2 I420ToAR30_Opt (446 ms) Bug: libyuv:751 Test: LibYUVConvertTest.H010ToAR30_Opt Change-Id: I261be19ec981136a8f453ae0d3211532a790e5c5 Reviewed-on: https://chromium-review.googlesource.com/887750 Reviewed-by: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-01-26 02:12:07 +00:00
Frank Barchard	3f43ecc029	Add H420ToAR30 and a test that does a histogram [ RUN ] LibYUVConvertTest.TestH420ToAR30 uniques: B 222, G, 222, R 222 [ OK ] LibYUVConvertTest.TestH420ToAR30 (0 ms) [ RUN ] LibYUVConvertTest.TestH420ToARGB uniques: B 220, G, 220, R 220 [ OK ] LibYUVConvertTest.TestH420ToARGB (0 ms) Bug: libyuv: 751 Test: LibYUVConvertTest.TestH420ToAR30 Change-Id: I9b75af286124c058c24799778a58c3feb9a1a1ab Reviewed-on: https://chromium-review.googlesource.com/884845 Reviewed-by: Miguel Casas <mcasas@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-01-25 00:36:40 +00:00
Frank Barchard	92e22cf5b6	Lint cleanup after C99 change CL TBR=braveyao@chromium.org Bug: libyuv:774 Test: git cl lint Change-Id: I51cf8107a8db17fbc9952d610f3e4d7aac5aa743 Reviewed-on: https://chromium-review.googlesource.com/882217 Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2018-01-24 19:16:03 +00:00
Frank Barchard	7e389884a1	Switch to C99 types Append _t to all sized types. uint64 becomes uint64_t etc Bug: libyuv:774 Test: try bots build on all platforms Change-Id: Ide273d7f8012313d6610415d514a956d6f3a8cac Reviewed-on: https://chromium-review.googlesource.com/879922 Reviewed-by: Miguel Casas <mcasas@chromium.org>	2018-01-23 19:16:05 +00:00
Frank Barchard	13771ffaad	basic_types.h - remove unused macros Removes macros that were part of standard basic_types header but not used by libyuv itself. TBR=braveyao@chromium.org Bug: libyuv:774 Test: try bots still build Change-Id: I8de6fad5a9277df0a50959881392ba212b1b5972 Reviewed-on: https://chromium-review.googlesource.com/879591 Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2018-01-23 02:24:58 +00:00
Frank Barchard	8af6ea4100	I420ToAR30 in 1 step SSSE3 assembly Bug: libyuv:751 Test: LibYUVConvertTest.I420ToAR30_Opt Change-Id: Ie89c3eb2526354cf11175746bc8af72be83a1e00 Reviewed-on: https://chromium-review.googlesource.com/877541 Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-01-23 01:33:10 +00:00
Frank Barchard	09db0c4ce2	H010ToAR30 in 1 step with SSSE3 assembly Switch YUV conversion macro to output 16 bits per channel. STOREAR30 macro to output AR30. [ RUN ] LibYUVConvertTest.TestH420ToARGB uniques: B 220, G, 220, R 220 [ OK ] LibYUVConvertTest.TestH420ToARGB (0 ms) [ RUN ] LibYUVConvertTest.TestH010ToARGB uniques: B 256, G, 256, R 256 [ OK ] LibYUVConvertTest.TestH010ToARGB (0 ms) [ RUN ] LibYUVConvertTest.TestH010ToAR30 uniques: B 883, G, 883, R 883 [ OK ] LibYUVConvertTest.TestH010ToAR30 (0 ms) Bug: libyuv:751 Test: LibYUVConvertTest.H010ToAR30_Opt Change-Id: I902b718e2c8b68ede69625ccafebc6519d5af70d Reviewed-on: https://chromium-review.googlesource.com/869511 Reviewed-by: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Miguel Casas <mcasas@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-01-19 19:46:58 +00:00
Frank Barchard	ecab5430c2	Remove MEMOPREG x64 NaCL macros MEMOPREG macros are deprecated in row.h Regular expressions to remove MEMOPREG macros: MEMOPREG(movd, 0x00, [u_buf], [v_buf], 1, xmm1) \ MEMOPREG$(.), (.), (.), (.), (.), (.)$ "\1 \2(%\3,%\4,\5),%%\6 \\n" MEMOPREG(movdqu,0x00,1,4,1,xmm2) MEMOPREG$(.),(.),(.),(.),(.),(.)$ "\1 \2(%\3,%\4,\5),%%\6 \\n" MEMOPREG(movdqu,0x00,1,4,1,xmm2) MEMOPREG$(.),(.),(.),(.),(.),(.)$(.)(//.) "\1 \2(%\3,%\4,\5),%%\6 \\n" TBR=braveyao@chromium.org Bug: libyuv:702 Test: try bots pass Change-Id: If8743abd9af2e8c549d0c7d3d49733a9b0f0ca86 Reviewed-on: https://chromium-review.googlesource.com/865964 Reviewed-by: Frank Barchard <fbarchard@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-01-16 19:10:44 +00:00
Frank Barchard	b33e0f97e7	Remove MEMOPMEM x64 NaCL macros MEMOPMEM macros are deprecated in row.h Usage examples MEMOPMEM(vmovdqu,ymm0,0x00,0,1,1) // vmovdqu %%ymm0,(%0,%1) MEMOPMEM(movdqu,xmm2,0x00,1,0,1) Regular expressions to remove MEMACCESS macros: MEMOPMEM$(.),(.),(.),(.),(.),(.)$(.)(//.) "\1 %%\2,\3(%\4,%\5,\6)\7 \\n" MEMOPMEM$(.),(.),(.),(.),(.),(.)$ "\1 %%\2,\3(%\4,%\5,\6) \\n" TBR=braveyao@chromium.org Bug: libyuv:702 Test: try bots pass Change-Id: Id8c6963d544d16e39bb6a9a0536babfb7f554b3a Reviewed-on: https://chromium-review.googlesource.com/865934 Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2018-01-13 01:33:21 +00:00
Frank Barchard	a875ed173d	Remove VMEMOPREG x64 NaCL macros VMEMOPREG macros are deprecated in row.h Usage examples VMEMOPREG(vpavgb,0x00,0,4,1,ymm0,ymm0) // vpavgb (%0,%4,1),%%ymm0,%%ymm0 VMEMOPREG(vpavgb,0x20,0,4,1,ymm1,ymm1) Regular expressions to remove MEMACCESS macros: VMEMOPREG$(.),(.),(.),(.),(.),(.),(.)$(.)(//.) "\1 \2(%\3,%\4,\5),%%\6,%%\7 \\n" VMEMOPREG$(.),(.),(.),(.),(.),(.),(.)$ "\1 \2(%\3,%\4,\5),%%\6,%%\7 \\n" TBR=braveyao@chromium.org Bug: libyuv:702 Test: try bots pass Change-Id: I472446606f7fd568fdf33aaacc22d5ed78673dab Reviewed-on: https://chromium-review.googlesource.com/865640 Reviewed-by: Frank Barchard <fbarchard@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-01-12 22:54:24 +00:00
Frank Barchard	030042a2ff	Remove VEXTOPMEM x64 NaCL macros VEXTOPMEM macros are deprecated in row.h Usage examples VEXTOPMEM(vextractf128,1,ymm0,0x0,1,2,1) // vextractf128 $1,%%ymm0,(%1,%2,1) Regular expressions to remove MEMACCESS macros: VEXTOPMEM$(.),(.),(.),(.),(.),(.),(.)$(.//.*) "\1 $\2,%\3,\4(%\5,%\6,\7) \\n" Bug: libyuv:702 Test: try bots pass Change-Id: I177edf9813128408e74816672dd25abb03a5e1ca Reviewed-on: https://chromium-review.googlesource.com/865283 Reviewed-by: Frank Barchard <fbarchard@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-01-12 21:16:34 +00:00
Frank Barchard	5088f00165	Remove MEMACCESS x64 NaCL macros MEMACCESS macros are deprecated in row.h Usage examples "movdqu " MEMACCESS(0) ",%%xmm0 \n" "movdqu " MEMACCESS2(0x10,0) ",%%xmm1 \n" Regular expressions to remove MEMACCESS macros: " MEMACCESS2$(.),(.)$ "(.)\\n" \1(%\2)\3 \\n" " MEMACCESS$(.)$ "(.*)\\n" (%\1)\2 \\n" Bug: libyuv:702 Test: try bots pass Change-Id: I42f62d5dede8ef2ea643e78c204371a7659d25e6 Reviewed-on: https://chromium-review.googlesource.com/862803 Reviewed-by: Frank Barchard <fbarchard@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-01-12 20:37:41 +00:00
Frank Barchard	e3797d1765	Remove MEMOPARG x64 NaCL macros MEMOPARG macros are deprecated in row.h #opcode " " #offset "(%" #base ",%" #index "," #scale "),%" #arg "\n" Usage examples MEMOPARG(movzwl,0x00,1,3,1,k2) // movzwl (%1,%3,1),%k2 Regular expression to remove MEMACCESS macro: MEMOPARG$(.),(.),(.),(.),(.),(.)$(.//.) "\1 \2(%\3,%\4,\5),%\6 \\n" Bug: libyuv:702 Test: try bots pass Change-Id: I4a5ad2abf5017e651576f4c8c784be1c8dbf5a83 Reviewed-on: https://chromium-review.googlesource.com/863108 Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2018-01-12 18:26:06 +00:00
Frank Barchard	c682abe597	libyuv: fix undefined mul overflow Bug: libyuv:771 Test: build asm with ubsan and check Change-Id: I966d0bff74eef9ddfbeb93965fbff24c1472927c Reviewed-on: https://chromium-review.googlesource.com/860898 Reviewed-by: Weiyong Yao <braveyao@chromium.org> Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2018-01-10 23:22:46 +00:00
Frank Barchard	3694891922	Remove MEMLEA x64 NaCL macros Bug: libyuv:702 Test: try bots pass Change-Id: I0ee094551734368f2179c298e7bf423ec80a929c Reviewed-on: https://chromium-review.googlesource.com/857845 Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2018-01-10 19:16:16 +00:00
Frank Barchard	a2142148e9	Remove x64 native_client macros. Bug: libyuv:702 Test: try bots pass Change-Id: I76d74b5f02fe9843418108b84742e2f714d1ab0a Reviewed-on: https://chromium-review.googlesource.com/855656 Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2018-01-10 01:27:22 +00:00
Frank Barchard	00d526d4ea	H010ToARGB_AVX2 optimized conversion AVX2 optimized 10 bit YUV to ARGB. Bug: libyuv:751 Test: H010ToARGB unittest Change-Id: I705630beb62714b52042c2a5dcdb8b7859e734ae Reviewed-on: https://chromium-review.googlesource.com/852563 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Miguel Casas <mcasas@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2018-01-09 03:17:33 +00:00
Frank Barchard	55310f92bc	Remove NACL_R14 macro Bug: libyuv:702 Test: try bots still build Change-Id: I05317e45c885955fcda233bdddbd11ce1d246d90 Reviewed-on: https://chromium-review.googlesource.com/854770 Reviewed-by: Weiyong Yao <braveyao@chromium.org> Reviewed-by: Frank Barchard <fbarchard@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-01-08 22:41:15 +00:00
Frank Barchard	50f9e618fa	Add H010ToABGR, I010ToABGR and I010ToARGB functions ABGR output is implemented using the same source code as ARGB, by swapping the u and v and supplying the mirrored conversion matrix. ABGR format (RGBA in memory) is popular on Android. Bug: libyuv:751 Test: H010ToABGR, I010ToABGR and I010ToARGB unittests Change-Id: I0b5103628c58dcb22a6442c03814d4d5972e0339 Reviewed-on: https://chromium-review.googlesource.com/852985 Commit-Queue: Miguel Casas <mcasas@chromium.org> Reviewed-by: Miguel Casas <mcasas@chromium.org> Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2018-01-08 17:40:33 +00:00
Frank Barchard	9d2cd6a3ef	H010ToAR30 optimized to 2 step conversion Previously H010ToAR30 was done in a 3 step conversion: H010ToH420, H420ToARGB, ARGBToAR30. This CL merges the first 2 steps into H010ToARGB, to improve performance. Caveat - only 10 bit YUV is supported at this time. Previously the low level code supported different numbers of bits - 9, 10, 12 or 16. Was 3 step conversion: LibYUVConvertTest.H010ToAR30_Any (1263 ms) LibYUVConvertTest.H010ToAR30_Unaligned (951 ms) LibYUVConvertTest.H010ToAR30_Invert (913 ms) LibYUVConvertTest.H010ToAR30_Opt (901 ms) Now 2 step conversion: LibYUVConvertTest.H010ToAR30_Any (853 ms) LibYUVConvertTest.H010ToAR30_Unaligned (811 ms) LibYUVConvertTest.H010ToAR30_Invert (781 ms) LibYUVConvertTest.H010ToAR30_Opt (755 ms) Bug: libyuv:751 Test: LibYUVConvertTest.H010ToAR30_Opt Change-Id: Ica7574040401cd57145a4827acdf3c0e58346a2a Reviewed-on: https://chromium-review.googlesource.com/853288 Reviewed-by: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Miguel Casas <mcasas@chromium.org>	2018-01-07 08:36:57 +00:00
Frank Barchard	a64658593e	I210ToARGB conversion from 10 bit YUV to RGB SSSE3 optimized 10 bit YUV conversion to ARGB in single step. Bug: libyuv:751 Test: I010ToARGB Change-Id: I234b2850e35992113ee6bd638732bafc7010a60d Reviewed-on: https://chromium-review.googlesource.com/848238 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2018-01-05 02:43:38 +00:00
Frank Barchard	2ed2402fa0	I420ToI010 for 8 to 10 bit YUV conversion. Convert planar 8 bit formats to planar 16 bit formats. Includes msan fix for Convert8To16Row_Opt unittest. I420 is YUV bt.601 8 bits per channel with 420 subsampling. I010 is YUV bt.601 10 bits per channel with 420 subsampling. I is color space - bt.601. The function does no color space conversion so H420ToI010 is aliased to this function as well. 0 = 420 subsampling. The chroma channels are half width / height. 10 = 10 bits per channel, stored in low 10 bits of 16 bit samples. For SSSE3 version: out/Release/libyuv_unittest --gtest_filter=*LibYUVConvertTest.I420ToI010_Opt --libyuv_width=1280 --libyuv_height=720 --libyuv_repeat=999 --libyuv_flags=-1 --libyuv_cpu_info=-1 [ RUN ] LibYUVConvertTest.I420ToI010_Opt [ OK ] LibYUVConvertTest.I420ToI010_Opt (276 ms) Bug: libyuv:751 Test: LibYUVConvertTest.I420ToI010_Opt Change-Id: I072876ee4fd74a2b74f459b628838bc808f9bdd2 Reviewed-on: https://chromium-review.googlesource.com/846421 Reviewed-by: Miguel Casas <mcasas@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-01-02 21:09:39 +00:00
Frank Barchard	140fc0a261	Remove LIBYUV_SSSE3_ONLY and ARGBSHUFFLEROW_SSE2 LIBYUV_SSSE3_ONLY was for functions that have SSE2 and SSSE3 but are compiling for SSSE3, so SSE2 will never be used. Remove the SSE2 implementation of ARGBSHUFFLEROW_SSE2 and rely on SSSE3. Bug: libyuv: 769 Test: ~/intelsde/sde -p4 -- out/Release/libyuv_unittest --gtest_filter=LibYUVConvertTest.ARGBToABGR_Opt Change-Id: I7443f4d8ee3c6f47edd2cf1d5a1eb0f8d7a1eeeb Reviewed-on: https://chromium-review.googlesource.com/846541 Reviewed-by: Weiyong Yao <braveyao@chromium.org> Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2018-01-02 18:57:39 +00:00
Frank Barchard	768f103b8b	Convert8To16 for better H010 support Convert planar 8 bit formats to planar 16 bit formats. Accepts a parameter that determines the number of bits. Bug: libyuv:751 Test: Convert8To16 unittest Change-Id: I8f6ffe64428ddf5769b87e0c069093a50a2541e9 Reviewed-on: https://chromium-review.googlesource.com/835410 Reviewed-by: richard winterton <rrwinterton@gmail.com>	2017-12-28 22:27:24 +00:00
Frank Barchard	c67db60534	HalfFloat_SSE2 use movd from memory pshufd requires 16 byte aligned memory or a register. Use movd to a register to avoid a segfault if memory for float is misaligned Bug: libyuv:759 Test: 32 bit build of LibYUVPlanarTest.TestHalfFloatPlane_16bit_denormal Change-Id: I6fdcc4317453af5acd4700f9d46425bb2f4a205b Reviewed-on: https://chromium-review.googlesource.com/840459 Reviewed-by: Miguel Casas <mcasas@chromium.org> Reviewed-by: Frank Barchard <fbarchard@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2017-12-21 19:37:50 +00:00
Frank Barchard	790054ff03	Add AR30ToARGB function Initial AR30ToARGB function to allow converion from AR30 to other formats if necessary and/or for testing. Not optimized at this point. Bug: libyuv:751 Test: LibYUVConvertTest.AR30ToARGB_Opt Change-Id: I38ef192315240f3caa7aee0218b38d5e88a2849f Reviewed-on: https://chromium-review.googlesource.com/833025 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2017-12-19 01:54:42 +00:00
Frank Barchard	5336217f11	H010Copy function to copy 16 bit planar formats Bug: libyuv:751 Test: LibYUVConvertTest.H010ToH010_Opt Change-Id: I996d309040a14193a97d05b62ac0b3e1ad1ee74b Reviewed-on: https://chromium-review.googlesource.com/823445 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Cheng Wang <wangcheng@google.com> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2017-12-15 03:34:34 +00:00
Frank Barchard	3b81288ece	Remove Mips DSPR2 code Bug: libyuv:765 Test: build for mips still passes Change-Id: I99105ad3951d2210c0793e3b9241c178442fdc37 Reviewed-on: https://chromium-review.googlesource.com/826404 Reviewed-by: Weiyong Yao <braveyao@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2017-12-14 18:22:16 +00:00
Frank Barchard	bb3180ae80	Add I420ToAR30 10 bit RGB For more complete support of AR30 format, add I420ToAR30 allowing the new RGB 10 bit format to be used from standard 8 bit I420 format. Bug: libyuv:751 Test: I420ToAR30 unittest added Change-Id: Ia8b0857447408bd6adab485158ce5f38d6dc2faa Reviewed-on: https://chromium-review.googlesource.com/823243 Reviewed-by: Weiyong Yao <braveyao@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2017-12-12 23:40:58 +00:00
Frank Barchard	c367751430	ARGBToAR30 SSSE3 use pmulhuw to replicate fields AR30 is optimized with 3 techniques 1. pmulhuw is used to replicate 8 bits to 10 bits. 2. Two channels are processed at a time. R and B, and A and G. 3. pshufb is used to shift and mask 2 channels of R and B Bug: libyuv:751 Test: ARGBToAR30_Opt Change-Id: I4e62d6caa4df7d0ae80395fa911d3c922b6b897b Reviewed-on: https://chromium-review.googlesource.com/822520 Reviewed-by: richard winterton <rrwinterton@gmail.com> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2017-12-12 20:12:58 +00:00
Frank Barchard	11dd1b956f	ARGBToAR30 use vpmulhuw to replicate fields AR30 is optimized with 3 techniques 1. vpmulhuw is used to replicate 8 bits to 10 bits. 2. Two channels are processed at a time. R and B, and A and G. 3. vpshufb is used to shift and mask 2 channels of R and B Red Blue With the 8 bit value in the upper bits, vpmulhuw by (1024+4) will produce a 10 bit value in the low 10 bits of each 16 bit value. This is whats wanted for the blue channel. The red needs to be shifted 4 left, so multiply by (1024+4)16 for red. Alpha Green Alpha and Green are already in the high bits so vpand can zero out the other bits, keeping just 2 upper bits of alpha and 8 bit green. The same multiplier could be used for Green - (1024+4) putting the 10 bit green in the lsb. Alpha would be a simple multiplier to shift it into position. It wants a gap of 10 above the green. Green is 10 bits, so there are 6 bits in the low short. 4 more are needed, so a multiplier of 4 gets the 2 bits into the upper 16 bits, and then a shift of 4 is a multiply of 16, so (416) = 64. Then shift the result left 10 to position the A and G channels. Bug: libyuv:751 Test: ARGBToAR30_Opt Change-Id: Ie4f20dce18203bae7b75acb1fd5232db8a8a4f11 Reviewed-on: https://chromium-review.googlesource.com/820046 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-12-12 02:57:54 +00:00
Frank Barchard	0f98c3c1df	Add ARGBToAR30Row_SSE2 to speed up H010ToAR30 Port ARGBToAR30Row_AVX2 to ARGBToAR30Row_SSE2 using same instructions but xmm registers and doing half as many pixels per loop. Bug: libyuv:751 Test: LibYUVConvertTest.ARGBToAR30_Opt Change-Id: Id644e54639133d1caf28ea3cd11ff6ab6891a673 Reviewed-on: https://chromium-review.googlesource.com/817918 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2017-12-09 00:11:20 +00:00
Frank Barchard	aabe380890	H010ToAR30 and H010ToARGB optimized YUV buffering Reduce allocations of row buffers to 1 alloc/free. Do 2 rows at a time to avoid converting U and V planes twice. Bug: libyuv:715 Test: LibYUVConvertTest.H010ToAR30_Opt Change-Id: I2f3a03b4875df5e3b969112a78a1a0b28399fa2f Reviewed-on: https://chromium-review.googlesource.com/816021 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-12-08 18:55:03 +00:00
Frank Barchard	3541e46a7e	Add H010ToARGB for 10 bit YUV to ARGB Bug: libyuv:751 Test: LibYUVConvertTest.H010ToARGB_Opt Change-Id: I668d3f3810e59a4fb6611503aae1c8edc7d596e7 Reviewed-on: https://chromium-review.googlesource.com/815015 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2017-12-07 20:17:50 +00:00
Frank Barchard	49d9b1039b	NV21ToABGR for Android camera conversions Bug: libyuv:762 Test: NV21ToABGR unittest Change-Id: I71448ab83930339083f07eeafccf240c6cb41c48 Reviewed-on: https://chromium-review.googlesource.com/795212 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-11-30 20:29:28 +00:00
Frank Barchard	324fa32739	Convert16To8Row_SSSE3 port from AVX2 H010ToAR30 uses Convert16To8Row_SSSE3 to convert 10 bit YUV to 8 bit. Then standard YUV conversion can be used. This improves performance on low end CPUs. Future CL will by pass this conversion allowing for 10 bit YUV source, but the function will be useful as a utility for YUV conversions. Bug: libyuv:559, libyuv:751 Test: out/Release/libyuv_unittest --gtest_filter=H010ToAR30 --libyuv_width=1280 --libyuv_height=720 --libyuv_repeat=999 --libyuv_flags=-1 --libyuv_cpu_info=-1 Change-Id: I9b3ef22d88a5fd861de4cf1900b4c6e8fd24d0af Reviewed-on: https://chromium-review.googlesource.com/792334 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2017-11-28 19:22:39 +00:00
Lei Zhang	8445617191	Mark a bunch of kArray variables as const. This allows the linker to move the variables from the .data section to the .rodata section. Bug: libyuv:254 Test: out/Release/libyuv_unittest --gtest_filter=* --libyuv_width=1280 --libyuv_height=720 --libyuv_repeat=999 --libyuv_flags=-1 --libyuv_cpu_info=-1 Change-Id: I6998570f1af4337d7b80313d9e18e36aa20d6ec0 Reviewed-on: https://chromium-review.googlesource.com/777033 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2017-11-27 23:38:44 +00:00
Frank Barchard	26173eb73e	H010ToAR30 for 10 bit bt.709 YUV to 30 bit RGB This version of the H010ToAR30 provides a 3 step conversion Convert16To8Row_AVX2 H420ToARGB_AVX2 ARGBToAR30_AVX2 Low level function added to convert 16 bit to 8 bit using multiply to adjust 10 bit or other bit depths and then save the upper 16 bits. Bug: libyuv:751 Test: LibYUVPlanarTest.Convert16To8Row_Opt unittest added Change-Id: I9cc576fda8afa1003cb961d03e0e656e0b478f03 Reviewed-on: https://chromium-review.googlesource.com/783554 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2017-11-22 23:58:30 +00:00
Frank Barchard	a98d6cdb17	ARGBToAR30 AVX2 conversion function Bug: libyuv:751 Test: LibYUVConvertTest.ARGBToAR30_Opt Change-Id: I09c13eb53ba5f1ce1740c013dc587f8300f1d9e0 Reviewed-on: https://chromium-review.googlesource.com/780437 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2017-11-21 20:37:01 +00:00
Frank Barchard	12c904a97c	H420ToRAW and H420ToRGB24 added for bt.709 support. Bug: libyuv:760 Test: LibYUVConvertTest.H420ToRAW_Opt Change-Id: I050385f477309d5db02bb2218088f224c83392ed Reviewed-on: https://chromium-review.googlesource.com/775785 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Weiyong Yao <braveyao@chromium.org>	2017-11-17 01:20:05 +00:00
Frank Barchard	46594be758	add ScalePlane_16 unit tests Tests ScalePlane vs ScalePlane_16 match. Bug: libyuv:749 Test: LibYUVScaleTest.ScalePlaneDownBy4_Box_16 Change-Id: I3f71748da404982d5d48bfb11bbd3ae95a1d021c Reviewed-on: https://chromium-review.googlesource.com/765045 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: richard winterton <rrwinterton@gmail.com> Reviewed-by: Weiyong Yao <braveyao@chromium.org>	2017-11-16 01:40:48 +00:00
Frank Barchard	630c8ed1e0	Fix for ScaleDownBy4_Linear_16 The unittest compares the results of 8 and 16 bit scaling and expects them to be the same. This CL makes the 16 bit scaling filter logic match. Bug: libyuv:749 Test: LibYUVScaleTest.DISABLED_ScaleDownBy4_Linear_16 Change-Id: Ifb3ca4d770ef38f9f16abe9b9aeb843b779bf371 Reviewed-on: https://chromium-review.googlesource.com/772370 Reviewed-by: Weiyong Yao <braveyao@chromium.org> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-11-15 23:05:22 +00:00
Frank Barchard	49d1e3b036	MultiplyRow_16_AVX2 for converting 10 bit YUV When converting from lsb 10 bit formats to msb, the values need to be shifted to the top 10 bits. Using a multiply allows the different numbers of bits to be copied: // 128 = 9 bits // 64 = 10 bits // 16 = 12 bits // 1 = 16 bits Bug: libyuv:751 Test: LibYUVPlanarTest.MultiplyRow_16_Opt Change-Id: I9cf226053a164baa14155215cb175065b1c4f169 Reviewed-on: https://chromium-review.googlesource.com/762951 Reviewed-by: richard winterton <rrwinterton@gmail.com> Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-11-10 22:02:32 +00:00
Frank Barchard	2f58d126b9	MergeUV10Row_AVX2 use multiply to handle different bit depths Instead of hardcoded shift, use a multiply by a parameter. 128 = 9 bits 64 = 10 bits 16 = 12 bits 1 = 16 bits Bug: libyuv:751 Test: LibYUVPlanarTest.MergeUV10Row_Opt Change-Id: Id925edfdbf91243370c90641b50eb8e7625ec329 Reviewed-on: https://chromium-review.googlesource.com/762523 Reviewed-by: richard winterton <rrwinterton@gmail.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-11-10 03:38:07 +00:00
Frank Barchard	e26b0a7e0e	casting for c89 compatibility and lint cleanup Bug: libyuv:756 Test: CFLAGS="-m32 -static -std=gnu89 -mno-sse -O2" CXXFLAGS="-m32 -x c -static -std=gnu99 -mno-sse -O2" make -f linux.mk libyuv.a Change-Id: Ic362f93e01ccbb0bea14f361a58585e79297e7d2 Reviewed-on: https://chromium-review.googlesource.com/759423 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Patrik Höglund <phoglund@chromium.org> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-11-09 18:22:17 +00:00
Frank Barchard	735ace2ed3	Re-enable x86 assembly without requiring -msse2 clang does not require -msse2 or -msse for inline, except the "x" parameter. So change this to "m" for 32 bit. 64 bit requires sse2 so use "x" for 64 bit. gcc requires -msse for xmm registers in clobber list. Reduce compiler requirement from -msse2 to -msse for enabling assembly. Bug: libyuv:754, libyuv:757 Test: CC=clang CXX=clang++ CFLAGS="-m32" CXXFLAGS="-m32 -mno-sse -O2" make -f linux.mk Change-Id: I86df72cfee80b7d349561c1fd7c97ad360767255 Reviewed-on: https://chromium-review.googlesource.com/759303 Reviewed-by: richard winterton <rrwinterton@gmail.com> Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-11-09 00:51:06 +00:00
Frank Barchard	68f852d835	Remove DISABLE_CLANG_MSA cleanup to remove ifdefs around functions affected by a clang bug. gn gen out/Release "--args=is_debug=false target_os=\"android\" target_cpu=\"mips64el\" mips_arch_variant=\"r6\" mips_use_msa=true is_component_build=true is_clang=true" ninja -v -C out/Release libyuv_unittest Bug: libyuv:634 Test: build for mips with clang Change-Id: I278b368dbb2fe89082240e280267d0a27a214c78 Reviewed-on: https://chromium-review.googlesource.com/757980 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-11-08 19:55:14 +00:00
Frank Barchard	d997ac287d	Revert "Enable SSE2 code without -msse" This reverts commit 01e994d74e4e3937ee1a3efdc048320a1e51f818. Change-Id: Ie76710d0f4e641e071889c5125fd3be23cdcdb59 Reviewed-on: https://chromium-review.googlesource.com/758499 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-11-08 19:33:09 +00:00
Frank Barchard	01e994d74e	Enable SSE2 code without -msse Bug: libyuv:754 Test: CC=clang CXX=clang++ CFLAGS="-m32" CXXFLAGS="-m32 -mno-sse -O2" make -f linux.mk Change-Id: I74bf8d032013694e65ea7637bc38d3253db53ff2 Reviewed-on: https://chromium-review.googlesource.com/758043 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-11-08 02:54:41 +00:00
Frank Barchard	522fd699e6	AVX512 feature detects for cnl and icl Key instruction sets added for each microarchitecture: AVX512BW, AVX512VL, AVX512DQ - skylake server or later AVX512_VBMI, AVX512_IFMA - cannon lake or later AVX512_BITALG, AVX512_VBMI2, AVX512_VPOPCNTDQ, AVX512_VNNI, GFNI, VAES, VPCLMULQDQ - ice lake or later Bug: libyuv:752 Test: ~/intelsde/sde -icl -- out/Release/libyuv_unittest --gtest_filter=Cpu Change-Id: I9ee28904c90009d66721b9f805a440c5fc2da122 Reviewed-on: https://chromium-review.googlesource.com/755617 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2017-11-07 00:56:37 +00:00
Frank Barchard	afa98e1f08	HammingDistance_SSSE3 use movd not vmovd vmovd is an AVX instruction. This will crash on an older CPU with only SSSE3 but not AVX. Use movd instead. Bug: libyuv:753 Test: ~/intelsde/sde -mrm -- out/Release/libyuv_unittest --gtest_filter=LibYUVCompareTest.BenchmarkHammingDistance_Opt Change-Id: I1fb0026039d5f83d124f5d03fed7dc0d2d723e49 Reviewed-on: https://chromium-review.googlesource.com/756200 Reviewed-by: Cheng Wang <wangcheng@google.com> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2017-11-07 00:48:52 +00:00
Frank Barchard	a0c32b9e49	MergeUV10Row_AVX2 for converting H010 to P010 H010 is 10 bit planar format with 10 bits in lower bits. P010 is 10 bit biplanar format with 10 bits in upper bits. This function weaves the U and V channels and shifts the bits into the upper bits. Bug: libyuv:751 Test: LibYUVPlanarTest.MergeUV10Row_Opt Change-Id: I4a0bac0ef1ff95aa1b8d68261ec8e8e86f2d1fbf Reviewed-on: https://chromium-review.googlesource.com/752692 Reviewed-by: Cheng Wang <wangcheng@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-11-03 18:55:36 +00:00
Frank Barchard	de8e9ae10b	HammingDistance_SSE42 register optimized to avoid push Bug: libyuv:701 Test: objdump to confirm code gen Change-Id: Ibdcb2cc6bc9bf14b4ccb874c49fc9ff664650e1a Reviewed-on: https://chromium-review.googlesource.com/745390 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2017-10-31 21:12:32 +00:00
Frank Barchard	ffc4811863	clang-format fixes Bug: None Test: lint passes Change-Id: I1fd40d3506bab1f4f9100902f633a9c9e7b96337 Reviewed-on: https://chromium-review.googlesource.com/745038 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-10-31 02:25:01 +00:00
Frank Barchard	80077a80c2	HammingDistance_X86 using popcnt assembly popcnt has a fake dependency on the destination. This assembly avoids the dependency by using a different register for each popcnt. Bug: libyuv:701 Test: LIBYUV_DISABLE_SSSE3=1 out/Release/libyuv_unittest --gtest_filter=HamOpt --libyuv_width=1280 --libyuv_height=720 --libyuv_repeat=9999 --libyuv_flags=-1 --libyuv_cpu_info=-1 Change-Id: Ie1d202e2613b7fa8a3c02acd433940e92c80eafa Reviewed-on: https://chromium-review.googlesource.com/731826 Reviewed-by: Cheng Wang <wangcheng@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-10-23 21:15:12 +00:00
Frank Barchard	8fa02df3c0	mingw fix ifdefs to use gcc source mingw gcc sets the macro _M_IX86 which is normally only set by Visual C and clangcl which are Visual C style source code style for assembly, but gcc is not Visual C compatible. Add _MSC_VER to most ifdefs to detect that its really Visual C or clangcl and not mingw gcc so the gcc source code will be used. Bug: libyuv:744 Test: CXXFLAGS=-m32 CXX=~/prebuilts/gcc/linux-x86/host/x86_64-w64-mingw32-4.8/bin/x86_64-w64-mingw32-g++ make -f linux.mk Change-Id: I3431aa486eb769b145faa8d5eb75ed639f9d6f5e Reviewed-on: https://chromium-review.googlesource.com/722319 Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-10-17 17:36:35 +00:00
Frank Barchard	e23b27d040	Reduce HammingDistance block size to 32k to avoid overflow Bug: libyuv:701 Test: HammingDistance unittest with large size Change-Id: Id41a2c27eb8922d03b3a21dab32fa2e7b015ba38 Reviewed-on: https://chromium-review.googlesource.com/708335 Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-10-10 18:42:47 +00:00
Frank Barchard	60f433fbd9	Revert "ComputeHammingDistance reduce SIMD loop to 1 call when possible." This reverts commit ec75df5894845b8d6b1341885a78db1de83decd8. Reason for revert: <INSERT REASONING HERE> Original change's description: > ComputeHammingDistance reduce SIMD loop to 1 call when possible. > > 32 bit x86 has high overhead due to -fpic. So this reduces the > number of calls by 1. > > TBR=kjellander@chromium.org > Bug: libyuv:701 > Test: BenchmarkHammingDistance > Change-Id: I7f557ef047920db65eab362a5f93abbd274ca051 > Reviewed-on: https://chromium-review.googlesource.com/701755 > Reviewed-by: Frank Barchard <fbarchard@google.com> > Reviewed-by: Cheng Wang <wangcheng@google.com> TBR=rrwinterton@gmail.com,fbarchard@google.com,wangcheng@google.com Change-Id: Ia61e8558a8f083c14be5f51e0e141550b6f2b5c1 No-Presubmit: true No-Tree-Checks: true No-Try: true Bug: libyuv:701 Reviewed-on: https://chromium-review.googlesource.com/707823 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-10-10 01:16:15 +00:00
Frank Barchard	ec75df5894	ComputeHammingDistance reduce SIMD loop to 1 call when possible. 32 bit x86 has high overhead due to -fpic. So this reduces the number of calls by 1. TBR=kjellander@chromium.org Bug: libyuv:701 Test: BenchmarkHammingDistance Change-Id: I7f557ef047920db65eab362a5f93abbd274ca051 Reviewed-on: https://chromium-review.googlesource.com/701755 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-10-09 22:51:23 +00:00
Frank Barchard	1734712a6f	Fix odd length HammingDistance If length of HammingDistance was not a multiple of 4, the result was incorrect. The old tests did not catch this so a new test is done to count 1s. Bug: libyuv:740 Test: LibYUVCompareTest.TestHammingDistance Change-Id: I93db5437821c597f1f162ac263d4a594bb83231f Reviewed-on: https://chromium-review.googlesource.com/699614 Reviewed-by: richard winterton <rrwinterton@gmail.com> Reviewed-by: Cheng Wang <wangcheng@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-10-04 22:21:36 +00:00
Frank Barchard	fecd741794	Port HammingDistance to SSSE3 Bug: libyuv:701 Test: BenchmarkHammingDistance_Opt Change-Id: Ibdd5d382677ebef4f82a62e0d5c3b88614a3b6e4 Reviewed-on: https://chromium-review.googlesource.com/696290 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-10-03 19:11:05 +00:00
Frank Barchard	bde789b176	Hamming Distance SSE2 and AVX2 optimized Bug: None Test: None Change-Id: Id52663f9c957aac3172fba92d888ad1b041d5cf0 Reviewed-on: https://chromium-review.googlesource.com/692981 Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-10-02 22:32:54 +00:00
Frank Barchard	311add63c2	CopyRow_NEON use ldp instead of ld1 for better performance. Under cache thrashing circumstances, ldp/stp perform better than ld1/st1 on QC820/QC821 CPUs. Same performance when hitting cache. Bug: libyuv:738 Test: LibYUVPlanarTest.TestCopySamples_Opt (445 ms) Change-Id: Ib6a0a5d5e6a1b7ef667b9bb2edb39d681cf3614c Reviewed-on: https://chromium-review.googlesource.com/691281 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-09-29 01:52:29 +00:00
Frank Barchard	efbf15754a	Step thru full color test by increments of 5 for better test speed. Full color test is the slowest of the unittests, and not catching any additional bugs at the moment. Step thru range of 0 to 255 in steps of 5 to speed up the test. 255 is 3 * 5 * 17, so any of those primes would hit 0 and 255 exactly. Was LibYUVColorTest.TestFullYUV (896 ms) Now LibYUVColorTest.TestFullYUV (212 ms) TBR=kjellander@chromium.org Bug: libyuv:736 Test: LibYUVColorTest.TestFullYUV Change-Id: I5b55fb07ada0dc7bdc3c3c20569d36bf09bb3804 Reviewed-on: https://chromium-review.googlesource.com/672064 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-09-19 02:01:53 +00:00
Frank Barchard	00c501fe43	Cast xgetbv from int64 to int to avoid Visual C warning. TBR=kjellander@chromium.org Bug: libyuv:735 Test: try bots Change-Id: I00dc06689cd0a23847865c0c8edeb538b0cc81ac Reviewed-on: https://chromium-review.googlesource.com/669142 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-09-15 22:00:52 +00:00
Frank Barchard	0a3d23c898	fix clang-format-ing for row arm functions TBR=kjellander@chromium.org BUG=None TEST=git cl lint Change-Id: I45ecd7f8279981ba037dc051f521f6b6d5506f64 Reviewed-on: https://chromium-review.googlesource.com/664345 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-09-14 21:35:06 +00:00
Frank Barchard	753a91cbcb	fix fmov build error on gcc 4.7 for neon64 TBR=kjellander@chromium.org BUG=libyuv:732 TEST=LibYUVPlanarTest.TestScaleSumSamples_Opt Change-Id: If80e9510ad5668b080b9384e656c0bd73cf5b4a6 Reviewed-on: https://chromium-review.googlesource.com/663764 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-09-12 22:46:33 +00:00
Frank Barchard	1e16cb5c38	SplitRGBPlane and MergeRGBPlane functions added Converts packed RGB to planar and back. TBR=kjellander@chromium.org BUG=libyuv:728 TEST=MergeRGBPlane_Opt and SplitRGBPlane_Opt unittests added Change-Id: Ida59af940afcb1fc4a48bbf62c714f592665c3cc Reviewed-on: https://chromium-review.googlesource.com/658069 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-09-11 21:02:04 +00:00
Frank Barchard	8f5e9cd9eb	ScaleRowUp2_16_C port of NEON to C Single pass upsample with bilinear filter. NEON version optimized - Pixel Sailfish QC821 Was TestScaleRowUp2_16 (5741 ms) Now TestScaleRowUp2_16 (4484 ms) C TestScaleRowUp2_16 (6555 ms) TBR=kjellander@chromium.org BUG=libyuv:718 TEST=LibYUVScaleTest.TestScaleRowUp2_16 (709 ms) Change-Id: Ib04ceb53e0ab644a392c39c3396e313530161d92 Reviewed-on: https://chromium-review.googlesource.com/646701 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-09-05 21:40:39 +00:00
Manojkumar Bhosale	2621c91bf1	Add MSA optimized HammingDistance and SumSquareError functions TBR=kjellander@chromium.org R=fbarchard@google.com Bug:libyuv:634 Change-Id: Id0126ba5aff38817525b1efa6044f1dc2cfa1a36 Reviewed-on: https://chromium-review.googlesource.com/625739 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-09-05 21:32:33 +00:00
Frank Barchard	0acc67712f	clang format / lint cleanup for arm scale functions TBR=kjellander@chromium.org BUG=libyuv:725 TEST=lint Change-Id: I76f777427f9b1458faba12796fb0011d8e3228d5 Reviewed-on: https://chromium-review.googlesource.com/646586 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-31 22:41:08 +00:00
Frank Barchard	a826dd7112	ARGBScaleDown by 2 with nearest neighbor optimized TBR=kjellander@chromium.org BUG=libyuv:723 TEST=ScaleDownBy2_None Change-Id: I6861e62d3a67dde916b87fdc46eb02f2b4ee9f17 Reviewed-on: https://chromium-review.googlesource.com/644149 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-30 23:22:14 +00:00
Frank Barchard	1c85f98846	Scale down by 2 linear use 'half add' to average pixels. Use ld2 to load even and odd pixels into different registers and hadd to half add them to each other. Previously used paired and shift. TBR=kjellander@chromium.org BUG=libyuv:723 TEST=ScaleDownBy2_Linear Change-Id: I3ec72bcf7d4c746837217496c301eb4e4ad963cf Reviewed-on: https://chromium-review.googlesource.com/644113 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-30 22:10:32 +00:00
Frank Barchard	e200738d82	Scale Down by 2 use ld2 and urhadd urhadd is a rounded average. Linear filter wants to average horizontally, so use ld2 to separate even and odd pixels. TBR=jkellander@chromium.org BUG=None TEST=LibYUVScaleTest.ScaleDownBy2 Change-Id: Id667288a030e72ce8e1c1d6719b69c555c0db063 Reviewed-on: https://chromium-review.googlesource.com/642448 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-30 01:18:11 +00:00
Manojkumar Bhosale	b6e8e9aa97	Add MSA optimized HalfFloatRow function TBR=kjellander@chromium.org R=fbarchard@google.com Bug:libyuv:634 Change-Id: I54a2c57d66093b887c8ba31fd7a21a102165393a Reviewed-on: https://chromium-review.googlesource.com/628557 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-29 18:40:08 +00:00
Frank Barchard	f0a9d6d206	Gaussian reorder for benefit of A73 Roughly. instead of 4 loads and 8 multiples, use 1 load and 2 multiples 4 times over. The original code, as with the C code from clang and gcc, did all the loads, then all the math, then the store. The new code does a load, then the math, then the next load, etc. This schedules better on current arm 64 cpus. Number of registers also reduced, reusing the same registers. HiSilicon ARM A73: Now TestGaussRow_Opt (890 ms) TestGaussCol_Opt (571 ms) Was TestGaussRow_Opt (1061 ms) TestGaussCol_Opt (595 ms) Qualcomm 821 (Pixel): Now TestGaussRow_Opt (571 ms) TestGaussCol_Opt (474 ms) Was TestGaussRow_Opt (751 ms) TestGaussCol_Opt (520 ms) TBR=kjellander@chromium.org BUG=libyuv:719 TEST=LibYUVPlanarTest.TestGaussRow_Opt Reviewed-on: https://chromium-review.googlesource.com/627478 Reviewed-by: Cheng Wang <wangcheng@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com> Change-Id: I5ec81191d460801f0d4a89f0384f89925ff036de Reviewed-on: https://chromium-review.googlesource.com/634448 Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-08-25 19:00:05 +00:00
Frank Barchard	ad2409443c	GaussRow_NEON from int to short [ RUN ] LibYUVPlanarTest.TestGaussRow_Opt [ OK ] LibYUVPlanarTest.TestGaussRow_Opt (601 ms) [ RUN ] LibYUVPlanarTest.TestGaussCol_Opt [ OK ] LibYUVPlanarTest.TestGaussCol_Opt (522 ms) TBR=kjellander@chromium.org BUG=libyuv:719 TEST=LibYUVPlanarTest.TestGaussRow_Opt Change-Id: I1242b98672538e889f3ab48f215d6dabc7144ea7 Reviewed-on: https://chromium-review.googlesource.com/627478 Reviewed-by: Cheng Wang <wangcheng@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-24 01:09:23 +00:00
Frank Barchard	1cc539f7d6	GaussCol_NEON resample from short to int Old NEON LibYUVPlanarTest.TestGaussCol_Opt (916 ms) New NEON LibYUVPlanarTest.TestGaussCol_Opt (520 ms) C vectorized LibYUVPlanarTest.TestGaussCol_Opt (739 ms) TBR=kjellander@chromium.org BUG=libyuv:719 TEST=LibYUVPlanarTest.TestGaussCol_Opt Change-Id: I863b66f700f7a71fcb08a2eabb03240fdaf8a238 Reviewed-on: https://chromium-review.googlesource.com/626938 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-22 23:07:17 +00:00
Frank Barchard	c5bad809b1	Gauss unittest, Scale comments for neon64 half size updated [ RUN ] LibYUVPlanarTest.TestGaussRow_Opt [ OK ] LibYUVPlanarTest.TestGaussRow_Opt (1274 ms) [ RUN ] LibYUVPlanarTest.TestGaussCol_Opt [ OK ] LibYUVPlanarTest.TestGaussCol_Opt (916 ms) TBR=kjellander@chromium.org BUG=libyuv:719 TEST=LibYUVPlanarTest.TestGaussRow_Opt Change-Id: Id480f3870c40c2b40dfb9f072cb7118ebad41afc Reviewed-on: https://chromium-review.googlesource.com/624701 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-21 23:41:46 +00:00
Frank Barchard	0c957d183e	Gaussian blur NEON optimized TBR=kjellander@chromium.org BUG=libyuv:719 TEST=TestGaussCol_NEON Change-Id: I52cb6dbfd0cab4a30205c93b6a528ef49e9ab529 Reviewed-on: https://chromium-review.googlesource.com/621708 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-21 21:18:32 +00:00
Frank Barchard	8cd3e4f3f2	Add MSA optimized ScaleFilterCols, ScaleARGBCols, ScaleARGBFilterCols and ScaleRowDown34 functions TBR=kjellander@chromium.org R=fbarchard@google.com Bug:libyuv:634 Change-Id: Ib139b9701fc67e24d27a6886377c0cb8b2773fda Reviewed-on: https://chromium-review.googlesource.com/620791 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-18 17:23:27 +00:00
Frank Barchard	78e44628c6	Add MSA optimized SplitUV, Set, MirrorUV, SobelX and SobelY row functions. TBR=kjellander@chromium.org R=fbarchard@google.com Bug:libyuv:634 Change-Id: Ie2342f841f1bb8469fc4631b784eddd804f5d53e Reviewed-on: https://chromium-review.googlesource.com/616765 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-17 18:39:22 +00:00
Frank Barchard	bb17da97cf	Test C vs NEON for ScaleDown2Box_16 TBR=kjellander@chromium.org BUG=libyuv:718 TEST=LibYUVScaleTest.TestScaleRowDown2Box_16 Change-Id: Ic74d29d6f14983ff26e8af541ef702a0f8bf3f17 Reviewed-on: https://chromium-review.googlesource.com/616189 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-16 22:18:48 +00:00
Frank Barchard	7e59ee4c75	Upsample 8x2 pixels to 16x1 with bilinear filtering Downsample 16x2 to 8x1 with box filtering [ RUN ] LibYUVScaleTest.TestScaleRowUp2_16 [ OK ] LibYUVScaleTest.TestScaleRowUp2_16 (579 ms) [ RUN ] LibYUVScaleTest.TestScaleRowDown2Box_16 [ OK ] LibYUVScaleTest.TestScaleRowDown2Box_16 (329 ms) [----------] 2 tests from LibYUVScaleTest (909 ms total) TBR=kjellander@chromium.org BUG=libyuv:718 TEST=LibYUVScaleTest.TestScaleRowUp2_16 and LibYUVScaleTest.TestScaleRowDown2Box_16 Change-Id: I457d44123f2751e5f71bf3935401fff74b8e9db2 Reviewed-on: https://chromium-review.googlesource.com/608876 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-15 22:28:15 +00:00
Frank Barchard	56bbcdf422	Reintroduce the max version of scale add ScaleMaxSamples_NEON function with max done on original values. TBR=kjellander@chromium.org BUG=libyuv:717 TEST=LibYUVPlanarTest.TestScaleMaxSamples_Opt Change-Id: Id99338860782b10ffd24f66242eb42014c2e229e Reviewed-on: https://chromium-review.googlesource.com/614685 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-14 23:33:56 +00:00
Manojkumar Bhosale	dbd7c1a9c5	Add MSA optimized ARGBExtractAlpha, ARGBBlend, ARGBQuantize and ARGBColorMatrix row functions TBR=kjellander@chromium.org R=fbarchard@google.com Bug:libyuv:634 Change-Id: I17bd3f87336f613ad363af7d7b9d7af49d725e56 Reviewed-on: https://chromium-review.googlesource.com/613100 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-14 17:38:31 +00:00
Frank Barchard	83ca1abe09	Change ScaleSumSamples to return Sum of Squares TBR=kjellander@chromium.org BUG=libyuv:717 TEST=LibYUVPlanarTest.TestScaleSumSamples_Opt Change-Id: I5208666f3968c5c4b0f1b0c951f24216d78ee3fe Reviewed-on: https://chromium-review.googlesource.com/607184 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-09 22:19:45 +00:00
Frank Barchard	8676ad7004	scale float samples and return max value BUG=libyuv:717 TEST=ScaleSum unittest to compare C vs Arm implementation TBR=kjellander@chromium.org Change-Id: Iaa7af5547d979aad4722f868d31b405340115748 Reviewed-on: https://chromium-review.googlesource.com/600534 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-04 23:34:30 +00:00
Frank Barchard	27036e33e8	Revert "include <new> header for benefit of new clang builds" This reverts commit 1dda4cb0b7bd564e646d6ec2efee497fcd7146ca. Reason for revert: build error on jpeg FILE Original change's description: > include <new> header for benefit of new clang builds > > TBR=kjellander@chromium.org > BUG=libyuv:712 > TEST=local builds still work > > Change-Id: I040e8edc40aafd820d2a29629fe7aec5c049bc6b > Reviewed-on: https://chromium-review.googlesource.com/576971 > Reviewed-by: Frank Barchard <fbarchard@google.com> > Commit-Queue: Frank Barchard <fbarchard@google.com> TBR=kjellander@chromium.org,fbarchard@google.com # Not skipping CQ checks because original CL landed > 1 day ago. Bug: libyuv:712 Change-Id: I4cf4e26eadb476017dc95e6c9578092204f088a3 Reviewed-on: https://chromium-review.googlesource.com/601211 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-03 22:03:47 +00:00
Frank Barchard	6d083e2d12	clang 6 build disable some msa functions R=kjellander@chromium.org Bug: libyuv:715 Test: gn gen out/Release "--args=is_debug=false target_os=\"android\" target_cpu=\"mips64el\" mips_arch_variant=\"r6\" mips_use_msa=true is_component_build=true is_clang=true" Change-Id: Ia3943b0afc02e05a8bc32350719b296b0b9d5479 Reviewed-on: https://chromium-review.googlesource.com/592720 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-08-03 17:44:35 +00:00
Frank Barchard	1dda4cb0b7	include <new> header for benefit of new clang builds TBR=kjellander@chromium.org BUG=libyuv:712 TEST=local builds still work Change-Id: I040e8edc40aafd820d2a29629fe7aec5c049bc6b Reviewed-on: https://chromium-review.googlesource.com/576971 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-07-19 17:47:31 +00:00
Frank Barchard	6c94ad13b5	Remove ARM NaCL macros from source NaCL has been disabled for awhile, so the code will still build, but only with C versions. This change removes the MEMACCESS() macros from Neon and Neon64 source. BUG=libyuv:702 TEST=try bots build for arm. R=kjellander@chromium.org Change-Id: Id581a5c8ff71e18cc69595e7fee9337f97c44a19 Reviewed-on: https://chromium-review.googlesource.com/528332 Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-06-09 22:22:07 +00:00
Frank Barchard	5f94a33e0c	Lint fix for C casting for rotation code on arm instead of casting int to int64, pass the int and use %w modifier to use the word version of the register. TBR=kjellander@chromium.org BUG=libyuv:706 TEST=git cl lint R=wangcheng@google.com Change-Id: Iee5a70f04d928903ca8efac00066b8821a465e36 Reviewed-on: https://chromium-review.googlesource.com/528381 Reviewed-by: Cheng Wang <wangcheng@google.com> Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-06-09 00:51:00 +00:00
Frank Barchard	d981495b42	Hamming Distance using 16 bit accumulators Summing 16 bit hamming codes restricts the maximum length, but saves an inner loop instruction. The outer loop can sum the values. 32 bit Neon Now BenchmarkHammingDistance_Opt (78 ms) Was BenchmarkHammingDistance_Opt (92 ms) 64 bit Neon Now BenchmarkHammingDistance_Opt (85 ms) Was BenchmarkHammingDistance_Opt (92 ms) R=wangcheng@google.com TBR=kjellander@chromium.org BUG=libyuv:701 TEST=BenchmarkHammingDistance Change-Id: Ie40f0eac2f3339c33b833b42af5d394b122066ae Reviewed-on: https://chromium-review.googlesource.com/526932 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-06-07 23:23:24 +00:00
Frank Barchard	790e0634a8	Port HammingDistance_NEON 32 bit code to 64 bit The 32 bit version of HammingDistance_NEON accumulates using vertical add and paired adds, which takes 3 instructions instead of 4. The instructions are also portable between 32 and 64 bit. Was BenchmarkHammingDistance_Opt (105 ms) Now BenchmarkHammingDistance_Opt (90 ms) TBR=kjellander@chromium.org BUG=libyuv:701 TEST=BenchmarkHammingDistance BenchmarkHammingDistance_Opt (90 ms) Change-Id: If9e621e0bd2fe2492a1532056f8a1b451ba53d7e Reviewed-on: https://chromium-review.googlesource.com/526365 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-06-07 01:04:35 +00:00
Frank Barchard	47d6eaa377	HammingDistance_NEON optimized looping BenchmarkHammingDistance_Opt (93 ms) BenchmarkHammingDistance_C (389 ms) TBR=kjellander@chromium.org BUG=libyuv:701 TEST=BenchmarkHammingDistance Change-Id: I4ba920751eb130cac6a276e441a7c309c495554a Reviewed-on: https://chromium-review.googlesource.com/526401 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-06-07 00:09:59 +00:00
Frank Barchard	baf5248242	HammingDistance_NEON ported to 32 bit TBR=kjellander@chromium.org BUG=libyuv:701 TEST=BenchmarkHammingDistance Change-Id: I252efd8a27aa11a0fe7d8030d7c8b57f20f04760 Reviewed-on: https://chromium-review.googlesource.com/525232 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-06-06 17:58:29 +00:00
Frank Barchard	44abf70187	ScaleDown odd functions adjust math so last pixel is half width source. existing test passes out/Release/libyuv_unittest --gtest_filter=Blend --libyuv_width=33 --libyuv_height=16 new test added BUG=libyuv:705 TEST=LibYUVScaleTest.TestScaleOdd Change-Id: Ica91812aee2e4ed9bcc18df4962b089c2e4ae704 Reviewed-on: https://chromium-review.googlesource.com/524932 Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-06-06 01:37:26 +00:00
Frank Barchard	7bffe5e1c5	lint warning fixes for CpuID The CpuId function is a wrapper for the intrinsic, or implemented with inline if unavailable. It had been using uint32, but the intrinsics use int, so it was causing casting and lint warnings. This change makes the internal implementation use int. Casting was also done for xgetbv, and the cast is simply removed, and is not causing a build error. MipCpuCaps was doing strlen to check for white space after the instruction set. Arm also does this but with a hard coded offset. This was causing a cast from size_t to int, which produced a lint warning. The change removes the white space detect. In theory the code could be used to detect SSE vs SSE2, and it would need to check SSE is followed by a space or end of line. But this code is only used on Arm and Mips, where there there is one form of SIMD detected. e.g. MSA for mips. If a new instruction set is added with a similar name, the write space check could be reintroduced. But its more likely the code can be rewritten to use a better form of detection by then. Or remove detection and require the instructions BUG=libyuv:641 TEST=try bots build on all platforms without error and lint is clean Change-Id: I9f55f8e57bba0f78571bdddbe63b945dea3e8809 Reviewed-on: https://chromium-review.googlesource.com/514524 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com> Reviewed-by: Wan-Teh Chang <wtc@chromium.org>	2017-05-25 22:00:17 +00:00
Frank Barchard	8edd2286fd	MaskCpuFlags return cpuinfo so InitCpuFlags can call it Reduce number of atomic references to cpu_info by making InitCpuFlags call MaskCpuFlags and return the same value. BUG=libyuv:641 TEST=libyuv_unittests pass Change-Id: I5dfff8f7a10671bc8ef3ec0ed6f302791e752faa Reviewed-on: https://chromium-review.googlesource.com/514145 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-05-24 22:27:03 +00:00
Frank Barchard	651ccc0c3a	Fix data races in libyuv::TestCpuFlag(). Detect the compiler's support of C11 atomics, and use C11 atomics when available. Note that libyuv::MaskCpuFlags() is still not thread-safe. BUG=libyuv:641 TEST= cpu_thread_test.cc adds a pthread based test R=wangcheng@google.com Change-Id: If05b1e16da833105a0159ed67ef20f4e61bc7abd Reviewed-on: https://chromium-review.googlesource.com/510079 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-05-24 02:09:03 +00:00
Frank Barchard	77f6916da2	use __popcnt for visual c HammingDistance_X86 BUG=libyuv:701 TEST=HammingDistance unittest performance is comparable to x64 R=wangcheng@google.com Change-Id: I8abe861e086e0162ba4c7ba6f1ef7d1c006cd9d4 Reviewed-on: https://chromium-review.googlesource.com/505454 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-05-12 22:59:00 +00:00
Frank Barchard	e0615c0e69	Optimize Hamming Distance C code to do 64 bits at a time. BUG=libyuv:701 TEST=LibYUVBaseTest.BenchmarkHammingDistance_C R=wangcheng@google.com Change-Id: I243003b098bea8ef3809298bbec349ed52a43d8c Reviewed-on: https://chromium-review.googlesource.com/499487 Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-05-12 17:53:52 +00:00
Frank Barchard	bbbf30eecd	Remove volatile from variables to improve performance BUG=libyuv:703 TEST=compile and disassemble. see registers used not stack. R=wangcheng@google.com Change-Id: Iaa07ee5d0c35252994491bb2868276e161149efd Reviewed-on: https://chromium-review.googlesource.com/500427 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-05-09 18:14:21 +00:00
Frank Barchard	2136e349da	Hamming code difference of 2 memory blocks BUG=libyuv:701 TEST=built and disassembled for aarch64 R=kjellander@chromium.org Change-Id: I7712b1c7934e5dfb55fda1fa7c8405c32d6964ce Reviewed-on: https://chromium-review.googlesource.com/495327 Reviewed-by: Henrik Kjellander <kjellander@chromium.org> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-05-08 21:37:51 +00:00
Frank Barchard	945ea1b746	mips switch sgtu to sltu for clang in ndk r14 The verion of clang in ndk r14 (3.9) has a built in llvm assembler that does not have the sgtu pseudo instruction. sltu is the actual instruction, so switch the 2 operands and use the instruction instead of the pseudo op. BUG=libyuv:700 TEST=try bots build mips without error. Change-Id: I2d5f94f81acbd56cdedea011e7d9308979e19079 Reviewed-on: https://chromium-review.googlesource.com/494026 Reviewed-by: Henrik Kjellander <kjellander@chromium.org>	2017-05-02 21:34:13 +00:00
Vignesh Venkatasubramanian	54289f1bb0	Fix mips build on android ndk r14+ Revert the workaround and fix it properly by passing the additional necessary flag to the compiler. BUG=libyuv:700 Change-Id: I1c893a8acb5079decbee6963b689424bf2f99f4f Reviewed-on: https://chromium-review.googlesource.com/487881 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-04-26 08:39:55 +00:00
Frank Barchard	3b583396bf	Disable CopyRow_MIPS CopyRow_MIPS produces a compile error on some compilers. TBR=kjellander@chromium.org BUG=libyuv:700 TEST=try bots Change-Id: Ie88f2006ef5cf14bffaf80fd4c0dd1caa409c569 Reviewed-on: https://chromium-review.googlesource.com/486127 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-04-25 01:31:13 +00:00
Frank Barchard	fc02cc3806	Add I422ToRGB565 BUG=libyuv:699 TESTED=LibYUVConvertTest.I420ToARGB_RGB565_Opt Change-Id: I87943bcad056fbbe051301f45c7dc0ae0620c837 Reviewed-on: https://chromium-review.googlesource.com/478578 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-04-17 17:51:17 +00:00
Frank Barchard	8cab2e31d7	I422ToRGB565 fix for odd widths I422ToRGB565Row_Any_AVX2 uses 2 step row conversion that calls I422ToARGBRow_AVX2 and then ARGBToRGB565. I422ToARGBRow_AVX2 expects multiple of 16 pixels. Adjust the I422ToRGB565Row_Any_AVX2 to do multiple of 16 with AVX2 and then remainder in a buffer. Bug: libyuv: 657 Test: out/Release/libyuv_unittest --gtest_filter=ConvertITo --libyuv_width=1280 --libyuv_height=720 Change-Id: Ice1cb6c7ff6b2295513e8b4a9f77522e1c659810 Reviewed-on: https://chromium-review.googlesource.com/474232 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Henrik Kjellander <kjellander@chromium.org>	2017-04-11 17:24:05 +00:00
Frank Barchard	2adb84e39e	make gflags command line parser optional BUG=libyuv:691 TEST=gn gen out/Release "--args=is_debug=false target_cpu=\"x64\" libyuv_include_tests=true" Change-Id: Ib481189be884c34d9bbc30bfcf71c7969c6f4dae Reviewed-on: https://chromium-review.googlesource.com/452736 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-03-14 01:52:52 +00:00
Frank Barchard	d59d3fcd18	Change parameter for '_Any' functions to param to avoid misnomer BUG=None TEST=None Change-Id: I6940fc4753783afd25f83868635381bf801c65f5 Reviewed-on: https://chromium-review.googlesource.com/452962 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-03-10 23:32:39 +00:00
Frank Barchard	e6fec061cf	lint cleanup for convert RGB24ToI420 RGB24, RAW, RGB565, ARGB1555 and ARGB4444 have conditional 2 pass versus direct path. 2 pass method requires a buffer that is conditionally allocated. ifdef's were confusing lint. simplifed ifdefs to clean up lint warning BUG=libyuv:692 TEST=lint source/convert.cc Change-Id: If868718af30b48824a5e3d28f0d7d01d4609ad55 Reviewed-on: https://chromium-review.googlesource.com/451552 Reviewed-by: Henrik Kjellander <kjellander@chromium.org> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-03-09 10:32:23 +00:00
Frank Barchard	73a603e120	clang-format 5.0 applied to libyuv BUG=None TEST=try bots and lint test Change-Id: I1ab462adf2d309117862c5eb4b244a61ae202951 Reviewed-on: https://chromium-review.googlesource.com/450658 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Henrik Kjellander <kjellander@chromium.org>	2017-03-08 18:50:12 +00:00
Frank Barchard	136aa9d37c	any11p fix for buffer overrun BUG=libyuv:686 TESTED=untested Change-Id: Idfae93349dd78b1b633a596631e5397e11b77d0b Reviewed-on: https://chromium-review.googlesource.com/448320 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Henrik Kjellander <kjellander@chromium.org> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-03-03 19:57:35 +00:00
Frank Barchard	91ee9b729e	Fix missing return in MipsCpuCaps. Previously if MipsCpuCaps were called with something other than dspr2 or msa, the file was closed but still used. This change assumed the function is only called internally twice: once for msa and once for dspr2. If msa is not being detected, the function assumed dspr2 was being tested and returns dspr2 was true. BUG=libyuv:687 TEST=try bots Change-Id: I80b328eb5ffc7baf5f1ee5a79c16d75c45ff26cc Reviewed-on: https://chromium-review.googlesource.com/447831 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-03-01 23:07:03 +00:00
Manojkumar Bhosale	45b176d153	Add MSA optimized Interpolate/MergeUV/Misc functions BUG=libyuv:634 Change-Id: If8d60bd57f01fe95bc2fd26196466574195cc126 Performance Gain (vs C auto-vectorized) InterpolateRow_MSA - ~3.3x InterpolateRow_Any_MSA - ~2.5x ARGBSetRow_MSA - ~1.0x ARGBSetRow_Any_MSA - ~1.0x ARGBToRGB24Row_MSA - ~1.9x ARGBToRGB24Row_Any_MSA - ~1.6x MergeUVRow_MSA - ~1.6x MergeUVRow_Any_MSA - ~1.2x Performance Gain (vs C non-vectorized) InterpolateRow_MSA - ~11.3x InterpolateRow_Any_MSA - ~ 7.9x ARGBSetRow_MSA - ~ 6.2x ARGBSetRow_Any_MSA - ~ 4.0x ARGBToRGB24Row_MSA - ~ 9.9x ARGBToRGB24Row_Any_MSA - ~ 8.4x MergeUVRow_MSA - ~12.7x MergeUVRow_Any_MSA - ~ 8.0x Change-Id: If8d60bd57f01fe95bc2fd26196466574195cc126 Reviewed-on: https://chromium-review.googlesource.com/445817 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-23 01:42:22 +00:00
Manojkumar Bhosale	eed66b2028	Add MSA optimized I444/I400/J400/YUY2/UYVY to ARGB row functions BUG=libyuv:634 Change-Id: Ida80027c36a938a3bcf6f4480626f8eb9495e1be Performance Gain (vs C auto-vectorized) I444ToARGBRow_MSA - ~1.6x I444ToARGBRow_Any_MSA - ~1.6x I400ToARGBRow_MSA - ~5.5x I400ToARGBRow_Any_MSA - ~5.3x J400ToARGBRow_MSA - ~1.0x J400ToARGBRow_Any_MSA - ~1.0x YUY2ToARGBRow_MSA - ~1.6x YUY2ToARGBRow_Any_MSA - ~1.6x UYVYToARGBRow_MSA - ~1.6x UYVYToARGBRow_Any_MSA - ~1.6x Performance Gain (vs C non-vectorized) I444ToARGBRow_MSA - ~7.3x I444ToARGBRow_Any_MSA - ~7.1x I400ToARGBRow_MSA - ~5.5x I400ToARGBRow_Any_MSA - ~5.2x J400ToARGBRow_MSA - ~6.8x J400ToARGBRow_Any_MSA - ~5.7x YUY2ToARGBRow_MSA - ~7.2x YUY2ToARGBRow_Any_MSA - ~7.0x UYVYToARGBRow_MSA - ~7.1x UYVYToARGBRow_Any_MSA - ~6.9x Change-Id: Ida80027c36a938a3bcf6f4480626f8eb9495e1be Reviewed-on: https://chromium-review.googlesource.com/439246 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-21 23:22:07 +00:00
Frank Barchard	bbe8c233f2	scale warning fixes for unused parameters BUG=libyuv:680 TEST=builds and runs with no warnings Change-Id: I7d60ef44292fa6ad4f7c4e2e2657359b864d2dab Reviewed-on: https://chromium-review.googlesource.com/442670 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Henrik Kjellander <kjellander@chromium.org>	2017-02-15 21:38:59 +00:00
Frank Barchard	20ecb366ea	I420ToI400 fix for unused u and v arguments TBR=kjellander@chromium.org BUG=libyuv:679 TEST=None Change-Id: I830f31e0de58c967cb02c71f422df4c19c94c367 Reviewed-on: https://chromium-review.googlesource.com/441949 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-14 02:54:58 +00:00
Frank Barchard	1d5630ba2b	mjpeg_decoder - fix for unused parameter. TBR=kjellander@chromium.org BUG=libyuv:678 TEST=None Change-Id: I5206de2026b56f155531a76f94aeb6cb1b0cd6c9 Reviewed-on: https://chromium-review.googlesource.com/442090 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-14 02:22:57 +00:00
Frank Barchard	177d344ed7	enable unused parameter warning android.mk builds have unused parameter warning on by default. This change for GN makes libyuv build the same way. BUG=libyuv:681 TEST=build on linux with clang and ninja. Change-Id: I76c627d446b96653f147725bca915d94a42ce9a6 Reviewed-on: https://chromium-review.googlesource.com/441194 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-14 01:33:57 +00:00
Frank Barchard	6825b161d7	HalfFloat SSE2/AVX2 optimized port scheduling. Uses 1 add instead of 2 leas to reduce port pressure on ports 1 and 5 used for SIMD instructions. BUG=libyuv:670 TEST=~/iaca-lin64/bin/iaca.sh -arch HSW out/Release/obj/libyuv/row_gcc.o Change-Id: I3965ee5dcb49941a535efa611b5988d977f5b65c Reviewed-on: https://chromium-review.googlesource.com/433391 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-11 01:02:06 +00:00
Frank Barchard	7a54d0a302	row_msa fix clang build warnings. BUG=libyuv:634 TEST=untested Change-Id: Ib7f0c99e669ddba0a1efbd15895880281ad6303e Reviewed-on: https://chromium-review.googlesource.com/435303 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-02-07 09:36:28 +00:00
Frank Barchard	76e7f104ae	documentation updates BUG=None TEST=Untested Change-Id: I8ab95654255d1aa9cf05a664ecf59ee6c0757e66 Reviewed-on: https://chromium-review.googlesource.com/434941 Reviewed-by: Henrik Kjellander <kjellander@chromium.org> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-02 18:31:32 +00:00
Frank Barchard	0fb5675902	Fix dspr2 rename changes. Fix unused variables TBR=kjellander@chromium.org BUG=libyuv:634 TEST=try bots Review-Url: https://codereview.chromium.org/2675583002 .	2017-02-01 18:51:06 -08:00
Manojkumar Bhosale	54ce8f23d6	Add MSA optimized ARGB/ABGR/BGRA/RGBA To Y/UV row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C auto-vectorized) ARGBToYJRow_MSA - ~3.2x ARGBToYJRow_Any_MSA - ~2.7x BGRAToYRow_MSA - ~3.2x BGRAToYRow_Any_MSA - ~2.7x ABGRToYRow_MSA - ~3.2x ABGRToYRow_Any_MSA - ~2.6x RGBAToYRow_MSA - ~3.1x RGBAToYRow_Any_MSA - ~2.7x ARGBToUVJRow_MSA - ~5.5x ARGBToUVJRow_Any_MSA - ~4.5x BGRAToUVRow_MSA - ~2.1x BGRAToUVRow_Any_MSA - ~2.0x ABGRToUVRow_MSA - ~2.1x ABGRToUVRow_Any_MSA - ~1.9x RGBAToUVRow_MSA - ~2.2x RGBAToUVRow_Any_MSA - ~1.9x Performance Gain (vs C non-vectorized) ARGBToYJRow_MSA - ~10.9x ARGBToYJRow_Any_MSA - ~9.2x BGRAToYRow_MSA - ~10.9x BGRAToYRow_Any_MSA - ~9.3x ABGRToYRow_MSA - ~11.0x ABGRToYRow_Any_MSA - ~9.3x RGBAToYRow_MSA - ~10.9x RGBAToYRow_Any_MSA - ~9.1x ARGBToUVJRow_MSA - ~12.4x ARGBToUVJRow_Any_MSA - ~10.5x BGRAToUVRow_MSA - ~4.7x BGRAToUVRow_Any_MSA - ~4.4x ABGRToUVRow_MSA - ~4.7x ABGRToUVRow_Any_MSA - ~4.5x RGBAToUVRow_MSA - ~4.8x RGBAToUVRow_Any_MSA - ~4.4x Review-Url: https://codereview.chromium.org/2641153003 .	2017-02-01 10:31:28 +05:30
Frank Barchard	b89bcda273	Add comments for ARGBToUV_C and ARGBToUVJ_C ARGBToUV_C and ARGBToUVJ_C are generated functions with subtle difference in rounding. Adding comment to make them easier to find. TBR=kjellander@chromium.org BUG=libyuv:634 TEST=untested Change-Id: I9912d256a1e04c58475d33bdb472c37484f6cab9 Reviewed-on: https://chromium-review.googlesource.com/434980 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-01-30 23:44:05 +00:00
Frank Barchard	54f2094a5e	Rename mips source files to dspr2. Add MSA detect to unittest. Change macro to disable DSPR2 code to LIBYUV_DISABLE_DSPR2 BUG=libyuv:634 TEST=try bots Change-Id: I9e0aa2452204fc529bb6f9e6fd93c4e1c379bba6 Reviewed-on: https://chromium-review.googlesource.com/433463 Reviewed-by: Henrik Kjellander <kjellander@chromium.org> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-01-27 23:11:43 +00:00
Frank Barchard	749e316ed8	Remove commented out code TEST=None BUG=libyuv:672 Change-Id: Ia5949fb20913e4397e62d6a302c89a27dbd7e169 Change-Id: Ia5949fb20913e4397e62d6a302c89a27dbd7e169 Reviewed-on: https://chromium-review.googlesource.com/430321 Reviewed-by: Aaron Gable <agable@chromium.org>	2017-01-20 02:03:12 +00:00
Manojkumar Bhosale	09b8c971b3	Add MSA optimized NV12/21 To RGB row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C auto-vectorized) NV12ToARGBRow_MSA - ~1.5x NV12ToARGBRow_Any_MSA - ~1.4x NV12ToRGB565Row_MSA - ~1.4x NV12ToRGB565Row_Any_MSA - ~1.4x NV21ToARGBRow_MSA - ~1.5x NV21ToARGBRow_Any_MSA - ~1.5x SobelRow_MSA - ~4.3x SobelRow_Any_MSA - ~3.4x SobelToPlaneRow_MSA - ~8.0x SobelToPlaneRow_Any_MSA - ~4.7x SobelXYRow_MSA - ~3.0x SobelXYRow_Any_MSA - ~2.5x Performance Gain (vs C non-vectorized) NV12ToARGBRow_MSA - ~6.5x NV12ToARGBRow_Any_MSA - ~6.5x NV12ToRGB565Row_MSA - ~6.2x NV12ToRGB565Row_Any_MSA - ~6.1x NV21ToARGBRow_MSA - ~6.5x NV21ToARGBRow_Any_MSA - ~6.5x SobelRow_MSA - ~14.5x SobelRow_Any_MSA - ~11.3x SobelToPlaneRow_MSA - ~34.2x SobelToPlaneRow_Any_MSA - ~19.4x SobelXYRow_MSA - ~11.1x SobelXYRow_Any_MSA - ~9.1x Review-Url: https://codereview.chromium.org/2636483002 .	2017-01-18 09:24:39 +05:30
Frank Barchard	a7c87e19f0	add Intel Code Analyst markers add macros to enable/disable code analyst around blocks of code. Normally these macros should not be used, but if performance details are wanted for intel code, enable them around the code and then run via the iaca tool, available on the intel website. BUG=libyuv:670 TEST=~/iaca-lin64/bin/iaca.sh -64 out/Release/libyuv_unittest R=wangcheng@google.com Review-Url: https://codereview.chromium.org/2626193002 .	2017-01-13 15:50:24 -08:00
Manojkumar Bhosale	73a6f100a9	Add MSA optimized rotate functions (used 16x16 transpose) R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) TransposeWx16_MSA - ~6.0x TransposeWx16_Any_MSA - ~4.7x TransposeUVWx16_MSA - ~6.3x TransposeUVWx16_Any_MSA - ~5.4x Performance Gain (vs C non-vectorized) TransposeWx16_MSA - ~6.0x TransposeWx16_Any_MSA - ~4.8x TransposeUVWx16_MSA - ~6.3x TransposeUVWx16_Any_MSA - ~5.4x Review-Url: https://codereview.chromium.org/2617703002 .	2017-01-13 15:50:02 +05:30
Manojkumar Bhosale	7c64163ff4	Add MSA optimized RAW/RGB/ARGB to ARGB/Y/UV row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ARGB1555ToARGBRow_MSA - 1.85 ARGB1555ToARGBRow_Any_MSA - 1.82 RGB565ToARGBRow_MSA - 2.14 RGB565ToARGBRow_Any_MSA - 2.08 RGB24ToARGBRow_MSA - 8.57 RGB24ToARGBRow_Any_MSA - 7.42 RAWToARGBRow_MSA - 8.57 RAWToARGBRow_Any_MSA - 7.42 ARGB1555ToYRow_MSA - 2.60 ARGB1555ToYRow_Any_MSA - 2.47 RGB565ToYRow_MSA - 2.45 RGB565ToYRow_Any_MSA - 2.33 RGB24ToYRow_MSA - 2.23 RGB24ToYRow_Any_MSA - 2.01 RAWToYRow_MSA - 2.25 RAWToYRow_Any_MSA - 2.02 ARGB1555ToUVRow_MSA - 1.40 ARGB1555ToUVRow_Any_MSA - 1.37 RGB565ToUVRow_MSA - 1.68 RGB565ToUVRow_Any_MSA - 1.63 RGB24ToUVRow_MSA - 3.02 RGB24ToUVRow_Any_MSA - 2.87 RAWToUVRow_MSA - 3.04 RAWToUVRow_Any_MSA - 2.85 Performance Gain (vs C non-vectorized) ARGB1555ToARGBRow_MSA - 4.66 ARGB1555ToARGBRow_Any_MSA - 4.45 RGB565ToARGBRow_MSA - 5.58 RGB565ToARGBRow_Any_MSA - 5.34 RGB24ToARGBRow_MSA - 8.57 RGB24ToARGBRow_Any_MSA - 7.42 RAWToARGBRow_MSA - 8.57 RAWToARGBRow_Any_MSA - 7.42 ARGB1555ToYRow_MSA - 6.38 ARGB1555ToYRow_Any_MSA - 5.98 RGB565ToYRow_MSA - 6.42 RGB565ToYRow_Any_MSA - 6.05 RGB24ToYRow_MSA - 7.87 RGB24ToYRow_Any_MSA - 7.01 RAWToYRow_MSA - 7.98 RAWToYRow_Any_MSA - 7.01 ARGB1555ToUVRow_MSA - 5.39 ARGB1555ToUVRow_Any_MSA - 5.06 RGB565ToUVRow_MSA - 6.39 RGB565ToUVRow_Any_MSA - 5.90 RGB24ToUVRow_MSA - 3.04 RGB24ToUVRow_Any_MSA - 2.87 RAWToUVRow_MSA - 3.04 RAWToUVRow_Any_MSA - 2.88 Review-Url: https://codereview.chromium.org/2600713002 .	2017-01-13 15:43:37 +05:30
Frank Barchard	cb11559408	ConvertToARGB: Allows rotation on ARGB input BUG=libyuv:668 TEST=run unit tests R=fbarchard@google.com Review-Url: https://codereview.chromium.org/2620183002 .	2017-01-11 14:38:25 -08:00
Frank Barchard	000d2fa91a	Libyuv MIPS DSPR2 optimizations. Optimized functions: I444ToARGBRow_DSPR2 I422ToARGB4444Row_DSPR2 I422ToARGB1555Row_DSPR2 NV12ToARGBRow_DSPR2 BGRAToUVRow_DSPR2 BGRAToYRow_DSPR2 ABGRToUVRow_DSPR2 ARGBToYRow_DSPR2 ABGRToYRow_DSPR2 RGBAToUVRow_DSPR2 RGBAToYRow_DSPR2 ARGBToUVRow_DSPR2 RGB24ToARGBRow_DSPR2 RAWToARGBRow_DSPR2 RGB565ToARGBRow_DSPR2 ARGB1555ToARGBRow_DSPR2 ARGB4444ToARGBRow_DSPR2 ScaleAddRow_DSPR2 Bug-fixes in functions: ScaleRowDown2_DSPR2 ScaleRowDown4_DSPR2 BUG= Review-Url: https://codereview.chromium.org/2626123003 .	2017-01-11 12:19:13 -08:00
Manojkumar Bhosale	288bfbefb5	Add MSA optimized remaining scale row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ScaleRowDown2_MSA - ~22.3x ScaleRowDown2_Any_MSA - ~19.9x ScaleRowDown2Linear_MSA - ~31.2x ScaleRowDown2Linear_Any_MSA - ~29.4x ScaleRowDown2Box_MSA - ~20.1x ScaleRowDown2Box_Any_MSA - ~19.6x ScaleRowDown4_MSA - ~11.7x ScaleRowDown4_Any_MSA - ~11.2x ScaleRowDown4Box_MSA - ~15.1x ScaleRowDown4Box_Any_MSA - ~15.1x ScaleRowDown38_MSA - ~1x ScaleRowDown38_Any_MSA - ~1x ScaleRowDown38_2_Box_MSA - ~1.7x ScaleRowDown38_2_Box_Any_MSA - ~1.7x ScaleRowDown38_3_Box_MSA - ~1.7x ScaleRowDown38_3_Box_Any_MSA - ~1.7x ScaleAddRow_MSA - ~1.2x ScaleAddRow_Any_MSA - ~1.15x Performance Gain (vs C non-vectorized) ScaleRowDown2_MSA - ~22.4x ScaleRowDown2_Any_MSA - ~19.8x ScaleRowDown2Linear_MSA - ~31.6x ScaleRowDown2Linear_Any_MSA - ~29.4x ScaleRowDown2Box_MSA - ~20.1x ScaleRowDown2Box_Any_MSA - ~19.6x ScaleRowDown4_MSA - ~11.7x ScaleRowDown4_Any_MSA - ~11.2x ScaleRowDown4Box_MSA - ~15.1x ScaleRowDown4Box_Any_MSA - ~15.1x ScaleRowDown38_MSA - ~3.2x ScaleRowDown38_Any_MSA - ~3.2x ScaleRowDown38_2_Box_MSA - ~2.4x ScaleRowDown38_2_Box_Any_MSA - ~2.3x ScaleRowDown38_3_Box_MSA - ~2.9x ScaleRowDown38_3_Box_Any_MSA - ~2.8x ScaleAddRow_MSA - ~8x ScaleAddRow_Any_MSA - ~7.46x Review-Url: https://codereview.chromium.org/2559683002 .	2016-12-21 13:39:44 +05:30
Manojkumar Bhosale	a899dea251	Add MSA optimized ARGB Attenuate/RGB565/Shuffle/Shader/Gray/Sepia row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ARGBAttenuateRow_MSA - ~1.1x ARGBAttenuateRow_Any_MSA - ~1.1x ARGBToRGB565DitherRow_MSA - ~6.4x ARGBToRGB565DitherRow_Any_MSA - ~6.2x ARGBShuffleRow_MSA - ~5.1x ARGBShuffleRow_Any_MSA - ~1.9x ARGBShadeRow_MSA - ~1.1x ARGBGrayRow_MSA - ~2.6x ARGBSepiaRow_MSA - ~11.6x Performance Gain (vs C non-vectorized) ARGBAttenuateRow_MSA - ~2.46x ARGBAttenuateRow_Any_MSA - ~2.45x ARGBToRGB565DitherRow_MSA - ~9.4x ARGBToRGB565DitherRow_Any_MSA - ~12.5x ARGBShuffleRow_MSA - ~5.2x ARGBShuffleRow_Any_MSA - ~1.9x ARGBShadeRow_MSA - ~4.3x ARGBGrayRow_MSA - ~10.5x ARGBSepiaRow_MSA - ~12.2x Review-Url: https://codereview.chromium.org/2559693002 .	2016-12-15 12:06:02 +05:30
Manojkumar Bhosale	6fa5e4eb78	Add MSA optimized TransposeWx8_MSA and TransposeUVWx8_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) TransposeWx8_MSA - ~2.7x TransposeWx8_Any_MSA - ~2.1x TransposeUVWx8_MSA - ~2.5x TransposeUVWx8_Any_MSA - ~2.7x Performance Gain (vs C non-vectorized) TransposeWx8_MSA - ~4.6x TransposeWx8_Any_MSA - ~2.9x TransposeUVWx8_MSA - ~4.4x TransposeUVWx8_Any_MSA - ~3.7x Review URL: https://codereview.chromium.org/2553403002 .	2016-12-15 10:06:01 +05:30
Frank Barchard	b18fd21d3c	Android420ToI420 - use ptrdiff_t for difference of u and v pointers The difference was assigned to an int, causing a warning on Visual C. BUG=662 TEST=tested with try bots. R=devangelakos@google.com Review-Url: https://codereview.chromium.org/2574373002 .	2016-12-14 11:53:55 -08:00
Frank Barchard	dde8ba7009	ConvertFromI420: use halfstride instead of halfwidth BUG=libyuv:660 TEST=try bots R=kjellander@chromium.org Review URL: https://codereview.chromium.org/2554213003 .	2016-12-07 10:16:16 -08:00
Manojkumar Bhosale	56b5bbb0be	Add MSA optimized ARGB scaling functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ScaleARGBRowDown2_MSA - ~2.6x ScaleARGBRowDown2Linear_MSA - ~7.9x ScaleARGBRowDown2Box_MSA - ~3.7x ScaleARGBRowDownEven_MSA - ~1.2x ScaleARGBRowDownEvenBox_MSA - ~3.5x ScaleARGBRowDown2_Any_MSA - ~2.6x ScaleARGBRowDown2Linear_Any_MSA - ~7.9x ScaleARGBRowDown2Box_Any_MSA - ~3.6x ScaleARGBRowDownEven_Any_MSA - ~1.2x ScaleARGBRowDownEvenBox_Any_MSA - ~3.5x Performance Gain (vs C non-vectorized) ScaleARGBRowDown2_MSA - 2.6x ScaleARGBRowDown2Linear_MSA - 13.5x ScaleARGBRowDown2Box_MSA - 5.8x ScaleARGBRowDownEven_MSA - 1.2x ScaleARGBRowDownEvenBox_MSA - 3.7x ScaleARGBRowDown2_Any_MSA - 2.6x ScaleARGBRowDown2Linear_Any_MSA - 13.5x ScaleARGBRowDown2Box_Any_MSA - 5.3x ScaleARGBRowDownEven_Any_MSA - 1.2x ScaleARGBRowDownEvenBox_Any_MSA - 3.7x Review URL: https://codereview.chromium.org/2527983002 .	2016-12-07 11:47:15 +05:30
Manojkumar Bhosale	83f460be33	Add MSA optimized ARGB Multiply/Add/Subtract row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ARGBMultiplyRow_MSA - 1.4x ARGBAddRow_MSA - 8.6x ARGBSubtractRow_MSA - 8.6x ARGBMultiplyRow_Any_MSA - 1.35x ARGBAddRow_Any_MSA - 7.3x ARGBSubtractRow_Any_MSA - 7.2x Performance Gain (vs C non-vectorized) ARGBMultiplyRow_MSA - 4.4x ARGBAddRow_MSA - 27x ARGBSubtractRow_MSA - 22x ARGBMultiplyRow_Any_MSA - 3.5x ARGBAddRow_Any_MSA - 23x ARGBSubtractRow_Any_MSA - 18x Review URL: https://codereview.chromium.org/2529983002 .	2016-12-02 15:21:10 +05:30
Frank Barchard	da0c29dada	Add MSA optimized ARGBToRGB565Row_MSA, ARGBToARGB1555Row_MSA, ARGBToARGB4444Row_MSA, ARGBToUV444Row_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ARGBToRGB565Row_MSA - ~1.6x ARGBToRGB565Row_Any_MSA - ~1.6x ARGBToARGB1555Row_MSA - ~1.3x ARGBToARGB1555Row_Any_MSA - ~1.3x ARGBToARGB4444Row_MSA - ~3.8x ARGBToARGB4444Row_Any_MSA - ~3.8x ARGBToUV444Row_MSA - ~2.4x ARGBToUV444Row_Any_MSA - ~2.4x Performance Gain (vs C non-vectorized) ARGBToRGB565Row_MSA - ~2.8x ARGBToRGB565Row_Any_MSA - ~2.8x ARGBToARGB1555Row_MSA - ~2.2x ARGBToARGB1555Row_Any_MSA - ~2.2x ARGBToARGB4444Row_MSA - ~6.8x ARGBToARGB4444Row_Any_MSA - ~6.6x ARGBToUV444Row_MSA - ~6.7x ARGBToUV444Row_Any_MSA - ~6.7x Review URL: https://codereview.chromium.org/2520003004 .	2016-11-22 10:47:55 -08:00
Frank Barchard	b1504a8e48	Add MSA optimized ARGBToRGB24Row_MSA and ARGBToRAWRow_MSA functions R=fbarchard@google.com BUG=libyuv:634 Review URL: https://codereview.chromium.org/2487913004 .	2016-11-18 15:05:10 -08:00
Frank Barchard	3028e1bd97	clang-format row_gcc.cc with some functions disabled BUG=libyuv:654 TEST=try bots build R=kjellander@chromium.org Review URL: https://codereview.chromium.org/2484083003 .	2016-11-07 18:37:29 -08:00
Frank Barchard	e62309f259	clang-format libyuv BUG=libyuv:654 R=kjellander@chromium.org Review URL: https://codereview.chromium.org/2469353005 .	2016-11-07 17:37:23 -08:00
Frank Barchard	f2c27dafa2	HalfFloat neon armv7 fix for destination pointer. Improved unittests detect different in arm64 rounding. TEST=util/android/test_runner.py gtest -s libyuv_unittest -t 7200 --verbose --release --gtest_filter=Half -a "--libyuv_width=640 --libyuv_height=360" BUG=libyuv:560 R=wangcheng@google.com Review URL: https://codereview.chromium.org/2478313004 .	2016-11-07 12:13:04 -08:00
Frank Barchard	eca08525cb	HalfFloat Neon for ARMv7. 64 bit version made similar to 32 bit with registers 1 for load and store results, and 2 and 3 as expanded float temporary values. TEST=out/Release/libyuv_unittest --gtest_filter=Half BUG=libyuv:560 R=wangcheng@google.com Review URL: https://codereview.chromium.org/2467723002 .	2016-11-01 11:36:51 -07:00
Frank Barchard	10ce829bad	Add MSA optimized I422ToRGB565Row_MSA, I422ToARGB4444Row_MSA and I422ToARGB1555Row_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) I422ToRGB565Row_MSA : ~1.5x I422ToRGB565Row_Any_MSA : ~1.5x I422ToARGB4444Row_MSA : ~1.4x I422ToARGB4444Row_Any_MSA : ~1.4x I422ToARGB1555Row_MSA : ~1.4x I422ToARGB1555Row_Any_MSA : ~1.4x Performance Gain (vs C non-vectorized) I422ToRGB565Row_MSA : ~6.8x I422ToRGB565Row_Any_MSA : ~6.8x I422ToARGB4444Row_MSA : ~6.6x I422ToARGB4444Row_Any_MSA : ~6.6x I422ToARGB1555Row_MSA : ~6.6x I422ToARGB1555Row_Any_MSA : ~6.6x Review URL: https://codereview.chromium.org/2445343007 .	2016-10-27 10:47:35 -07:00
Frank Barchard	532f5708a9	Add MSA optimized I422AlphaToARGBRow_MSA and I422ToRGB24Row_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) I422AlphaToARGBRow_MSA : ~1.4x I422AlphaToARGBRow_Any_MSA : ~1.4x I422ToRGB24Row_MSA : ~4.8x I422ToRGB24Row_Any_MSA : ~4.8x Performance Gain (vs C non-vectorized) I422AlphaToARGBRow_MSA : ~7.0x I422AlphaToARGBRow_Any_MSA : ~7.0x I422ToRGB24Row_MSA : ~7.9x I422ToRGB24Row_Any_MSA : ~7.7x Review URL: https://codereview.chromium.org/2454433003 .	2016-10-26 11:12:17 -07:00
Frank Barchard	2488b3105b	White spaces, comments and lint fixes for msa. no functional changes. TBR=kjellander@chromium.org BUG=libyuv:634 Review URL: https://codereview.chromium.org/2446313002 .	2016-10-25 11:36:54 -07:00
Frank Barchard	c2073823b4	use __OPTIMIZE__ macro to determine debug vs release. Debug builds of x86 gcc/clang can run out of register. Previously NDEBUG or _DEBUG was used to detect a debug build. But those macros are not set by gentoo builds. This CL switches to the compiler predefine __OPTIMIZE__ which is built into clang and gcc. BUG=libyuv:602 TEST=untested R=wangcheng@google.com Review URL: https://codereview.chromium.org/2451503002 .	2016-10-24 18:02:48 -07:00
Frank Barchard	f5d5bd88d6	Add MSA optimized I422ToARGBRow_MSA and I422ToRGBARow_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gains :- (vs C vectorized) I422ToARGBRow_MSA : ~1.6x I422ToRGBARow_MSA : ~1.6x I422ToARGBRow_Any_MSA : ~1.58x I422ToRGBARow_Any_MSA : ~1.6x Performance Gains :- (vs C non-vectorized) I422ToARGBRow_MSA : ~7x I422ToRGBARow_MSA : ~7x I422ToARGBRow_Any_MSA : ~6.9x I422ToRGBARow_Any_MSA : ~6.8x Regarding performance measurement, We have created standalone tests which pass in row's data from a 1920x1080 filled buffer to both the C and MSA functions. And such N iterations are executed to get more accurate timings of C vs MSA. Review URL: https://codereview.chromium.org/2430313005 .	2016-10-24 15:37:08 -07:00
Frank Barchard	451af5e922	scale by 1 for neon implemented void HalfFloat1Row_NEON(const uint16* src, uint16* dst, float, int width) { asm volatile ( "1: \n" MEMACCESS(0) "ld1 {v1.16b}, [%0], #16 \n" // load 8 shorts "subs %w2, %w2, #8 \n" // 8 pixels per loop "uxtl v2.4s, v1.4h \n" // 8 int's "uxtl2 v1.4s, v1.8h \n" "scvtf v2.4s, v2.4s \n" // 8 floats "scvtf v1.4s, v1.4s \n" "fcvtn v4.4h, v2.4s \n" // 8 floatsgit "fcvtn2 v4.8h, v1.4s \n" MEMACCESS(1) "st1 {v4.16b}, [%1], #16 \n" // store 8 shorts "b.gt 1b \n" : "+r"(src), // %0 "+r"(dst), // %1 "+r"(width) // %2 : : "cc", "memory", "v1", "v2", "v4" ); } void HalfFloatRow_NEON(const uint16* src, uint16* dst, float scale, int width) { asm volatile ( "1: \n" MEMACCESS(0) "ld1 {v1.16b}, [%0], #16 \n" // load 8 shorts "subs %w2, %w2, #8 \n" // 8 pixels per loop "uxtl v2.4s, v1.4h \n" // 8 int's "uxtl2 v1.4s, v1.8h \n" "scvtf v2.4s, v2.4s \n" // 8 floats "scvtf v1.4s, v1.4s \n" "fmul v2.4s, v2.4s, %3.s[0] \n" // adjust exponent "fmul v1.4s, v1.4s, %3.s[0] \n" "uqshrn v4.4h, v2.4s, #13 \n" // isolate halffloat "uqshrn2 v4.8h, v1.4s, #13 \n" MEMACCESS(1) "st1 {v4.16b}, [%1], #16 \n" // store 8 shorts "b.gt 1b \n" : "+r"(src), // %0 "+r"(dst), // %1 "+r"(width) // %2 : "w"(scale * 1.9259299444e-34f) // %3 : "cc", "memory", "v1", "v2", "v4" ); } TEST=LibYUVPlanarTest.TestHalfFloatPlane_One BUG=libyuv:560 R=hubbe@chromium.org Review URL: https://codereview.chromium.org/2430313008 .	2016-10-21 14:30:03 -07:00
Frank Barchard	550cf829fb	HalfFloat avx2 unpack bug fix. AVX unpack parameters were reverse ordered causing incorrect results on AVX2 hardware. TEST=/usr/local/google/home/fbarchard/intelsde/sde -skx -- out/Release/libyuv_unittest --gtest_filter=Half BUG=libyuv:560 R=wangcheng@google.com Review URL: https://codereview.chromium.org/2438893002 .	2016-10-20 15:49:00 -07:00
Frank Barchard	f553db2d30	HalfFloatPlane unittest for denormal half floats Halffloats have a limited range. It shouldnt normally come up, but if the scale value passed in produces a small value, the half floats will be denormals, which are slow and/or flust to zero. This test ensures they behave the same in C and SIMD and tests the performance of denormals. TEST=TestHalfFloatPlane_denormal BUG=libyuv:560 R=hubbe@chromium.org Review URL: https://codereview.chromium.org/2424233004 .	2016-10-19 18:13:01 -07:00
Frank Barchard	78c58ab8aa	Add MSA optimized ARGB4444ToI420 and ARGB4444ToARGB functions R=fbarchard@google.com BUG=libyuv:634 Performance gains : (Auto-vectorized C vs MSA SIMD) ARGB4444ToYRow_MSA : ~3.0x ARGB4444ToUVRow_MSA : ~1.8x ARGB4444ToARGBRow_MSA : ~3.4x ARGB4444ToYRow_Any_MSA : ~2.8x ARGB4444ToUVRow_Any_MSA : ~1.7x ARGB4444ToARGBRow_Any_MSA : ~3.2x Review URL: https://codereview.chromium.org/2421843002 .	2016-10-19 11:10:51 -07:00
Frank Barchard	e16e3a629f	cpu_id cleanup. no functional change. remove old comment about initialize to zero. remove ifdef and replace with macro defined to zero. BUG=None TEST=try bots R=kjellander@chromium.org Review URL: https://codereview.chromium.org/2425623004 .	2016-10-18 12:26:02 -07:00
Frank Barchard	2d80fc3133	Port HalfFloatRow_SSE2 to AVX2 but not using F16C. R=wangcheng@google.com, hubbe@chromium.org BUG=libyuv:560 Review URL: https://codereview.chromium.org/2421993002 .	2016-10-14 19:01:41 -07:00
Frank Barchard	fdcf524aac	Add f16c (halffloat) cpuid R=wangcheng@google.com, hubbe@chromium.org BUG=libyuv:560 Review URL: https://codereview.chromium.org/2418763006 .	2016-10-14 16:34:08 -07:00
Frank Barchard	5333e94e70	Port ARGBExtractAlpha_AVX2 function to windows. BUG=libyuv:572 TEST=try bots R=wangcheng@google.com, magjed@chromium.org Review URL: https://codereview.chromium.org/2416783004 .	2016-10-13 23:20:57 -07:00
Frank Barchard	a5e93766a2	Add ARGBExtractAlpha_AVX2 function Port SSE2 version to AVX2. BUG=libyuv:572 TEST=/usr/local/google/home/fbarchard/intelsde/sde -skx -- out/Release/libyuv_unittest --gtest_filter=Extract R=wangcheng@google.com, magjed@chromium.org Review URL: https://codereview.chromium.org/2420553002 .	2016-10-13 16:03:43 -07:00
Frank Barchard	d363ea6527	Remove I411 support. YUV 411 is very uncommon format. Remove support. Update documentation to reflect that 411 is deprecated. Simplify tests for YUV to only test with the new side by side YUV but keep old 3 plane test around with a macro for now. BUG=libyuv:645 R=kjellander@chromium.org Review URL: https://codereview.chromium.org/2406123002 .	2016-10-11 11:14:16 -07:00
Frank Barchard	af87c11c9a	YUY2ToI422 coalesce rows for small images TBR=wangcheng@google.com BUG=libyuv:647 TESTED=LibYUVConvertTest.YUY2ToI422_Opt Review URL: https://codereview.chromium.org/2393393006 .	2016-10-07 18:35:42 -07:00
Frank Barchard	edd3a84d05	libyuv::YUY2ToY for isolating Y channel of YUY2. This function is the first step of YUY2 To I420. Provided primarily for diagnostics. TBR=wangcheng@google.com BUG=libyuv:647 TESTED=LibYUVConvertTest.YUY2ToY_Opt Review URL: https://codereview.chromium.org/2399153004 .	2016-10-07 17:20:30 -07:00
Frank Barchard	a2891ec77c	Add MSA optimized YUY2ToI422, YUY2ToI420, UYVYToI422, UYVYToI420 functions R=fbarchard@google.com BUG=libyuv:634 Performance gains as below, YUY2ToI422, YUY2ToI420 :- YUY2ToYRow_MSA : ~10x YUY2ToUVRow_MSA : ~11x YUY2ToUV422Row_MSA : ~9x YUY2ToYRow_Any_MSA : ~6x YUY2ToUVRow_Any_MSA : ~5x YUY2ToUV422Row_Any_MSA : ~4x UYVYToI422, UYVYToI420 :- UYVYToYRow_MSA : ~10x UYVYToUVRow_MSA : ~11x UYVYToUV422Row_MSA : ~9x UYVYToYRow_Any_MSA : ~6x UYVYToUVRow_Any_MSA : ~5x UYVYToUV422Row_Any_MSA : ~4x Review URL: https://codereview.chromium.org/2397693002 .	2016-10-07 10:37:22 -07:00
Frank Barchard	3b88a19ab1	YUY2ToI422_Any_Neon clean up to not require 16 pixels YUY2ToI422_Any_Neon previously required 16 pixels and duplicated the last pixel. The replication was not necessary after a previous change to treat YUY2 to 4 byte macro pixels. TBR=harryjin@google.com BUG=libyuv:648 TESTED=util/android/test_runner.py gtest -s libyuv_unittest -t 7200 --verbose --release --gtest_filter=YUY2ToI422 -a "--libyuv_width=17 --libyuv_height=7 --libyuv_repeat=999 --libyuv_flags=1" Review URL: https://codereview.chromium.org/2399143002 .	2016-10-06 12:11:40 -07:00
Frank Barchard	7018f5be0f	Add MSA optimized I422ToYUY2Row, I422ToUYVYRow functions R=fbarchard@google.com BUG=libyuv:634 Performance gains :- I422ToYUY2Row_MSA - ~12x I422ToYUY2Row_Any_MSA - ~7x I422ToUYVYRow_MSA - ~12x I422ToUYVYRow_Any_MSA - ~7x Review URL: https://codereview.chromium.org/2378753004 .	2016-10-03 18:21:31 -07:00
Frank Barchard	aa197ee1a3	HalfFloat_SSE2 for Visual C Low level support for 12 bit 420, 422 and 444 YUV video frame conversion. BUG=libyuv:560, chromium:445071 TEST=LibYUVPlanarTest.TestHalfFloatPlane on windows R=hubbe@chromium.org, wangcheng@google.com Review URL: https://codereview.chromium.org/2387713002 .	2016-10-03 10:33:38 -07:00
Frank Barchard	4a14cb2e81	HalfFloat_SSE2 port from C algorithm to SSE2 Low level support for 12 bit 420, 422 and 444 YUV video frame conversion. BUG=libyuv:560, chromium:445071 TEST=untested R=hubbe@chromium.org Review URL: https://codereview.chromium.org/2381493006 .	2016-09-30 09:47:16 -07:00
Frank Barchard	7fc932ddd3	Add low level support for 12 bit 420, 422 and 444 YUV video frame conversion. BUG=libyuv:560,chromium:445071 TEST=untested R=hubbe@chromium.org Review URL: https://codereview.chromium.org/2371293002 .	2016-09-29 15:06:30 -07:00
Frank Barchard	c11e9b7fb7	bt709 coefficients for video constrained space Original bt709 color space coefficients were full range yuv for higher quality. This change makes the coefficients use the video constrained color space the same as bt601 which is 16 to 240 for Y and 16 to 235 for chroma channels. BUG=libyuv:639 TEST=libyuv unittests run locally R=hubbe@chromium.org Review URL: https://codereview.chromium.org/2367253003 .	2016-09-28 15:07:46 -07:00
Frank Barchard	6732bcbde9	ShortToHalfFloat_AVX2 function BUG=libyuv:560 TEST=local compile for windows R=wangcheng@google.com Review URL: https://codereview.chromium.org/2364293002 .	2016-09-27 14:18:32 -07:00
Frank Barchard	618149084e	Add MIPS SIMD Arch (MSA) optimized ARGBMirrorRow function This patch adds MSA optimized ARGBMirrorRow function in libYUV project. Performance gain ~3x R=fbarchard@google.com BUG=libyuv:634 Review URL: https://codereview.chromium.org/2368313003 .	2016-09-26 16:28:01 -07:00
Frank Barchard	34a29bf756	fix warning on visual C for mips cpu detect follow up warning fixs cpu_id.cc(167): warning C4267: 'initializing': conversion from 'size_t' to 'int', possible loss of data lint warning: cpu_id.cc:171: Missing space before ( in if( [whitespace/parens] [5] TBR=manojkumar.bhosale@imgtec.com BUG=libyuv:634 TEST=try bots for windows. Review URL: https://codereview.chromium.org/2365813002 .	2016-09-22 18:25:52 -07:00
Frank Barchard	c5323b0fdc	Add MIPS SIMD Arch (MSA) optimized MirrorRow function As per the preparation patch added in Chromium sources at, 2150943003: Add MIPS SIMD Arch (MSA) build flags for GYP/GN builds This patch adds first MSA optimized function in libYUV project. BUG=libyuv:634 R=fbarchard@google.com Review URL: https://codereview.chromium.org/2285683002 .	2016-09-22 16:12:22 -07:00
Frank Barchard	6ad3aa6ae4	fix multi-line comment warning ../../source/scale_neon.cc:576:1: error: multi-line comment [-Werror=comment] // #define BLENDER(a, b, f) (uint8)((int)(a) + \ ^ BUG=None TEST=try bots Review URL: https://codereview.chromium.org/2344203003 .	2016-09-16 15:16:39 -07:00
Frank Barchard	8279df963e	Scale by 3/8 only if source is multiple of 8 tall. BUG=libyuv:635 TEST=try bots R=harryjin@google.com Review URL: https://codereview.chromium.org/2347733002 .	2016-09-16 14:57:47 -07:00
Frank Barchard	137aa63afe	Fix some comment typos BUG=None TEST=try bots Review URL: https://codereview.chromium.org/2346633002 .	2016-09-15 15:38:19 -07:00
Frank Barchard	de944ed8c7	YuvConstants declare alignment for externs as well as declarations On visual c 2013 and earlier a warning is generated if externs are not declared with the same alignment as the declaration, when using /ltcg BUG=libyuv:633 TEST=standalong test built with cl /Bv /GL /Ox /nologo a.cc b.cc /link /ltcg R=skal@google.com Review URL: https://codereview.chromium.org/2291533004 .	2016-08-30 11:06:46 -07:00
Frank Barchard	c244a3e9a0	Add SplitUVPlanes and MergeUVPlanes Add public methods SplitUVPlanes and MergeUVPlanes based on the optimized assembly functions that already exists. Also, de-duplicate the CPU dispatching code for these functions by moving them to helper functions. BUG=libyuv:629 R=braveyao@chromium.org Review URL: https://codereview.chromium.org/2277603004 .	2016-08-24 16:47:24 -07:00
Frank Barchard	161e5c4569	Allow NULL for dst_y in planar formats. BUG=libyuv:631 TEST=unittests build/pass BUG=libyuv:631 TEST=unittests build/pass R=harryjin@google.com Review URL: https://codereview.chromium.org/2271053003 .	2016-08-24 10:19:14 -07:00
Frank Barchard	17d31e6a4a	NV12 allow NULL for Y The conversion from NV12 and other Bi or Tri planar formats, differs only in the UV handling. The helper function supports passing a NULL for the dst_y channel indicating you only want to do the UV conversion. TBR=harryjin@google.com TEST=LibYUVConvertTest.NV12ToI420_NullY (601 ms) BUG=libyuv:626 Review URL: https://codereview.chromium.org/2276703002 .	2016-08-23 19:05:25 -07:00
Frank Barchard	d58297a2df	NV12ToI420 use SplitPlane function TBR=magjed@chromium.org BUG=libyuv:629 TEST=LibYUVConvertTest.NV12ToI420_Opt Review URL: https://codereview.chromium.org/2267303002 .	2016-08-22 18:35:55 -07:00
Frank Barchard	36ae08ce1c	Suppress MJPEG fprintf() runtime warning TBR=harryjin@google.com BUG=libyuv:630 TEST=local build and try bots pass Review URL: https://codereview.chromium.org/2264293002 .	2016-08-22 16:30:36 -07:00
Frank Barchard	46a8eaaf0c	fix typo in YUV R=braveyao@chromium.org BUG=None Review URL: https://codereview.chromium.org/2152623002 .	2016-07-13 17:17:19 -07:00
Frank Barchard	1aa4ddd21c	Attribute aligned 32 for YUV conversion structure on Intel Fix for unaligned memory exception. R=braveyao@chromium.org BUG=libyuv:616 Review URL: https://codereview.chromium.org/2152553002 .	2016-07-13 12:19:26 -07:00
Frank Barchard	abcb70f183	Test nv21 layout of Android420ToI420 function. to Y,U,V and a pixel stride for U and V. The pixel stride is expected to be 1 or 2. [ RUN ] LibYUVConvertTest.Android420ToI420_1_Any [ OK ] LibYUVConvertTest.Android420ToI420_1_Any (253 ms) [ RUN ] LibYUVConvertTest.Android420ToI420_1_Unaligned [ OK ] LibYUVConvertTest.Android420ToI420_1_Unaligned (250 ms) [ RUN ] LibYUVConvertTest.Android420ToI420_1_Invert [ OK ] LibYUVConvertTest.Android420ToI420_1_Invert (254 ms) [ RUN ] LibYUVConvertTest.Android420ToI420_1_Opt [ OK ] LibYUVConvertTest.Android420ToI420_1_Opt (247 ms) [ RUN ] LibYUVConvertTest.Android420ToI420_2_Any [ OK ] LibYUVConvertTest.Android420ToI420_2_Any (132 ms) [ RUN ] LibYUVConvertTest.Android420ToI420_2_Unaligned [ OK ] LibYUVConvertTest.Android420ToI420_2_Unaligned (122 ms) [ RUN ] LibYUVConvertTest.Android420ToI420_2_Invert [ OK ] LibYUVConvertTest.Android420ToI420_2_Invert (124 ms) [ RUN ] LibYUVConvertTest.Android420ToI420_2_Opt [ OK ] LibYUVConvertTest.Android420ToI420_2_Opt (119 ms) TEST=LibYUVConvertTest.Android420ToI420_Opt BUG=libyuv:604 R=braveyao@chromium.org Review URL: https://codereview.chromium.org/2146733002 .	2016-07-12 18:34:04 -07:00
Frank Barchard	84e04699c2	Add libyuv:Android420ToI420 function which takes 3 pointers to Y,U,V and a pixel stride for U and V. The pixel stride is expected to be 1 or 2. TEST=LibYUVConvertTest.Android420ToI420_Opt BUG=libyuv:604 R=braveyao@chromium.org Review URL: https://codereview.chromium.org/2114843002 .	2016-07-12 16:23:51 -07:00
Frank Barchard	2f101fdbda	mingw64 fix - guard row_win.cc against mingw build. The old guard only checked for defined(_M_X64) which is defined by mingw64. Add a test for defined(_MSC_VER) which is defined for clangcl and visual c but not mingw. mingw should use row_gcc.cc for both 32 and 64 bit. R=harryjin@google.com BUG=webm:1252,libyuv:613 TEST=local gcc/clang builds on linux tested and try bots for others. Review URL: https://codereview.chromium.org/2105603002 .	2016-06-28 10:21:27 -07:00
Frank Barchard	b8ddb5a2a7	rounding for arm filter R=wangcheng@google.com, harryjin@google.com BUG=libyuv:607 Review URL: https://codereview.chromium.org/2093913004 .	2016-06-24 16:07:49 -07:00
Frank Barchard	1b3e4aee47	make count a memory variable for 32 bit 32 bit clang runs out of registers and compiler does core dump. force 32 bit build to use memory variable for counter. BUG=libyuv:612 TBR=harryjin@google.com Review URL: https://codereview.chromium.org/2091913003 .	2016-06-23 20:42:10 -07:00
Frank Barchard	cc88adc620	YUV scale filter columns improved filtering accuracy upscale a YUV image. observe change in hue.. green especially. disable ScaleFilterCols_SSSE3, falling back on ScaleFilterCols_C observe hue.. green especially, is better. was ScaleFrom1280x720_Bilinear (1620 ms) now ScaleFrom1280x720_Bilinear (1907 ms) BUG=libyuv:605 TEST=try bots R=harryjin@google.com, wangcheng@google.com Review URL: https://codereview.chromium.org/2084533006 .	2016-06-23 20:16:55 -07:00
Niels Möller	365ed3851c	Treat YU12 as an alias for I420. Simplify setting of inv_crop_height. BUG= R=fbarchard@google.com Review URL: https://codereview.chromium.org/2020193002 .	2016-06-16 12:49:17 +02:00
Frank Barchard	fd3e676e91	android_full_debug x86 fix - use +rm for width count Work around for android full debug build runnign out of registers. 5 functions were running out of registers causing the compiler error error: 'asm' operand has impossible constraints These functions mostly have 4 pointers, a counter (width) and a tempory eax register. With fpic and debug using stackframes, 2 registers are unavailable. So a total of 8 registers are used. Although fpic and stack frame dont apply to assembly, the compiler reserves 2 registers. The optimized version builds, so its likely freeing up the registers once it knows they are not used. These functions used to build, so compile options and/or compiler may have updated.. likely fpic was turned on. An attribute can be done to disable each, and will avoid using the 2 GPR registers, but they are still reserved and unavailable in debug builds on current compilers (gcc 4.9 and clang 3.8). R=dhrosa@google.com BUG=libyuv:602 Review URL: https://codereview.chromium.org/2066933002 .	2016-06-14 15:25:28 -07:00
Frank Barchard	026be3cd85	neon64 use width int directly. width %w size modifier the int width can be passed directly to arm assembly. For functions that take input constants, the outputs are declared as early write using &, meaning the outputs use used before all inputs are consumed. R=harryjin@google.com BUG=libyuv:598 Review URL: https://codereview.chromium.org/2043073003 .	2016-06-08 10:26:53 -07:00
Frank Barchard	17e8a4d3df	Remove ifdefs for neon in row_neon*.cc ifdefs on a function level are not needed for neon functions, unless they are conditionally enabled in row.h. No functions are conditionally enabled at this time, so all ifdefs can be removed from row_neon.cc and row_neon64.cc TBR=kjellander@chromium.org BUG=libyuv:599 Review URL: https://codereview.chromium.org/2044223002 .	2016-06-07 14:34:13 -07:00
Frank Barchard	6546096269	ARGBExtractAlpha 16 pixels at a time for ARM arm64 8 TestARGBExtractAlpha (10019 ms) <-original 64 bit code arm64 8 x2 TestARGBExtractAlpha (7639 ms) arm64 16 TestARGBExtractAlpha (7369 ms) <- new 64 bit code thumb32 8 TestARGBExtractAlpha (9505 ms) <- original 32 bit code thumb32 8 x2 TestARGBExtractAlpha (7400 ms) thumb32 8 x2i TestARGBExtractAlpha (7266 ms) <- new 32 bit code arm32 8 TestARGBExtractAlpha (10002 ms) BUG=libyuv:572 TESTED=local test on nexus 9 R=harryjin@google.com, wangcheng@google.com Review URL: https://codereview.chromium.org/2035573002 .	2016-06-07 10:44:28 -07:00
Frank Barchard	b00d40160a	make unittest allocator align to 64 bytes. blur requires memory be aligned. change the unittest allocator to guarantee 64 byte alignment. re-enable blur any test that fails if memory is unaligned. TBR=harryjin@google.com BUG=libyuv:596,libyuv:594 TESTED=local build passes with row.h removed from tests. Review URL: https://codereview.chromium.org/2019753002 .	2016-05-27 18:02:47 -07:00
Frank Barchard	ade85fb55c	remove row.h from unittests add SIMD_ALIGNED to unittest header. BUG=libyuv:594 TESTED=local build passes with row.h removed from tests. R=harryjin@google.com Review URL: https://codereview.chromium.org/2001373002 .	2016-05-27 10:57:49 -07:00
Magnus Jedvert	942db3016a	Add ARGBExtractAlpha function BUG=libyuv:572 R=fbarchard@google.com Review URL: https://codereview.chromium.org/1995293002 .	2016-05-26 10:30:57 +02:00
Frank Barchard	74a69522da	white space fixes for MIPS TBR=kjellander@chromium.org BUG=None Review URL: https://codereview.chromium.org/2005053004 .	2016-05-24 14:17:18 -07:00
Frank Barchard	7edf572e28	remove includes for duplicate functions R=harryjin@google.com BUG=libyuv:592 TESTED=local builds work with fewer headers Review URL: https://codereview.chromium.org/2006943002 .	2016-05-23 17:38:26 -07:00
Frank Barchard	fbdc43a03c	fix wrong HAS_ARGBCOPYALPHAROW_SSE2 ifdef TBR=kjellander@chromium.org BUG=libyuv:593 TESTED=try bots pass. Review URL: https://codereview.chromium.org/2000393002 .	2016-05-23 16:26:02 -07:00
Frank Barchard	cf101116c9	Remove initialize to zero on output variables for inline. Inline that uses temporary variables is currently initializing them to 0 and passing in as output "+r". This CL replaces the output constraint to "=&r" for most meaning an output with early write (before inputs). This allows the initialize to zero step to be removed, saving 1 instruction. BUG=libyuv:580 TESTED=local libyuv build on gcc/linux and try bots R=harryjin@google.com Review URL: https://codereview.chromium.org/1895743008 .	2016-04-18 16:24:26 -07:00
Frank Barchard	9c53ff2c57	Fix temporary stride for ConvertToARGB with rotation. BUG=libyuv:578 TESTED=local unittests pass R=harryjin@google.com Review URL: https://codereview.chromium.org/1879783002 .	2016-04-11 15:21:04 -07:00
Frank Barchard	3c862e3d29	Fix stride bug for msan on I420Interpolate. When using C version of I420Interpolate for msan, a 50% interpolation would cause stride to be cast to int, which could cause erroneous memory reads on 64 bit build. This CL makes the stride use ptrdiff_t for HalfRow_C BUG=libyuv:582 TESTED=try bots tests R=dhrosa@google.com Review URL: https://codereview.chromium.org/1872953002 .	2016-04-08 15:58:53 -07:00
Frank Barchard	c7372a323a	add if defined(_MSC_FULL_VER) for NaCL TBR=kjellander@chromium.org BUG=libyuv:573 TESTED=try bots Review URL: https://codereview.chromium.org/1850053002 .	2016-04-01 17:48:23 -07:00
Frank Barchard	76aee8ced7	Remove most clang-cl special cases from cpu_id.cc They are not needed, and due to them there was a call to _xgetbv() without a declaration of the function. This used to work because we implicitly included intrin.h in all translation units with clang-cl, but we want to stop doing that. BUG=chromium:592745 R=fbarchard@google.com Review URL: https://codereview.chromium.org/1780473003 .	2016-03-10 14:01:26 -08:00
Frank Barchard	ee99b85126	Port ARGBToRGB565 from aarch64 neon to 32 bit The 64 bit version of ARGBToRGB565 to 32 bit. 64 bit is using sri which shifts and inserts, saving some masking. The instruction is available for neon 32 bit as well. R=magjed@chromium.org, harryjin@google.com BUG=libyuv:571 Review URL: https://codereview.chromium.org/1724393002 .	2016-02-29 12:22:25 -08:00
Frank Barchard	22e062a448	Port ARGBToJ420 to AVX2 ARGBToJ420 had an SSSE3 version, but not AVX2. ARGBToI420 had an AVX2, so adapt that code to J420. TBR=harryjin@google.com BUG=libyuv:553 Review URL: https://codereview.chromium.org/1702373004 .	2016-02-17 23:16:39 -08:00
Frank Barchard	127ff512b3	add perf data files to ignores document play services update R=jkellander@chromium.org BUG=none Review URL: https://codereview.chromium.org/1712463002 .	2016-02-17 21:37:09 -08:00
Frank Barchard	cc33dc68c7	Port I411ToARGBRow to AVX2. An SSSE3 version already exists, and an AVX2 version is available for Visual C. This ports the function to AVX2 completing the AVX2 ports of all YUV to RGB functions for AVX2 on gcc. TBR=harryjin@google.com BUG=libyuv:555 Review URL: https://codereview.chromium.org/1687253002 .	2016-02-12 10:26:10 -08:00
Frank Barchard	0e554b18fe	port NV12ToRGB565Row_AVX2 to gcc NV12ToRGB565Row for Intel is implemented as a 2 step conversion: NV12ToARGBRow_SSSE3 and ARGBToRGB565Row_SSE2 NV12ToARGBRow has an AVX2 version, so this CL implements NV12ToRGB565Row_AVX2 with call to NV12ToARGBRow_AVX2 and ARGBToRGB565Row_SSE2. R=harryjin@google.com BUG=libyuv:554 Review URL: https://codereview.chromium.org/1687953002 .	2016-02-10 11:13:41 -08:00
Frank Barchard	c39509c8e5	add avx2 wrappers for functions that can call I422ToARGBRow_AVX2 R=harryjin@google.com BUG=libyuv:557 Review URL: https://codereview.chromium.org/1687713002 .	2016-02-09 17:14:29 -08:00
Frank Barchard	0d880e5bc0	rename MIPS_DSPR2 to DSPR2 for consistency When attempting to normalize function names to end in Row_SIMD it was made harder with MIPS_DSPR2 naming convention. Other CPUs do not include the vendor. This should be named consistently. Removed the DISABLE_MIPS in favour of DISABLE_ASM for consistency with other processors. TBR=harryjin@google.com BUG=libyuv:562 Review URL: https://codereview.chromium.org/1677633002 .	2016-02-05 14:49:54 -08:00
Frank Barchard	05ed0c539c	rework scale code for ubsan For more info on ubsan, see http://dev.chromium.org/developers/testing/undefinedbehaviorsanitizer TESTED=Passing compilation using: GYP_DEFINES="ubsan=1" GYP_DEFINES="ubsan_vptr=1" R=harryjin@google.com, pbos@webrtc.org BUG=libyuv:563 Review URL: https://codereview.chromium.org/1654253004 .	2016-02-02 11:01:49 -08:00
Frank Barchard	9e39c1f271	ubsan overflow fix for multiply by 0x01010101 This is an UBSan error reported by libjingle [ RUN ] WebRtcVideoFrameTest.ConvertToYUY2BufferStride [000:000] (videoframe.cc:375): Validate frame passed. format: I420 bpp: 12 size: 1280x720 bytes: 1382400 expected: 1382400 sample[0..3]: 73, 73, 73, 73 ../../chromium/src/third_party/libyuv/source/row_gcc.cc:2903:25: runtime error: signed integer overflow: 128 * 16843009 cannot be represented in type 'int' [8/614] WebRtcVideoFrameTest.ConvertToYUY2BufferStride returned/aborted with exit code 1 (32 ms) [9/614] WebRtcVideoFrameTest.ConvertToYUY2BufferInverted (29 ms) Note: Google Test filter = WebRtcVideoFrameTest.ConvertToYUY2BufferInverted The source is uint8 and the multiply is by 0x01010101 to replicate the byte to 4 bytes. Changing the constant to 0x01010101u should avoid overflow. R=harryjin@google.com TBR=harryjin@google.com BUG=libyuv:563 Review URL: https://codereview.chromium.org/1657533005 .	2016-02-01 12:29:04 -08:00
Frank Barchard	58cb534962	Fix memory overwrite in YUY2ToNV12 odd wdiths When width was odd Y channel wrote an extra pixel. This change splits the Y from UV into a temporary buffer and memcpy's to the destination. Performance is slower. Was YUY2ToNV12_Any (307 ms) YUY2ToNV12_Unaligned (213 ms) TestYUY2ToNV12 (181 ms) YUY2ToNV12_Opt (177 ms) YUY2ToNV12_Invert (177 ms) Npw YUY2ToNV12_Any (300 ms) YUY2ToNV12_Unaligned (226 ms) YUY2ToNV12_Invert (206 ms) TestYUY2ToNV12 (184 ms) YUY2ToNV12_Opt (181 ms) TBR=harryjin@google.com BUG=libyuv:545 Review URL: https://codereview.chromium.org/1593833002 .	2016-01-19 11:28:09 -08:00
Frank Barchard	8377c798fb	Fix I420ToNV21 for wrong dst_stride_y parameter. I420ToNV21 passes the wrong dst_stride_y when it calls I420ToNV12; parameter 8 (convert_from.cc:448) is src_stride_y but should be dst_stride_y. This causes image corruption when converting I420 -> NV21 with mismatched luminance strides. R=dhrosa@google.com, harryjin@google.com BUG=libyuv:547 Review URL: https://codereview.chromium.org/1582793008 .	2016-01-14 17:38:54 -08:00
Frank Barchard	081475b3c8	refactor ARGBToI422 using ARGBToI420 internally R=harryjin@google.com BUG=libyuv:546 Review URL: https://codereview.chromium.org/1574253004 .	2016-01-12 17:05:49 -08:00
Frank Barchard	23c6a83561	Fix ifdef mismatch for mirroruv Macro define and macro ifdef didnt match, leading to C code being used. Make macro match function name. TBR=harryjin@google.com BUG=libyuv:543 Review URL: https://codereview.chromium.org/1579023002 .	2016-01-11 16:33:36 -08:00
Frank Barchard	0e462e6f45	Remove use_sysroot=0 use_sysroot=0 is required for webrtc on linux intel builds, but libyuv doesnt use the affected libraries, so removing this. R=harryjin@google.com, sbc@chromium.org BUG=libyuv:534,libyuv:542 Review URL: https://codereview.chromium.org/1566303002 .	2016-01-11 14:57:50 -08:00
Frank Barchard	fc52d8ded2	Odd width variation of scale down by 2 for subsampling R=dhrosa@google.com, harryjin@google.com BUG=libyuv:538 Review URL: https://codereview.chromium.org/1558093003 .	2016-01-06 15:12:17 -08:00
Frank Barchard	36615d62a0	fix for InterpolateRow_AVX2 port scaledownby4_avx2 to gcc TBR=harryjin@google.com BUG=libyuv:492 Review URL: https://codereview.chromium.org/1546763002 .	2015-12-22 12:29:54 -08:00
Frank Barchard	71deb7ba3a	bug fix - remove shift from InterpolateRow_AVX2 TBR=harryjin@google.com BUG=libyuv:537 Review URL: https://codereview.chromium.org/1547703002 .	2015-12-22 10:28:48 -08:00
Frank Barchard	2cb2e9e1ad	fix for InterpolateRow_AVX2 TBR=harryjin@google.com BUG=libyuv:535 Review URL: https://codereview.chromium.org/1543773002 .	2015-12-21 18:35:12 -08:00
Frank Barchard	3f4d86053e	avx2 interpolate use 8 bit BUG=libyuv:535 R=dhrosa@google.com Review URL: https://codereview.chromium.org/1535833003 .	2015-12-21 10:57:32 -08:00
Frank Barchard	f4447745ae	Add rounding to InterpolateRow for improved quality and consistency. Remove inaccurate specializations for 1/4 and 3/4, since they round incorrectly. Specialize for 100% and 50% are kept due to performance. Make C and ARM code match SSSE3. Make unittests expect zero difference. BUG=libyuv:535 R=harryjin@google.com Review URL: https://codereview.chromium.org/1533643005 .	2015-12-17 15:24:06 -08:00
Frank Barchard	1ccbf8fb7b	use memory for loop counter to work around nearly out of registers TBR=harryjin@google.com BUG=libyuv:533 Review URL: https://codereview.chromium.org/1535433003 .	2015-12-16 17:13:37 -08:00
Frank Barchard	80ca4514ef	change scale down by 4 to use rounding. TBR=harryjin@google.com BUG=libyuv:447 Review URL: https://codereview.chromium.org/1525033005 .	2015-12-15 21:25:18 -08:00
Frank Barchard	70445ef2ef	avx2 scale down by 2 for gcc R=dhrosa@google.com, harryjin@google.com BUG=libyuv:527 Review URL: https://codereview.chromium.org/1520423003 .	2015-12-15 10:59:20 -08:00
Frank Barchard	ae55e41851	use rounding in scaledown by 2 When scaling down by 2 the formula should round consistently. (a+b+c+d+2)/4 The C version did but the SSE2 version was doing 2 averages. avg(avg(a,b),avg(c,d)) This change uses a sum, then rounds. R=dhrosa@google.com, harryjin@google.com BUG=libyuv:447,libyuv:527 Review URL: https://codereview.chromium.org/1513183004 .	2015-12-14 17:25:36 -08:00
Frank Barchard	b3bbcc1f4e	add ifdef for AVX2 so vs2010 can still compile R=harryjin@google.com BUG=libyuv:531 Review URL: https://codereview.chromium.org/1515503005 .	2015-12-09 15:23:51 -08:00
Frank Barchard	cb44936403	fix typo in avx2 gcc blend. was using wrong register on 32 pixel version. R=harryjin@google.com, dhrosa@google.com BUG=libyuv:527 Review URL: https://codereview.chromium.org/1511433006 .	2015-12-09 10:38:46 -08:00
Frank Barchard	353ffbab80	fix for gcc compile error: variable duplicate define TBR=harryjin@google.com BUG=libyuv:529 Review URL: https://codereview.chromium.org/1512793002 .	2015-12-08 19:03:43 -08:00
Frank Barchard	a2ea905679	BlendPlane any width. Benchmark out\release\libyuv_unittest --libyuv_width=1279 --libyuv_height=719 --libyuv_repeat=999 --libyuv_flags=-1 --gtest_filter=Blend \| sortms Was I420Blend_Any (2321 ms) I420Blend_Unaligned (1684 ms) I420Blend_Opt (1675 ms) I420Blend_Invert (1653 ms) BlendPlane_Invert (1556 ms) BlendPlane_Any (1552 ms) BlendPlane_Unaligned (1548 ms) BlendPlane_Opt (1535 ms) ARGBBlend_Unaligned (659 ms) ARGBBlend_Any (596 ms) ARGBBlend_Invert (591 ms) ARGBBlend_Opt (508 ms) BlendPlaneRow_Unaligned (186 ms) BlendPlaneRow_Opt (171 ms) Now ARGBBlend_Any (621 ms) ARGBBlend_Unaligned (585 ms) ARGBBlend_Invert (564 ms) ARGBBlend_Opt (512 ms) I420Blend_Unaligned (347 ms) I420Blend_Invert (345 ms) I420Blend_Any (337 ms) I420Blend_Opt (327 ms) BlendPlane_Unaligned (187 ms) BlendPlaneRow_Unaligned (187 ms) BlendPlane_Invert (186 ms) BlendPlane_Any (186 ms) BlendPlaneRow_Opt (173 ms) BlendPlane_Opt (171 ms) which is comparable to aligned case out\release\libyuv_unittest --libyuv_width=1280 --libyuv_height=720 --libyuv_repeat=999 --libyuv_flags=-1 --gtest_filter=Blend \| sortms ARGBBlend_Any (625 ms) ARGBBlend_Unaligned (602 ms) ARGBBlend_Invert (508 ms) ARGBBlend_Opt (506 ms) I420Blend_Any (353 ms) I420Blend_Unaligned (322 ms) I420Blend_Invert (304 ms) I420Blend_Opt (301 ms) BlendPlaneRow_Unaligned (188 ms) BlendPlane_Unaligned (186 ms) BlendPlane_Invert (185 ms) BlendPlane_Any (184 ms) BlendPlaneRow_Opt (173 ms) BlendPlane_Opt (169 ms) R=dhrosa@google.com, harryjin@google.com BUG=libyuv:527 Review URL: https://codereview.chromium.org/1513443002 .	2015-12-08 18:59:48 -08:00
Frank Barchard	dee77a4ebe	Optimize yuv alpha blend AVX2 code to do 32 pixels at time. out/Release/libyuv_unittest --libyuv_width=1280 --libyuv_height=720 --libyuv_repeat=9999 --libyuv_flags=-1 --gtest_filter=*I420Blend_Opt Was LibYUVPlanarTest.I420Blend_Opt (2335 ms) Now LibYUVPlanarTest.I420Blend_Opt (1937 ms) vs SSSE3 LibYUVPlanarTest.I420Blend_Opt (2599 ms) BUG=libyuv:527 R=dhrosa@google.com Review URL: https://codereview.chromium.org/1505673003 .	2015-12-08 18:20:30 -08:00
Frank Barchard	fae1a10545	Work around bug in xgetbv for Visual Studio. xgetbv is generating bad code, falsely disabling AVX2 and AVX512. disable optimization for the function affected on older versions of Visual C 32 bit. R=brucedawson@chromium.org, dhrosa@google.com, harryjin@google.com BUG=libyuv:529 Review URL: https://codereview.chromium.org/1503393004 .	2015-12-08 18:13:32 -08:00
Frank Barchard	2657688e70	Add support for odd height YUVA alpha blending. R=dhrosa@google.com, harryjin@google.com BUG=libyuv:527 Review URL: https://codereview.chromium.org/1507683003 .	2015-12-07 12:03:20 -08:00
Frank Barchard	b0b22f88b9	Unroll C version of YUV blender for improved performance. R=dhrosa@google.com, harryjin@google.com BUG=libyuv:527 Review URL: https://codereview.chromium.org/1502343003 .	2015-12-07 12:02:45 -08:00
Frank Barchard	48a919d86e	Bug fix for UYVYToNV12 odd height TBR=harryjin@google.com BUG=libyuv:528 Review URL: https://codereview.chromium.org/1506973002 .	2015-12-07 11:39:48 -08:00
Frank Barchard	bea690b3e0	AVX2 YUV alpha blender and improved unittests AVX2 version can process 16 pixels at a time for improved memory bandwidth and fewer instructions. unittests improved to test unaligned memory, and test exactness when alpha is 0 or 255. R=dhrosa@google.com, harryjin@google.com BUG=libyuv:527 Review URL: https://codereview.chromium.org/1505433002 .	2015-12-05 22:23:29 -08:00
Frank Barchard	fa2618ee26	Port BlendPlaneRow_SSSE3 to GCC R=dhrosa@google.com, harryjin@google.com BUG=libyuv:527 Review URL: https://codereview.chromium.org/1490273006 .	2015-12-04 11:19:41 -08:00
Frank Barchard	8af0ebf816	planar blend use signed images R=dhrosa@google.com, harryjin@google.com, jzern@chromium.org BUG=libyuv:527 Review URL: https://codereview.chromium.org/1491533002 .	2015-12-02 14:20:17 -08:00
Frank Barchard	b6f37bd8ec	Interpolate plane initial implementation. YUV version of interpolation between two images. R=dhrosa@google.com, harryjin@google.com BUG=libyuv:526 Review URL: https://codereview.chromium.org/1479593002 .	2015-11-25 16:11:42 -08:00

... 3 4 5 6 7 ...

1634 Commits