libyuv

mirror of https://chromium.googlesource.com/libyuv/libyuv synced 2025-12-07 01:06:46 +08:00

Author	SHA1	Message	Date
Frank Barchard	1cea4235af	RAWToJ400 for big endian RGB to grey scale. On Pixel 3 Was BM_ConvertToGray/1280/720/3 2360958 ns 2334984 ns 2999 BM_ConvertToGray/1279/721/3 2360289 ns 2334329 ns 2994 BM_ConvertGrayTensorflowCoefficients/1280/720/3 2983296 ns 2947113 ns 2259 BM_ConvertGrayTensorflowCoefficients/1279/721/3 2871205 ns 2835359 ns 2170 Now BM_ConvertToGray/1280/720/3 2358469 ns 2334068 ns 2997 BM_ConvertToGray/1279/721/3 2364584 ns 2336892 ns 2995 BM_ConvertGrayTensorflowCoefficients/1280/720/3 281312 ns 278244 ns 25170 BM_ConvertGrayTensorflowCoefficients/1279/721/3 351310 ns 347229 ns 20217 BUG=libyuv:854 Change-Id: If2192affc2d3219e0fb824737d75b9374a25d709 Reviewed-on: https://chromium-review.googlesource.com/c/libyuv/libyuv/+/2003236 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2020-01-16 00:29:11 +00:00
Frank Barchard	d82f4baf5f	Upstream minor changes. Faster tests, Faster YUV Rotate180 and Mirror Bug: libyuv:840, libyuv:849: b/144318948 Change-Id: I303c02ac2b838a09d3e623df7a69ffc085fe3cd2 Reviewed-on: https://chromium-review.googlesource.com/c/libyuv/libyuv/+/1914781 Reviewed-by: Miguel Casas <mcasas@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2019-11-13 20:02:40 +00:00
Frank Barchard	22f8aad8bc	RAWToRGBA for 3 channel OCR Replace ARM64 only row function with high level function that implements SSSE3, 32 bit Neon and C. Compared to 2 step RAWToARGB + ARGBToRGBA on row level: 3.1x faster on ARM 6.2% faster on Intel BUG=b/140748379 Change-Id: Ia8636d9e4fcdbe10b8c2e81610a54728e29845cd Reviewed-on: https://chromium-review.googlesource.com/c/libyuv/libyuv/+/1860914 Reviewed-by: richard winterton <rrwinterton@gmail.com> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2019-10-14 22:27:37 +00:00
Frank Barchard	fce0fed542	ARGBToY use 8 bit precision instead of 7 bit. Neon and GCC Intel optimized, but win32 and mips not optimized. BUG=libyuv:842, b/141482243 Change-Id: Ia56fa85c8cc1db51f374bd0c89b56d21ec94afa7 Reviewed-on: https://chromium-review.googlesource.com/c/libyuv/libyuv/+/1825642 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Miguel Casas <mcasas@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2019-10-07 23:01:10 +00:00
Frank Barchard	c85a7b3ae3	MMI Optimized functions I422ToARGB for 1080p video Improves playback performance for 1080p video on www.youku.com BUG=libyuv:841 Change-Id: Iabe7693fba276162af0290863f46e214ab86fb6c Reviewed-on: https://chromium-review.googlesource.com/c/libyuv/libyuv/+/1790959 Reviewed-by: Miguel Casas <mcasas@chromium.org>	2019-09-11 21:06:21 +00:00
Frank Barchard	0bb2773a39	AVX2 versions of ABGRToNV12 and ABGRToNV21 BUG=libyuv:833 Change-Id: I9b6653e9c304b4e0805b7d3c8408ce57009c8559 Reviewed-on: https://chromium-review.googlesource.com/c/libyuv/libyuv/+/1740682 Reviewed-by: Hirokazu Honda <hiroh@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2019-08-07 18:16:34 +00:00
Frank Barchard	fec9121b67	SwapUV AVX2 and SSSE3 Based on ARGBShuffle but with count adjusted and new shuffle mask BUG=libyuv:809 Change-Id: Idd936ee6bedcf285607a68c2fc54d876b4becc01 Reviewed-on: https://chromium-review.googlesource.com/c/libyuv/libyuv/+/1711882 Reviewed-by: richard winterton <rrwinterton@gmail.com> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2019-07-26 18:41:40 +00:00
Frank Barchard	f9aacffa02	Fix arm unittest failure by removing unused FloatDivToByteRow. Apply clang-format to fix jpeg if() for lint fix. Change comments about 4th pixel for open source compliance. Rename UVToVU to SwapUV for consistency with MergeUV. BUG=b/135532289, b/136515133 Change-Id: I9ce377c57b1d4d8f8b373c4cb44cd3f836300f79 Reviewed-on: https://chromium-review.googlesource.com/c/libyuv/libyuv/+/1685936 Reviewed-by: Chong Zhang <chz@google.com> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2019-07-02 20:00:30 +00:00
Frank Barchard	413a8d8041	Add AYUVToNV12 and NV21ToNV12 BUG=libyuv:832 TESTED=out/Release/libyuv_unittest --gtest_filter=ToNV12 --libyuv_width=1280 --libyuv_height=720 --libyuv_repeat=1000 --libyuv_flags=-1 --libyuv_cpu_info=-1 R=rrwinterton@gmail.com Change-Id: Id03b4613211fb6a6e163d10daa7c692fe31e36d8 Reviewed-on: https://chromium-review.googlesource.com/c/libyuv/libyuv/+/1560080 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com> Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2019-04-12 17:48:45 +00:00
Frank Barchard	5b6042fa0d	add YUV24 and AYUV formats Alternatives to RGB24 and AYUV for working with GPU. BUG=libyuv:832 TESTED=out/Release/libyuv_unittest --gtest_filter=NV21To???24 --libyuv_width=1280 --libyuv_height=720 --libyuv_repeat=1000 --libyuv_flags=-1 --libyuv_cpu_info=-1 R=rrwinterton@gmail.com Change-Id: I5559c63f4bd4c847492fcb1571f7b03c58146689 Reviewed-on: https://chromium-review.googlesource.com/c/libyuv/libyuv/+/1501735 Reviewed-by: richard winterton <rrwinterton@gmail.com> Reviewed-by: Frank Barchard <fbarchard@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2019-03-05 02:53:56 +00:00
Martin Storsjö	9b772abf97	Restore the file mode for source files This was changed in 21be9122aadf7824efe3fc19b2a09ff253a688e1. Change-Id: I6c04dc92f673557e10c231bd090ec8aa88b6bee4 Reviewed-on: https://chromium-review.googlesource.com/1146183 Reviewed-by: Frank Barchard <fbarchard@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-08-06 18:53:32 +00:00
lixia zhang	21be9122aa	libyuv:loongson optimize compare/row/scale/rotate files with mmi. Currently, libyuv supports MIPS SIMD Arch(MSA), but libyuv does not supports MultiMedia Instruction(MMI)(such as loongson3a platform). In order to improve performance of libyuv on loongson3a platform, this provides optimize 98 functions with mmi. BUG=libyuv:804 Change-Id: I8947626009efad769b3103a867363ece25d79629 Reviewed-on: https://chromium-review.googlesource.com/1122064 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2018-07-20 22:53:04 +00:00
Frank Barchard	a7fb978e30	ARGBExtractAlphaRow_Any_AVX2 fix pixel count mask Mask was set to 32, but should have been 31. BUG=libyuv:798 TESTED=try bots tested Change-Id: I6120928873a4a2f1efef907d8e8296ca8c20bb03 Reviewed-on: https://chromium-review.googlesource.com/1054830 Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2018-05-11 07:13:58 +00:00
Frank Barchard	83aa7512c1	AVX512 VMBI version of ARGBToRGB24 Use VMBI instructions but on AVX2 registers to avoid clockrate change. Bug: libyuv:778 Test: LibYUVConvertTest.NV21ToRGB24_Opt Change-Id: Id4f8ad1e0e142a380c8a46c5eab90ce145a10edd Reviewed-on: https://chromium-review.googlesource.com/956609 Reviewed-by: richard winterton <rrwinterton@gmail.com>	2018-03-10 02:04:48 +00:00
Frank Barchard	1d509f2178	ARGBToRGB24_AVX2 version AVX2 port of SSSE3 conversion to output 24 bit RGB Bug: libyuv:778 Test: LibYUVConvertTest.NV21ToRGB24_Opt Change-Id: I14f7815522d1b790ecd2bb39d9a3441e803b694a Reviewed-on: https://chromium-review.googlesource.com/953303 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2018-03-08 02:38:21 +00:00
Frank Barchard	3009890c11	NV21ToRGB24_AVX2 and SSSE3 Use 2 step conversion for NV21ToRGB24 to leverage AVX2 low levels instead of C. Was C NV21ToRGB24_Opt (882 ms) Now SSSE3 NV21ToRGB24_Opt (218 ms) Bug: libyuv:778 Test: LibYUVConvertTest.NV21ToRGB24_Opt Change-Id: I58faf766bbec4cc595aab2e217f6c874dd4b4363 Reviewed-on: https://chromium-review.googlesource.com/951629 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2018-03-07 03:58:48 +00:00
Frank Barchard	85722f5d93	ByteToFloatRow_NEON to convert and scale bytes to floats Each byte is converted to float (0.0 to 255.0) and then multiplied by a scale parameter. Bug: None Test: arm 64 build passes. Change-Id: I04736798540b8d985f60abdf0388e24a209d075b Reviewed-on: https://chromium-review.googlesource.com/930226 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Ian Field <ianfield@google.com>	2018-02-24 00:34:07 +00:00
Frank Barchard	0ea50cbc74	NV21ToRGB24_NEON conversion 32 bit thumb2 performance: NV12ToARGB_Opt (472 ms) NV21ToARGB_Opt (466 ms) NV12ToRGB24_Opt (457 ms) NV21ToRGB24_Opt (457 ms) NV12ToRGB565_Opt (501 ms) Bug: libyuv:778 Test: add new NV21ToRGB24 test Change-Id: I330585789835c79ee4b4da61d164716598268df3 Reviewed-on: https://chromium-review.googlesource.com/924646 Reviewed-by: Cheng Wang <wangcheng@google.com>	2018-02-22 22:24:24 +00:00
Frank Barchard	664c735677	I420ToYUY2_AVX2 port I420 and I422 To YUY2 and UYVY ported from SSE2 to AVX2. Was SSE2 I420ToYUY2_Opt (135 ms) I420ToUYVY_Opt (148 ms) I422ToYUY2_Opt (145 ms) I422ToUYVY_Opt (142 ms) Now AVX2 I420ToYUY2_Opt (133 ms) I420ToUYVY_Opt (130 ms) I422ToYUY2_Opt (127 ms) I422ToUYVY_Opt (137 ms) Bug: libyuv:556 Test: out/Release/libyuv_unittest --sandbox_unittests --gtest_filter=I42?ToUY*Opt Change-Id: Ic35f97cee02dc009fd98785589ba17c7cf50bb35 Reviewed-on: https://chromium-review.googlesource.com/892493 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2018-02-01 00:33:25 +00:00
Frank Barchard	ffec313dbe	ABGRToAR30 used AVX2 with reversed shuffler vpshufb is used to reverse R and B channels; Code is otherwise the same as ARGBToAR30. Bug: libyuv:751 Test: ABGRToAR30 unittest Change-Id: I30e02925f5c729e4496c5963ba4ba4af16633b3b Reviewed-on: https://chromium-review.googlesource.com/891807 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2018-01-29 22:31:31 +00:00
Frank Barchard	ed96b7b2c7	AVX2 port of H010ToAR30_AVX2 Was SSSE3 H010ToAR30_Opt (635 ms) Now AVX2 H010ToAR30_Opt (448 ms) Bug: libyuv:751 Test: LibYUVConvertTest.H010ToAR30_Opt Change-Id: I17b1a0e3268c4a9836e09683dd3377fb1ce60932 Reviewed-on: https://chromium-review.googlesource.com/889906 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Miguel Casas <mcasas@chromium.org>	2018-01-27 00:14:27 +00:00
Frank Barchard	c95fd57993	AVX2 port of I010ToAR30_AVX2 Was SSSE3 I420ToAR30_Opt (635 ms) Now AVX2 I420ToAR30_Opt (446 ms) Bug: libyuv:751 Test: LibYUVConvertTest.H010ToAR30_Opt Change-Id: I261be19ec981136a8f453ae0d3211532a790e5c5 Reviewed-on: https://chromium-review.googlesource.com/887750 Reviewed-by: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-01-26 02:12:07 +00:00
Frank Barchard	92e22cf5b6	Lint cleanup after C99 change CL TBR=braveyao@chromium.org Bug: libyuv:774 Test: git cl lint Change-Id: I51cf8107a8db17fbc9952d610f3e4d7aac5aa743 Reviewed-on: https://chromium-review.googlesource.com/882217 Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2018-01-24 19:16:03 +00:00
Frank Barchard	7e389884a1	Switch to C99 types Append _t to all sized types. uint64 becomes uint64_t etc Bug: libyuv:774 Test: try bots build on all platforms Change-Id: Ide273d7f8012313d6610415d514a956d6f3a8cac Reviewed-on: https://chromium-review.googlesource.com/879922 Reviewed-by: Miguel Casas <mcasas@chromium.org>	2018-01-23 19:16:05 +00:00
Frank Barchard	8af6ea4100	I420ToAR30 in 1 step SSSE3 assembly Bug: libyuv:751 Test: LibYUVConvertTest.I420ToAR30_Opt Change-Id: Ie89c3eb2526354cf11175746bc8af72be83a1e00 Reviewed-on: https://chromium-review.googlesource.com/877541 Reviewed-by: Cheng Wang <wangcheng@google.com> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-01-23 01:33:10 +00:00
Frank Barchard	09db0c4ce2	H010ToAR30 in 1 step with SSSE3 assembly Switch YUV conversion macro to output 16 bits per channel. STOREAR30 macro to output AR30. [ RUN ] LibYUVConvertTest.TestH420ToARGB uniques: B 220, G, 220, R 220 [ OK ] LibYUVConvertTest.TestH420ToARGB (0 ms) [ RUN ] LibYUVConvertTest.TestH010ToARGB uniques: B 256, G, 256, R 256 [ OK ] LibYUVConvertTest.TestH010ToARGB (0 ms) [ RUN ] LibYUVConvertTest.TestH010ToAR30 uniques: B 883, G, 883, R 883 [ OK ] LibYUVConvertTest.TestH010ToAR30 (0 ms) Bug: libyuv:751 Test: LibYUVConvertTest.H010ToAR30_Opt Change-Id: I902b718e2c8b68ede69625ccafebc6519d5af70d Reviewed-on: https://chromium-review.googlesource.com/869511 Reviewed-by: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Miguel Casas <mcasas@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2018-01-19 19:46:58 +00:00
Frank Barchard	00d526d4ea	H010ToARGB_AVX2 optimized conversion AVX2 optimized 10 bit YUV to ARGB. Bug: libyuv:751 Test: H010ToARGB unittest Change-Id: I705630beb62714b52042c2a5dcdb8b7859e734ae Reviewed-on: https://chromium-review.googlesource.com/852563 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Miguel Casas <mcasas@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2018-01-09 03:17:33 +00:00
Frank Barchard	9d2cd6a3ef	H010ToAR30 optimized to 2 step conversion Previously H010ToAR30 was done in a 3 step conversion: H010ToH420, H420ToARGB, ARGBToAR30. This CL merges the first 2 steps into H010ToARGB, to improve performance. Caveat - only 10 bit YUV is supported at this time. Previously the low level code supported different numbers of bits - 9, 10, 12 or 16. Was 3 step conversion: LibYUVConvertTest.H010ToAR30_Any (1263 ms) LibYUVConvertTest.H010ToAR30_Unaligned (951 ms) LibYUVConvertTest.H010ToAR30_Invert (913 ms) LibYUVConvertTest.H010ToAR30_Opt (901 ms) Now 2 step conversion: LibYUVConvertTest.H010ToAR30_Any (853 ms) LibYUVConvertTest.H010ToAR30_Unaligned (811 ms) LibYUVConvertTest.H010ToAR30_Invert (781 ms) LibYUVConvertTest.H010ToAR30_Opt (755 ms) Bug: libyuv:751 Test: LibYUVConvertTest.H010ToAR30_Opt Change-Id: Ica7574040401cd57145a4827acdf3c0e58346a2a Reviewed-on: https://chromium-review.googlesource.com/853288 Reviewed-by: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Miguel Casas <mcasas@chromium.org>	2018-01-07 08:36:57 +00:00
Frank Barchard	a64658593e	I210ToARGB conversion from 10 bit YUV to RGB SSSE3 optimized 10 bit YUV conversion to ARGB in single step. Bug: libyuv:751 Test: I010ToARGB Change-Id: I234b2850e35992113ee6bd638732bafc7010a60d Reviewed-on: https://chromium-review.googlesource.com/848238 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2018-01-05 02:43:38 +00:00
Frank Barchard	140fc0a261	Remove LIBYUV_SSSE3_ONLY and ARGBSHUFFLEROW_SSE2 LIBYUV_SSSE3_ONLY was for functions that have SSE2 and SSSE3 but are compiling for SSSE3, so SSE2 will never be used. Remove the SSE2 implementation of ARGBSHUFFLEROW_SSE2 and rely on SSSE3. Bug: libyuv: 769 Test: ~/intelsde/sde -p4 -- out/Release/libyuv_unittest --gtest_filter=LibYUVConvertTest.ARGBToABGR_Opt Change-Id: I7443f4d8ee3c6f47edd2cf1d5a1eb0f8d7a1eeeb Reviewed-on: https://chromium-review.googlesource.com/846541 Reviewed-by: Weiyong Yao <braveyao@chromium.org> Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2018-01-02 18:57:39 +00:00
Frank Barchard	768f103b8b	Convert8To16 for better H010 support Convert planar 8 bit formats to planar 16 bit formats. Accepts a parameter that determines the number of bits. Bug: libyuv:751 Test: Convert8To16 unittest Change-Id: I8f6ffe64428ddf5769b87e0c069093a50a2541e9 Reviewed-on: https://chromium-review.googlesource.com/835410 Reviewed-by: richard winterton <rrwinterton@gmail.com>	2017-12-28 22:27:24 +00:00
Frank Barchard	3b81288ece	Remove Mips DSPR2 code Bug: libyuv:765 Test: build for mips still passes Change-Id: I99105ad3951d2210c0793e3b9241c178442fdc37 Reviewed-on: https://chromium-review.googlesource.com/826404 Reviewed-by: Weiyong Yao <braveyao@chromium.org> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2017-12-14 18:22:16 +00:00
Frank Barchard	c367751430	ARGBToAR30 SSSE3 use pmulhuw to replicate fields AR30 is optimized with 3 techniques 1. pmulhuw is used to replicate 8 bits to 10 bits. 2. Two channels are processed at a time. R and B, and A and G. 3. pshufb is used to shift and mask 2 channels of R and B Bug: libyuv:751 Test: ARGBToAR30_Opt Change-Id: I4e62d6caa4df7d0ae80395fa911d3c922b6b897b Reviewed-on: https://chromium-review.googlesource.com/822520 Reviewed-by: richard winterton <rrwinterton@gmail.com> Commit-Queue: Frank Barchard <fbarchard@chromium.org>	2017-12-12 20:12:58 +00:00
Frank Barchard	0f98c3c1df	Add ARGBToAR30Row_SSE2 to speed up H010ToAR30 Port ARGBToAR30Row_AVX2 to ARGBToAR30Row_SSE2 using same instructions but xmm registers and doing half as many pixels per loop. Bug: libyuv:751 Test: LibYUVConvertTest.ARGBToAR30_Opt Change-Id: Id644e54639133d1caf28ea3cd11ff6ab6891a673 Reviewed-on: https://chromium-review.googlesource.com/817918 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2017-12-09 00:11:20 +00:00
Frank Barchard	324fa32739	Convert16To8Row_SSSE3 port from AVX2 H010ToAR30 uses Convert16To8Row_SSSE3 to convert 10 bit YUV to 8 bit. Then standard YUV conversion can be used. This improves performance on low end CPUs. Future CL will by pass this conversion allowing for 10 bit YUV source, but the function will be useful as a utility for YUV conversions. Bug: libyuv:559, libyuv:751 Test: out/Release/libyuv_unittest --gtest_filter=H010ToAR30 --libyuv_width=1280 --libyuv_height=720 --libyuv_repeat=999 --libyuv_flags=-1 --libyuv_cpu_info=-1 Change-Id: I9b3ef22d88a5fd861de4cf1900b4c6e8fd24d0af Reviewed-on: https://chromium-review.googlesource.com/792334 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: Frank Barchard <fbarchard@chromium.org>	2017-11-28 19:22:39 +00:00
Frank Barchard	a98d6cdb17	ARGBToAR30 AVX2 conversion function Bug: libyuv:751 Test: LibYUVConvertTest.ARGBToAR30_Opt Change-Id: I09c13eb53ba5f1ce1740c013dc587f8300f1d9e0 Reviewed-on: https://chromium-review.googlesource.com/780437 Commit-Queue: Frank Barchard <fbarchard@chromium.org> Reviewed-by: richard winterton <rrwinterton@gmail.com>	2017-11-21 20:37:01 +00:00
Frank Barchard	1e16cb5c38	SplitRGBPlane and MergeRGBPlane functions added Converts packed RGB to planar and back. TBR=kjellander@chromium.org BUG=libyuv:728 TEST=MergeRGBPlane_Opt and SplitRGBPlane_Opt unittests added Change-Id: Ida59af940afcb1fc4a48bbf62c714f592665c3cc Reviewed-on: https://chromium-review.googlesource.com/658069 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Cheng Wang <wangcheng@google.com>	2017-09-11 21:02:04 +00:00
Manojkumar Bhosale	b6e8e9aa97	Add MSA optimized HalfFloatRow function TBR=kjellander@chromium.org R=fbarchard@google.com Bug:libyuv:634 Change-Id: I54a2c57d66093b887c8ba31fd7a21a102165393a Reviewed-on: https://chromium-review.googlesource.com/628557 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-29 18:40:08 +00:00
Frank Barchard	78e44628c6	Add MSA optimized SplitUV, Set, MirrorUV, SobelX and SobelY row functions. TBR=kjellander@chromium.org R=fbarchard@google.com Bug:libyuv:634 Change-Id: Ie2342f841f1bb8469fc4631b784eddd804f5d53e Reviewed-on: https://chromium-review.googlesource.com/616765 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-17 18:39:22 +00:00
Manojkumar Bhosale	dbd7c1a9c5	Add MSA optimized ARGBExtractAlpha, ARGBBlend, ARGBQuantize and ARGBColorMatrix row functions TBR=kjellander@chromium.org R=fbarchard@google.com Bug:libyuv:634 Change-Id: I17bd3f87336f613ad363af7d7b9d7af49d725e56 Reviewed-on: https://chromium-review.googlesource.com/613100 Reviewed-by: Frank Barchard <fbarchard@google.com>	2017-08-14 17:38:31 +00:00
Frank Barchard	8cab2e31d7	I422ToRGB565 fix for odd widths I422ToRGB565Row_Any_AVX2 uses 2 step row conversion that calls I422ToARGBRow_AVX2 and then ARGBToRGB565. I422ToARGBRow_AVX2 expects multiple of 16 pixels. Adjust the I422ToRGB565Row_Any_AVX2 to do multiple of 16 with AVX2 and then remainder in a buffer. Bug: libyuv: 657 Test: out/Release/libyuv_unittest --gtest_filter=ConvertITo --libyuv_width=1280 --libyuv_height=720 Change-Id: Ice1cb6c7ff6b2295513e8b4a9f77522e1c659810 Reviewed-on: https://chromium-review.googlesource.com/474232 Commit-Queue: Frank Barchard <fbarchard@google.com> Reviewed-by: Henrik Kjellander <kjellander@chromium.org>	2017-04-11 17:24:05 +00:00
Frank Barchard	d59d3fcd18	Change parameter for '_Any' functions to param to avoid misnomer BUG=None TEST=None Change-Id: I6940fc4753783afd25f83868635381bf801c65f5 Reviewed-on: https://chromium-review.googlesource.com/452962 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-03-10 23:32:39 +00:00
Frank Barchard	136aa9d37c	any11p fix for buffer overrun BUG=libyuv:686 TESTED=untested Change-Id: Idfae93349dd78b1b633a596631e5397e11b77d0b Reviewed-on: https://chromium-review.googlesource.com/448320 Reviewed-by: Frank Barchard <fbarchard@google.com> Reviewed-by: Henrik Kjellander <kjellander@chromium.org> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-03-03 19:57:35 +00:00
Manojkumar Bhosale	45b176d153	Add MSA optimized Interpolate/MergeUV/Misc functions BUG=libyuv:634 Change-Id: If8d60bd57f01fe95bc2fd26196466574195cc126 Performance Gain (vs C auto-vectorized) InterpolateRow_MSA - ~3.3x InterpolateRow_Any_MSA - ~2.5x ARGBSetRow_MSA - ~1.0x ARGBSetRow_Any_MSA - ~1.0x ARGBToRGB24Row_MSA - ~1.9x ARGBToRGB24Row_Any_MSA - ~1.6x MergeUVRow_MSA - ~1.6x MergeUVRow_Any_MSA - ~1.2x Performance Gain (vs C non-vectorized) InterpolateRow_MSA - ~11.3x InterpolateRow_Any_MSA - ~ 7.9x ARGBSetRow_MSA - ~ 6.2x ARGBSetRow_Any_MSA - ~ 4.0x ARGBToRGB24Row_MSA - ~ 9.9x ARGBToRGB24Row_Any_MSA - ~ 8.4x MergeUVRow_MSA - ~12.7x MergeUVRow_Any_MSA - ~ 8.0x Change-Id: If8d60bd57f01fe95bc2fd26196466574195cc126 Reviewed-on: https://chromium-review.googlesource.com/445817 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-23 01:42:22 +00:00
Manojkumar Bhosale	eed66b2028	Add MSA optimized I444/I400/J400/YUY2/UYVY to ARGB row functions BUG=libyuv:634 Change-Id: Ida80027c36a938a3bcf6f4480626f8eb9495e1be Performance Gain (vs C auto-vectorized) I444ToARGBRow_MSA - ~1.6x I444ToARGBRow_Any_MSA - ~1.6x I400ToARGBRow_MSA - ~5.5x I400ToARGBRow_Any_MSA - ~5.3x J400ToARGBRow_MSA - ~1.0x J400ToARGBRow_Any_MSA - ~1.0x YUY2ToARGBRow_MSA - ~1.6x YUY2ToARGBRow_Any_MSA - ~1.6x UYVYToARGBRow_MSA - ~1.6x UYVYToARGBRow_Any_MSA - ~1.6x Performance Gain (vs C non-vectorized) I444ToARGBRow_MSA - ~7.3x I444ToARGBRow_Any_MSA - ~7.1x I400ToARGBRow_MSA - ~5.5x I400ToARGBRow_Any_MSA - ~5.2x J400ToARGBRow_MSA - ~6.8x J400ToARGBRow_Any_MSA - ~5.7x YUY2ToARGBRow_MSA - ~7.2x YUY2ToARGBRow_Any_MSA - ~7.0x UYVYToARGBRow_MSA - ~7.1x UYVYToARGBRow_Any_MSA - ~6.9x Change-Id: Ida80027c36a938a3bcf6f4480626f8eb9495e1be Reviewed-on: https://chromium-review.googlesource.com/439246 Reviewed-by: Frank Barchard <fbarchard@google.com> Commit-Queue: Frank Barchard <fbarchard@google.com>	2017-02-21 23:22:07 +00:00
Manojkumar Bhosale	54ce8f23d6	Add MSA optimized ARGB/ABGR/BGRA/RGBA To Y/UV row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C auto-vectorized) ARGBToYJRow_MSA - ~3.2x ARGBToYJRow_Any_MSA - ~2.7x BGRAToYRow_MSA - ~3.2x BGRAToYRow_Any_MSA - ~2.7x ABGRToYRow_MSA - ~3.2x ABGRToYRow_Any_MSA - ~2.6x RGBAToYRow_MSA - ~3.1x RGBAToYRow_Any_MSA - ~2.7x ARGBToUVJRow_MSA - ~5.5x ARGBToUVJRow_Any_MSA - ~4.5x BGRAToUVRow_MSA - ~2.1x BGRAToUVRow_Any_MSA - ~2.0x ABGRToUVRow_MSA - ~2.1x ABGRToUVRow_Any_MSA - ~1.9x RGBAToUVRow_MSA - ~2.2x RGBAToUVRow_Any_MSA - ~1.9x Performance Gain (vs C non-vectorized) ARGBToYJRow_MSA - ~10.9x ARGBToYJRow_Any_MSA - ~9.2x BGRAToYRow_MSA - ~10.9x BGRAToYRow_Any_MSA - ~9.3x ABGRToYRow_MSA - ~11.0x ABGRToYRow_Any_MSA - ~9.3x RGBAToYRow_MSA - ~10.9x RGBAToYRow_Any_MSA - ~9.1x ARGBToUVJRow_MSA - ~12.4x ARGBToUVJRow_Any_MSA - ~10.5x BGRAToUVRow_MSA - ~4.7x BGRAToUVRow_Any_MSA - ~4.4x ABGRToUVRow_MSA - ~4.7x ABGRToUVRow_Any_MSA - ~4.5x RGBAToUVRow_MSA - ~4.8x RGBAToUVRow_Any_MSA - ~4.4x Review-Url: https://codereview.chromium.org/2641153003 .	2017-02-01 10:31:28 +05:30
Manojkumar Bhosale	09b8c971b3	Add MSA optimized NV12/21 To RGB row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C auto-vectorized) NV12ToARGBRow_MSA - ~1.5x NV12ToARGBRow_Any_MSA - ~1.4x NV12ToRGB565Row_MSA - ~1.4x NV12ToRGB565Row_Any_MSA - ~1.4x NV21ToARGBRow_MSA - ~1.5x NV21ToARGBRow_Any_MSA - ~1.5x SobelRow_MSA - ~4.3x SobelRow_Any_MSA - ~3.4x SobelToPlaneRow_MSA - ~8.0x SobelToPlaneRow_Any_MSA - ~4.7x SobelXYRow_MSA - ~3.0x SobelXYRow_Any_MSA - ~2.5x Performance Gain (vs C non-vectorized) NV12ToARGBRow_MSA - ~6.5x NV12ToARGBRow_Any_MSA - ~6.5x NV12ToRGB565Row_MSA - ~6.2x NV12ToRGB565Row_Any_MSA - ~6.1x NV21ToARGBRow_MSA - ~6.5x NV21ToARGBRow_Any_MSA - ~6.5x SobelRow_MSA - ~14.5x SobelRow_Any_MSA - ~11.3x SobelToPlaneRow_MSA - ~34.2x SobelToPlaneRow_Any_MSA - ~19.4x SobelXYRow_MSA - ~11.1x SobelXYRow_Any_MSA - ~9.1x Review-Url: https://codereview.chromium.org/2636483002 .	2017-01-18 09:24:39 +05:30
Manojkumar Bhosale	7c64163ff4	Add MSA optimized RAW/RGB/ARGB to ARGB/Y/UV row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ARGB1555ToARGBRow_MSA - 1.85 ARGB1555ToARGBRow_Any_MSA - 1.82 RGB565ToARGBRow_MSA - 2.14 RGB565ToARGBRow_Any_MSA - 2.08 RGB24ToARGBRow_MSA - 8.57 RGB24ToARGBRow_Any_MSA - 7.42 RAWToARGBRow_MSA - 8.57 RAWToARGBRow_Any_MSA - 7.42 ARGB1555ToYRow_MSA - 2.60 ARGB1555ToYRow_Any_MSA - 2.47 RGB565ToYRow_MSA - 2.45 RGB565ToYRow_Any_MSA - 2.33 RGB24ToYRow_MSA - 2.23 RGB24ToYRow_Any_MSA - 2.01 RAWToYRow_MSA - 2.25 RAWToYRow_Any_MSA - 2.02 ARGB1555ToUVRow_MSA - 1.40 ARGB1555ToUVRow_Any_MSA - 1.37 RGB565ToUVRow_MSA - 1.68 RGB565ToUVRow_Any_MSA - 1.63 RGB24ToUVRow_MSA - 3.02 RGB24ToUVRow_Any_MSA - 2.87 RAWToUVRow_MSA - 3.04 RAWToUVRow_Any_MSA - 2.85 Performance Gain (vs C non-vectorized) ARGB1555ToARGBRow_MSA - 4.66 ARGB1555ToARGBRow_Any_MSA - 4.45 RGB565ToARGBRow_MSA - 5.58 RGB565ToARGBRow_Any_MSA - 5.34 RGB24ToARGBRow_MSA - 8.57 RGB24ToARGBRow_Any_MSA - 7.42 RAWToARGBRow_MSA - 8.57 RAWToARGBRow_Any_MSA - 7.42 ARGB1555ToYRow_MSA - 6.38 ARGB1555ToYRow_Any_MSA - 5.98 RGB565ToYRow_MSA - 6.42 RGB565ToYRow_Any_MSA - 6.05 RGB24ToYRow_MSA - 7.87 RGB24ToYRow_Any_MSA - 7.01 RAWToYRow_MSA - 7.98 RAWToYRow_Any_MSA - 7.01 ARGB1555ToUVRow_MSA - 5.39 ARGB1555ToUVRow_Any_MSA - 5.06 RGB565ToUVRow_MSA - 6.39 RGB565ToUVRow_Any_MSA - 5.90 RGB24ToUVRow_MSA - 3.04 RGB24ToUVRow_Any_MSA - 2.87 RAWToUVRow_MSA - 3.04 RAWToUVRow_Any_MSA - 2.88 Review-Url: https://codereview.chromium.org/2600713002 .	2017-01-13 15:43:37 +05:30
Frank Barchard	000d2fa91a	Libyuv MIPS DSPR2 optimizations. Optimized functions: I444ToARGBRow_DSPR2 I422ToARGB4444Row_DSPR2 I422ToARGB1555Row_DSPR2 NV12ToARGBRow_DSPR2 BGRAToUVRow_DSPR2 BGRAToYRow_DSPR2 ABGRToUVRow_DSPR2 ARGBToYRow_DSPR2 ABGRToYRow_DSPR2 RGBAToUVRow_DSPR2 RGBAToYRow_DSPR2 ARGBToUVRow_DSPR2 RGB24ToARGBRow_DSPR2 RAWToARGBRow_DSPR2 RGB565ToARGBRow_DSPR2 ARGB1555ToARGBRow_DSPR2 ARGB4444ToARGBRow_DSPR2 ScaleAddRow_DSPR2 Bug-fixes in functions: ScaleRowDown2_DSPR2 ScaleRowDown4_DSPR2 BUG= Review-Url: https://codereview.chromium.org/2626123003 .	2017-01-11 12:19:13 -08:00
Manojkumar Bhosale	a899dea251	Add MSA optimized ARGB Attenuate/RGB565/Shuffle/Shader/Gray/Sepia row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ARGBAttenuateRow_MSA - ~1.1x ARGBAttenuateRow_Any_MSA - ~1.1x ARGBToRGB565DitherRow_MSA - ~6.4x ARGBToRGB565DitherRow_Any_MSA - ~6.2x ARGBShuffleRow_MSA - ~5.1x ARGBShuffleRow_Any_MSA - ~1.9x ARGBShadeRow_MSA - ~1.1x ARGBGrayRow_MSA - ~2.6x ARGBSepiaRow_MSA - ~11.6x Performance Gain (vs C non-vectorized) ARGBAttenuateRow_MSA - ~2.46x ARGBAttenuateRow_Any_MSA - ~2.45x ARGBToRGB565DitherRow_MSA - ~9.4x ARGBToRGB565DitherRow_Any_MSA - ~12.5x ARGBShuffleRow_MSA - ~5.2x ARGBShuffleRow_Any_MSA - ~1.9x ARGBShadeRow_MSA - ~4.3x ARGBGrayRow_MSA - ~10.5x ARGBSepiaRow_MSA - ~12.2x Review-Url: https://codereview.chromium.org/2559693002 .	2016-12-15 12:06:02 +05:30
Manojkumar Bhosale	83f460be33	Add MSA optimized ARGB Multiply/Add/Subtract row functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ARGBMultiplyRow_MSA - 1.4x ARGBAddRow_MSA - 8.6x ARGBSubtractRow_MSA - 8.6x ARGBMultiplyRow_Any_MSA - 1.35x ARGBAddRow_Any_MSA - 7.3x ARGBSubtractRow_Any_MSA - 7.2x Performance Gain (vs C non-vectorized) ARGBMultiplyRow_MSA - 4.4x ARGBAddRow_MSA - 27x ARGBSubtractRow_MSA - 22x ARGBMultiplyRow_Any_MSA - 3.5x ARGBAddRow_Any_MSA - 23x ARGBSubtractRow_Any_MSA - 18x Review URL: https://codereview.chromium.org/2529983002 .	2016-12-02 15:21:10 +05:30
Frank Barchard	da0c29dada	Add MSA optimized ARGBToRGB565Row_MSA, ARGBToARGB1555Row_MSA, ARGBToARGB4444Row_MSA, ARGBToUV444Row_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) ARGBToRGB565Row_MSA - ~1.6x ARGBToRGB565Row_Any_MSA - ~1.6x ARGBToARGB1555Row_MSA - ~1.3x ARGBToARGB1555Row_Any_MSA - ~1.3x ARGBToARGB4444Row_MSA - ~3.8x ARGBToARGB4444Row_Any_MSA - ~3.8x ARGBToUV444Row_MSA - ~2.4x ARGBToUV444Row_Any_MSA - ~2.4x Performance Gain (vs C non-vectorized) ARGBToRGB565Row_MSA - ~2.8x ARGBToRGB565Row_Any_MSA - ~2.8x ARGBToARGB1555Row_MSA - ~2.2x ARGBToARGB1555Row_Any_MSA - ~2.2x ARGBToARGB4444Row_MSA - ~6.8x ARGBToARGB4444Row_Any_MSA - ~6.6x ARGBToUV444Row_MSA - ~6.7x ARGBToUV444Row_Any_MSA - ~6.7x Review URL: https://codereview.chromium.org/2520003004 .	2016-11-22 10:47:55 -08:00
Frank Barchard	b1504a8e48	Add MSA optimized ARGBToRGB24Row_MSA and ARGBToRAWRow_MSA functions R=fbarchard@google.com BUG=libyuv:634 Review URL: https://codereview.chromium.org/2487913004 .	2016-11-18 15:05:10 -08:00
Frank Barchard	e62309f259	clang-format libyuv BUG=libyuv:654 R=kjellander@chromium.org Review URL: https://codereview.chromium.org/2469353005 .	2016-11-07 17:37:23 -08:00
Frank Barchard	10ce829bad	Add MSA optimized I422ToRGB565Row_MSA, I422ToARGB4444Row_MSA and I422ToARGB1555Row_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) I422ToRGB565Row_MSA : ~1.5x I422ToRGB565Row_Any_MSA : ~1.5x I422ToARGB4444Row_MSA : ~1.4x I422ToARGB4444Row_Any_MSA : ~1.4x I422ToARGB1555Row_MSA : ~1.4x I422ToARGB1555Row_Any_MSA : ~1.4x Performance Gain (vs C non-vectorized) I422ToRGB565Row_MSA : ~6.8x I422ToRGB565Row_Any_MSA : ~6.8x I422ToARGB4444Row_MSA : ~6.6x I422ToARGB4444Row_Any_MSA : ~6.6x I422ToARGB1555Row_MSA : ~6.6x I422ToARGB1555Row_Any_MSA : ~6.6x Review URL: https://codereview.chromium.org/2445343007 .	2016-10-27 10:47:35 -07:00
Frank Barchard	532f5708a9	Add MSA optimized I422AlphaToARGBRow_MSA and I422ToRGB24Row_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gain (vs C vectorized) I422AlphaToARGBRow_MSA : ~1.4x I422AlphaToARGBRow_Any_MSA : ~1.4x I422ToRGB24Row_MSA : ~4.8x I422ToRGB24Row_Any_MSA : ~4.8x Performance Gain (vs C non-vectorized) I422AlphaToARGBRow_MSA : ~7.0x I422AlphaToARGBRow_Any_MSA : ~7.0x I422ToRGB24Row_MSA : ~7.9x I422ToRGB24Row_Any_MSA : ~7.7x Review URL: https://codereview.chromium.org/2454433003 .	2016-10-26 11:12:17 -07:00
Frank Barchard	f5d5bd88d6	Add MSA optimized I422ToARGBRow_MSA and I422ToRGBARow_MSA functions R=fbarchard@google.com BUG=libyuv:634 Performance Gains :- (vs C vectorized) I422ToARGBRow_MSA : ~1.6x I422ToRGBARow_MSA : ~1.6x I422ToARGBRow_Any_MSA : ~1.58x I422ToRGBARow_Any_MSA : ~1.6x Performance Gains :- (vs C non-vectorized) I422ToARGBRow_MSA : ~7x I422ToRGBARow_MSA : ~7x I422ToARGBRow_Any_MSA : ~6.9x I422ToRGBARow_Any_MSA : ~6.8x Regarding performance measurement, We have created standalone tests which pass in row's data from a 1920x1080 filled buffer to both the C and MSA functions. And such N iterations are executed to get more accurate timings of C vs MSA. Review URL: https://codereview.chromium.org/2430313005 .	2016-10-24 15:37:08 -07:00
Frank Barchard	451af5e922	scale by 1 for neon implemented void HalfFloat1Row_NEON(const uint16* src, uint16* dst, float, int width) { asm volatile ( "1: \n" MEMACCESS(0) "ld1 {v1.16b}, [%0], #16 \n" // load 8 shorts "subs %w2, %w2, #8 \n" // 8 pixels per loop "uxtl v2.4s, v1.4h \n" // 8 int's "uxtl2 v1.4s, v1.8h \n" "scvtf v2.4s, v2.4s \n" // 8 floats "scvtf v1.4s, v1.4s \n" "fcvtn v4.4h, v2.4s \n" // 8 floatsgit "fcvtn2 v4.8h, v1.4s \n" MEMACCESS(1) "st1 {v4.16b}, [%1], #16 \n" // store 8 shorts "b.gt 1b \n" : "+r"(src), // %0 "+r"(dst), // %1 "+r"(width) // %2 : : "cc", "memory", "v1", "v2", "v4" ); } void HalfFloatRow_NEON(const uint16* src, uint16* dst, float scale, int width) { asm volatile ( "1: \n" MEMACCESS(0) "ld1 {v1.16b}, [%0], #16 \n" // load 8 shorts "subs %w2, %w2, #8 \n" // 8 pixels per loop "uxtl v2.4s, v1.4h \n" // 8 int's "uxtl2 v1.4s, v1.8h \n" "scvtf v2.4s, v2.4s \n" // 8 floats "scvtf v1.4s, v1.4s \n" "fmul v2.4s, v2.4s, %3.s[0] \n" // adjust exponent "fmul v1.4s, v1.4s, %3.s[0] \n" "uqshrn v4.4h, v2.4s, #13 \n" // isolate halffloat "uqshrn2 v4.8h, v1.4s, #13 \n" MEMACCESS(1) "st1 {v4.16b}, [%1], #16 \n" // store 8 shorts "b.gt 1b \n" : "+r"(src), // %0 "+r"(dst), // %1 "+r"(width) // %2 : "w"(scale * 1.9259299444e-34f) // %3 : "cc", "memory", "v1", "v2", "v4" ); } TEST=LibYUVPlanarTest.TestHalfFloatPlane_One BUG=libyuv:560 R=hubbe@chromium.org Review URL: https://codereview.chromium.org/2430313008 .	2016-10-21 14:30:03 -07:00
Frank Barchard	f553db2d30	HalfFloatPlane unittest for denormal half floats Halffloats have a limited range. It shouldnt normally come up, but if the scale value passed in produces a small value, the half floats will be denormals, which are slow and/or flust to zero. This test ensures they behave the same in C and SIMD and tests the performance of denormals. TEST=TestHalfFloatPlane_denormal BUG=libyuv:560 R=hubbe@chromium.org Review URL: https://codereview.chromium.org/2424233004 .	2016-10-19 18:13:01 -07:00
Frank Barchard	78c58ab8aa	Add MSA optimized ARGB4444ToI420 and ARGB4444ToARGB functions R=fbarchard@google.com BUG=libyuv:634 Performance gains : (Auto-vectorized C vs MSA SIMD) ARGB4444ToYRow_MSA : ~3.0x ARGB4444ToUVRow_MSA : ~1.8x ARGB4444ToARGBRow_MSA : ~3.4x ARGB4444ToYRow_Any_MSA : ~2.8x ARGB4444ToUVRow_Any_MSA : ~1.7x ARGB4444ToARGBRow_Any_MSA : ~3.2x Review URL: https://codereview.chromium.org/2421843002 .	2016-10-19 11:10:51 -07:00
Frank Barchard	2d80fc3133	Port HalfFloatRow_SSE2 to AVX2 but not using F16C. R=wangcheng@google.com, hubbe@chromium.org BUG=libyuv:560 Review URL: https://codereview.chromium.org/2421993002 .	2016-10-14 19:01:41 -07:00
Frank Barchard	a5e93766a2	Add ARGBExtractAlpha_AVX2 function Port SSE2 version to AVX2. BUG=libyuv:572 TEST=/usr/local/google/home/fbarchard/intelsde/sde -skx -- out/Release/libyuv_unittest --gtest_filter=Extract R=wangcheng@google.com, magjed@chromium.org Review URL: https://codereview.chromium.org/2420553002 .	2016-10-13 16:03:43 -07:00
Frank Barchard	d363ea6527	Remove I411 support. YUV 411 is very uncommon format. Remove support. Update documentation to reflect that 411 is deprecated. Simplify tests for YUV to only test with the new side by side YUV but keep old 3 plane test around with a macro for now. BUG=libyuv:645 R=kjellander@chromium.org Review URL: https://codereview.chromium.org/2406123002 .	2016-10-11 11:14:16 -07:00
Frank Barchard	af87c11c9a	YUY2ToI422 coalesce rows for small images TBR=wangcheng@google.com BUG=libyuv:647 TESTED=LibYUVConvertTest.YUY2ToI422_Opt Review URL: https://codereview.chromium.org/2393393006 .	2016-10-07 18:35:42 -07:00
Frank Barchard	a2891ec77c	Add MSA optimized YUY2ToI422, YUY2ToI420, UYVYToI422, UYVYToI420 functions R=fbarchard@google.com BUG=libyuv:634 Performance gains as below, YUY2ToI422, YUY2ToI420 :- YUY2ToYRow_MSA : ~10x YUY2ToUVRow_MSA : ~11x YUY2ToUV422Row_MSA : ~9x YUY2ToYRow_Any_MSA : ~6x YUY2ToUVRow_Any_MSA : ~5x YUY2ToUV422Row_Any_MSA : ~4x UYVYToI422, UYVYToI420 :- UYVYToYRow_MSA : ~10x UYVYToUVRow_MSA : ~11x UYVYToUV422Row_MSA : ~9x UYVYToYRow_Any_MSA : ~6x UYVYToUVRow_Any_MSA : ~5x UYVYToUV422Row_Any_MSA : ~4x Review URL: https://codereview.chromium.org/2397693002 .	2016-10-07 10:37:22 -07:00
Frank Barchard	3b88a19ab1	YUY2ToI422_Any_Neon clean up to not require 16 pixels YUY2ToI422_Any_Neon previously required 16 pixels and duplicated the last pixel. The replication was not necessary after a previous change to treat YUY2 to 4 byte macro pixels. TBR=harryjin@google.com BUG=libyuv:648 TESTED=util/android/test_runner.py gtest -s libyuv_unittest -t 7200 --verbose --release --gtest_filter=YUY2ToI422 -a "--libyuv_width=17 --libyuv_height=7 --libyuv_repeat=999 --libyuv_flags=1" Review URL: https://codereview.chromium.org/2399143002 .	2016-10-06 12:11:40 -07:00
Frank Barchard	7018f5be0f	Add MSA optimized I422ToYUY2Row, I422ToUYVYRow functions R=fbarchard@google.com BUG=libyuv:634 Performance gains :- I422ToYUY2Row_MSA - ~12x I422ToYUY2Row_Any_MSA - ~7x I422ToUYVYRow_MSA - ~12x I422ToUYVYRow_Any_MSA - ~7x Review URL: https://codereview.chromium.org/2378753004 .	2016-10-03 18:21:31 -07:00
Frank Barchard	4a14cb2e81	HalfFloat_SSE2 port from C algorithm to SSE2 Low level support for 12 bit 420, 422 and 444 YUV video frame conversion. BUG=libyuv:560, chromium:445071 TEST=untested R=hubbe@chromium.org Review URL: https://codereview.chromium.org/2381493006 .	2016-09-30 09:47:16 -07:00
Frank Barchard	7fc932ddd3	Add low level support for 12 bit 420, 422 and 444 YUV video frame conversion. BUG=libyuv:560,chromium:445071 TEST=untested R=hubbe@chromium.org Review URL: https://codereview.chromium.org/2371293002 .	2016-09-29 15:06:30 -07:00
Frank Barchard	618149084e	Add MIPS SIMD Arch (MSA) optimized ARGBMirrorRow function This patch adds MSA optimized ARGBMirrorRow function in libYUV project. Performance gain ~3x R=fbarchard@google.com BUG=libyuv:634 Review URL: https://codereview.chromium.org/2368313003 .	2016-09-26 16:28:01 -07:00
Frank Barchard	c5323b0fdc	Add MIPS SIMD Arch (MSA) optimized MirrorRow function As per the preparation patch added in Chromium sources at, 2150943003: Add MIPS SIMD Arch (MSA) build flags for GYP/GN builds This patch adds first MSA optimized function in libYUV project. BUG=libyuv:634 R=fbarchard@google.com Review URL: https://codereview.chromium.org/2285683002 .	2016-09-22 16:12:22 -07:00
Frank Barchard	6546096269	ARGBExtractAlpha 16 pixels at a time for ARM arm64 8 TestARGBExtractAlpha (10019 ms) <-original 64 bit code arm64 8 x2 TestARGBExtractAlpha (7639 ms) arm64 16 TestARGBExtractAlpha (7369 ms) <- new 64 bit code thumb32 8 TestARGBExtractAlpha (9505 ms) <- original 32 bit code thumb32 8 x2 TestARGBExtractAlpha (7400 ms) thumb32 8 x2i TestARGBExtractAlpha (7266 ms) <- new 32 bit code arm32 8 TestARGBExtractAlpha (10002 ms) BUG=libyuv:572 TESTED=local test on nexus 9 R=harryjin@google.com, wangcheng@google.com Review URL: https://codereview.chromium.org/2035573002 .	2016-06-07 10:44:28 -07:00
Magnus Jedvert	942db3016a	Add ARGBExtractAlpha function BUG=libyuv:572 R=fbarchard@google.com Review URL: https://codereview.chromium.org/1995293002 .	2016-05-26 10:30:57 +02:00
Frank Barchard	fbdc43a03c	fix wrong HAS_ARGBCOPYALPHAROW_SSE2 ifdef TBR=kjellander@chromium.org BUG=libyuv:593 TESTED=try bots pass. Review URL: https://codereview.chromium.org/2000393002 .	2016-05-23 16:26:02 -07:00
Frank Barchard	127ff512b3	add perf data files to ignores document play services update R=jkellander@chromium.org BUG=none Review URL: https://codereview.chromium.org/1712463002 .	2016-02-17 21:37:09 -08:00
Frank Barchard	0d880e5bc0	rename MIPS_DSPR2 to DSPR2 for consistency When attempting to normalize function names to end in Row_SIMD it was made harder with MIPS_DSPR2 naming convention. Other CPUs do not include the vendor. This should be named consistently. Removed the DISABLE_MIPS in favour of DISABLE_ASM for consistency with other processors. TBR=harryjin@google.com BUG=libyuv:562 Review URL: https://codereview.chromium.org/1677633002 .	2016-02-05 14:49:54 -08:00
Frank Barchard	081475b3c8	refactor ARGBToI422 using ARGBToI420 internally R=harryjin@google.com BUG=libyuv:546 Review URL: https://codereview.chromium.org/1574253004 .	2016-01-12 17:05:49 -08:00
Frank Barchard	f4447745ae	Add rounding to InterpolateRow for improved quality and consistency. Remove inaccurate specializations for 1/4 and 3/4, since they round incorrectly. Specialize for 100% and 50% are kept due to performance. Make C and ARM code match SSSE3. Make unittests expect zero difference. BUG=libyuv:535 R=harryjin@google.com Review URL: https://codereview.chromium.org/1533643005 .	2015-12-17 15:24:06 -08:00
Frank Barchard	a2ea905679	BlendPlane any width. Benchmark out\release\libyuv_unittest --libyuv_width=1279 --libyuv_height=719 --libyuv_repeat=999 --libyuv_flags=-1 --gtest_filter=Blend \| sortms Was I420Blend_Any (2321 ms) I420Blend_Unaligned (1684 ms) I420Blend_Opt (1675 ms) I420Blend_Invert (1653 ms) BlendPlane_Invert (1556 ms) BlendPlane_Any (1552 ms) BlendPlane_Unaligned (1548 ms) BlendPlane_Opt (1535 ms) ARGBBlend_Unaligned (659 ms) ARGBBlend_Any (596 ms) ARGBBlend_Invert (591 ms) ARGBBlend_Opt (508 ms) BlendPlaneRow_Unaligned (186 ms) BlendPlaneRow_Opt (171 ms) Now ARGBBlend_Any (621 ms) ARGBBlend_Unaligned (585 ms) ARGBBlend_Invert (564 ms) ARGBBlend_Opt (512 ms) I420Blend_Unaligned (347 ms) I420Blend_Invert (345 ms) I420Blend_Any (337 ms) I420Blend_Opt (327 ms) BlendPlane_Unaligned (187 ms) BlendPlaneRow_Unaligned (187 ms) BlendPlane_Invert (186 ms) BlendPlane_Any (186 ms) BlendPlaneRow_Opt (173 ms) BlendPlane_Opt (171 ms) which is comparable to aligned case out\release\libyuv_unittest --libyuv_width=1280 --libyuv_height=720 --libyuv_repeat=999 --libyuv_flags=-1 --gtest_filter=Blend \| sortms ARGBBlend_Any (625 ms) ARGBBlend_Unaligned (602 ms) ARGBBlend_Invert (508 ms) ARGBBlend_Opt (506 ms) I420Blend_Any (353 ms) I420Blend_Unaligned (322 ms) I420Blend_Invert (304 ms) I420Blend_Opt (301 ms) BlendPlaneRow_Unaligned (188 ms) BlendPlane_Unaligned (186 ms) BlendPlane_Invert (185 ms) BlendPlane_Any (184 ms) BlendPlaneRow_Opt (173 ms) BlendPlane_Opt (169 ms) R=dhrosa@google.com, harryjin@google.com BUG=libyuv:527 Review URL: https://codereview.chromium.org/1513443002 .	2015-12-08 18:59:48 -08:00
Frank Barchard	526558b2d8	disable debug build of 411 to work around compiler bug TBR=harryjin@google.com BUG=libyuv:524 Review URL: https://codereview.chromium.org/1461013002 .	2015-11-19 02:25:00 -08:00
Frank Barchard	72a9e282ec	disable more avx2 functions that dont link in chrome libyuv builds/runs, but when integrated into chromium, produces link errors. unclear why but this disables affected functions. will followup with re-enabling them once the root cause in the runtime error is found. TBR=harryjin@google.com BUG=libyuv:522 Review URL: https://codereview.chromium.org/1427683004 .	2015-11-09 17:20:02 -08:00
Frank Barchard	860cc0357a	Neon versions of I420AlphaToARGB Add alpha version of YUV to RGB to neon code for ARMv7 and aarch64. For other YUV to RGB conversions, hoist alpha set to 255 out of loop. TBR=harryjin@google.com BUG=libyuv:516 Review URL: https://codereview.chromium.org/1413763017 .	2015-11-03 19:21:36 -08:00
Frank Barchard	ce4c2fad1d	Raw 24 bit RGB to RGB24 (bgr) Add unittests that do 1 step conversion vs 2 step conversion. Tests end swapping versions match direct conversions. R=harryjin@google.com BUG=libyuv:518 Review URL: https://codereview.chromium.org/1419103007 .	2015-11-03 10:30:30 -08:00
Frank Barchard	2c7aa0070a	remove I422ToBGRA and use I422ToRGBA internally Removes low levels for I420ToBGRA and I420ToRAW and reimplements them as I420ToRGBA and I420ToRGB24 with transposed color matrix. Adds unittests that do 1 step conversion vs 2 steps to test end swapping versions match direct conversions. R=harryjin@google.com BUG=libyuv:518 Review URL: https://codereview.chromium.org/1427993004 .	2015-11-02 10:24:12 -08:00
Frank Barchard	5d97b93369	refactor I420ToABGR to use I420ToARGBRow Using a transposed conversion matrix, I420ToARGB can output ABGR. R=harryjin@google.com, xhwang@chromium.org BUG=libyuv:473 Review URL: https://codereview.chromium.org/1413573010 .	2015-10-30 11:56:57 -07:00
Frank Barchard	b86dbf24d3	refactor I420AlphaToABGR to use I420AlphaToARGB internally swap U and V and transpose conversion matrix, so I420AlphaToARGB and I420AlphaToABGR share low level code. Having less code with same performance allows more focused optimization for future ARM versions. R=harryjin@google.com TBR=harryjin@chromium.org BUG=libyuv:473,libyuv:516 Review URL: https://codereview.chromium.org/1422263002 .	2015-10-27 14:17:21 -07:00
Frank Barchard	cf160cdbaa	implement I444ToABGR by swapping uv and transpose matrix U contributes to B and G. V contributes to R and G. By swapping U and V, they contribute to the opposite channels. Adjust the matrix so the U contribution is in the matrix location such that it till contribute to the new B channel and vice versa. This allows ABGR versions of YUV conversion to use the same low level code as ARGB, just using a different matrix and swapping U and V pointers. As a result the existing I444ToABGRRow functions are no longer needed and are removed. Previously this function was only Intel AVX2 optimized for Windwos. Now it is also optimized for Arm and GCC. ARMv7 Neon Was LibYUVConvertTest.I444ToABGR_Opt (75971 ms) Now LibYUVConvertTest.I444ToABGR_Opt (3672 ms) 20.6 times faster. R=xhwang@chromium.org BUG=libyuv:515 Review URL: https://codereview.chromium.org/1414133006 .	2015-10-27 10:21:21 -07:00
Frank Barchard	430bb0a0f0	odd width 444 fix TBR=harryjin@google.com BUG=libyuv:510 Review URL: https://codereview.chromium.org/1415583003 .	2015-10-21 20:03:19 -07:00
Frank Barchard	90335f6043	bug fix for odd width 16/24 bit to i420 A bug was introduced on arm when the code for 'any' width switch to a temporary stack buffer and simd. The C version handles odd width by doing 1 pixel, instead of averaging 2. But the SIMD any version is supposed to replicate the last pixel, then the subsampling in Neon will average the pixel with itself, producing the same result. The previous version did this, but only for ARGB 32 bit, which was to avoid introducing issues with subsampled YUY2 source. This CL adds replication for RGB 16 bit values. TBR=harryjin@google.com BUG=libyuv:510 Review URL: https://codereview.chromium.org/1418983003 .	2015-10-21 18:23:02 -07:00
Frank Barchard	5bf4de0806	width and 3 bug fix in odd width support of ARGBToI411 TBR=harryjin@google.com BUG=none Review URL: https://codereview.chromium.org/1415213002 .	2015-10-21 12:45:08 -07:00
Frank Barchard	ba4b409d51	Fix ARGBToI411 odd width bug. The any function for handling ARGBToI411 was not handling the pixel replication correctly. On 422 and odd width was handled by duplicating a pixel of source. 411 needs replication for remainders of 1, 2 or 3 pixels. The C version was handling odd width but with an average of the remainder pixels, which does not match the SIMD 'any' handling off remainder. This changes the odd width handling to mimic the any version. TBR=harryjin@google.com BUG=libyuv:491 Review URL: https://codereview.chromium.org/1411733004 .	2015-10-21 12:22:24 -07:00
Frank Barchard	cf19a0c9a2	nv21 any fix R=harryjin@google.com BUG=libyuv:507 Review URL: https://codereview.chromium.org/1410643002 .	2015-10-15 16:24:51 -07:00
Frank Barchard	76a599ec3b	fix jpeg and bt.709 yuvconstants for neon64. yuv constants for bt.601 were previously ported to neon64, as well as the code to respect other color spaces. But the jpeg and bt.709 colour conversion constants were still in armv7 form. This changes the constants for aarch64 builds to be compatible with the code. yuv constants are now passed as const * Remove Yvu constants which were used for older version on nv21 but not new code. TBR=harryjin@google.com BUG=none Review URL: https://codereview.chromium.org/1398623002 .	2015-10-07 19:46:56 -07:00
Frank Barchard	914a9856c7	Reimplement NV21ToARGB to allow different color matrix. Low level for NV21ToARGB written to accept yuv matrix used by other YUV to ARGB functions. Previously NV21 was implemented for Windows using NV12 with a different matrix that swapped U and V. But the Arm version of the low level does not allow the matrix U and V contributions to be swapped. Using a new low level function that reads NV21 and uses the same yuvconstants as other YUV conversion functions allows an Arm port of this function. TBR=harryjin@google.com BUG=libyuv:500 Review URL: https://codereview.chromium.org/1388273002 .	2015-10-06 20:34:44 -07:00
Frank Barchard	2cc1a2b233	Remove sse2 functions that also have ssse3 ARGBBlendRow_SSE2, ARGBAttenuateRow_SSE2, and MirrorRow_SSE2 Since vast majority of CPUs have SSSE3 now, removing the SSE2 improves the performance of CPU dispatching. R=harryjin@google.com BUG=none Review URL: https://codereview.chromium.org/1377053003 .	2015-09-30 14:24:44 -07:00
Frank Barchard	9a0e12f5f1	AVX2 1 step I422AlphaToARGB for gcc and win. C I420AlphaToARGB_Opt (5169 ms) SSSE3 I420AlphaToARGB_Opt (432 ms) AVX2 I420AlphaToARGB_Opt (358 ms) and with premultiplication as 2 step process: I420AlphaToARGB_Premult (7029 ms) I420AlphaToARGB_Premult (757 ms) I420AlphaToARGB_Premult (508 ms) R=harryjin@google.com BUG=libyuv:496,libyuv:473 Review URL: https://codereview.chromium.org/1372653003 .	2015-09-25 13:37:42 -07:00
Frank Barchard	e365cdde3b	I420Alpha row function in 1 pass. API change - I420AlphaToARGB takes flag indicating if RGB should be premultiplied by alpha. This version implements an efficient SSSE3 version for Windows. C version done in 2 steps. Was libyuvTest.I420AlphaToARGB_Any (1136 ms) libyuvTest.I420AlphaToARGB_Unaligned (1210 ms) libyuvTest.I420AlphaToARGB_Invert (966 ms) libyuvTest.I420AlphaToARGB_Opt (1031 ms) libyuvTest.I420AlphaToABGR_Any (1020 ms) libyuvTest.I420AlphaToABGR_Unaligned (1359 ms) libyuvTest.I420AlphaToABGR_Invert (1082 ms) libyuvTest.I420AlphaToABGR_Opt (986 ms) R=harryjin@google.com BUG=libyuv:496 Review URL: https://codereview.chromium.org/1367093002 .	2015-09-25 10:29:20 -07:00
Frank Barchard	f96890a0be	yuvconstants for all YUV to RGB conversion functions. R=harryjin@google.com BUG=libyuv:488 Review URL: https://codereview.chromium.org/1363503002 .	2015-09-22 10:26:03 -07:00
Frank Barchard	28427a53e2	I444ToABGR for android Reimplements I444ToARGB as a matrix function. new I444ToABGR as matrix functions with wrappers and any functions. Allows for future J444 and H444 versions. I444ToABGR user level function added. BUG=libyuv:490, libyuv:449 R=harryjin@google.com Review URL: https://codereview.chromium.org/1355733002 .	2015-09-18 11:20:58 -07:00
Frank Barchard	28ce7d94f5	j422toabgr neon port using i422toabgr matrix function. R=harryjin@google.com BUG=libyuv:488 Review URL: https://codereview.chromium.org/1353923003 .	2015-09-17 15:20:55 -07:00

1 2 3 4 5 ...

279 Commits