gdk: Optimise RGBA8 → premultiplied BGRA8 for ARM
authorEmmanuel Gil Peyrot <linkmauve@linkmauve.fr>
Tue, 15 Feb 2022 19:58:56 +0000 (20:58 +0100)
committerEmmanuel Gil Peyrot <linkmauve@linkmauve.fr>
Wed, 16 Feb 2022 15:36:33 +0000 (16:36 +0100)
commit1fdf5b7cf8fec2d94389ecad5ec28865f8dcfd99
tree8e0141181474edb6cad502c57102c573e336f9fe
parent0e3ed7a7380a377c650dfe665db741498e183933
gdk: Optimise RGBA8 → premultiplied BGRA8 for ARM

This more than halves the total runtime of this function since the
previous commit, from 8.36% to 4.02%, and is most likely memory
bandwidth limited on this specific board now.

I tried to do a SSE2 version as well, but couldn’t find any equivalent
of the LD4/ST4 ARM instruction.
gdk/gdkmemoryformat.c