在另一个字节数组中查找一个字节数组的indexOf


问题内容

给定一个字节数组,我如何在其中找到(较小)字节数组的位置?

使用ArrayUtils该文档看起来很有希望,但是如果我正确的话,那只会让我在要搜索的数组中找到一个单独的字节。

(我认为这并不重要,但以防万一:有时搜索字节数组将是常规的ASCII字符,有时是控制字符或扩展的ASCII字符。因此使用String操作并不总是合适的)

大数组可能在10到10000个字节之间,而小数组大约在10个字节。在某些情况下,我会通过一次搜索在大数组中找到几个较小的数组。我有时会想要查找实例的最后一个索引,而不是第一个。


问题答案:

Java字符串由16位char而不是8位组成byte。A
char可以容纳一个byte,因此您始终可以将字节数组变成字符串,并使用indexOf:ASCII字符,控制字符,甚至零个字符都可以正常工作。

这是一个演示:

byte[] big = new byte[] {1,2,3,0,4,5,6,7,0,8,9,0,0,1,2,3,4};
byte[] small = new byte[] {7,0,8,9,0,0,1};
String bigStr = new String(big, StandardCharsets.UTF_8);
String smallStr = new String(small, StandardCharsets.UTF_8);
System.out.println(bigStr.indexOf(smallStr));

打印7

但是,考虑到大数组最多可以容纳10,000个字节,而小数组只有十个字节,此解决方案可能不是最有效的,原因有两个:

  • 它需要将大数组复制到两倍大的数组中(相同容量,但使用char代替byte)。这使您的内存需求增加了三倍。
  • Java的字符串搜索算法不是最快的一种。如果实施一种高级算法,例如Knuth–Morris–Pratt,则可能会变得足够快。这有可能使执行速度降低多达十倍(小字符串的长度),并且将需要与小字符串(而不是大字符串)的长度成比例的额外内存。