提问者:小点点

Java -将16位带符号pcm音频数据数组转换为双数组


我正在做一个涉及音频处理的项目。

我从一个文件中提取一段音频,然后想对它进行一些处理。问题是我以字节数组的形式获取音频数据,而我的处理是在双数组上进行的(后来也在复数组上进行...).

我的问题是,如何正确地将接收到的字节数组转换为双数组才能继续?

这是我的输入代码:

AudioFormat format = new AudioFormat(8000, 16, 1, true, true);
AudioInputStream in = AudioSystem.getAudioInputStream(WAVfile);
AudioInputStream din = null;
AudioFormat decodedFormat = new AudioFormat(AudioFormat.Encoding.PCM_SIGNED, 
                        8000,
                        16,
                        1,
                        2,
                        8000,
                        true);
din = AudioSystem.getAudioInputStream(decodedFormat, in);
TargetDataLine fileLine = AudioSystem.getTargetDataLine(decodedFormat);
fileLine .open(format);
fileLine .start();

int numBytesRead;
byte[] targetData = new byte[256]; // (samplingRate / 1000) * 32ms

while (true) {
    numBytesRead = din.read(targetData, 0, targetData.length);

    if (numBytesRead == -1) {
        break;
    }

    double[] convertedData;
    // Conversion code goes here...

    processAudio(convertedData);
}

到目前为止,我已经研究了这个网站和其他网站的不同问题的不同答案。我尝试过使用ByteBuffer和bit conversion,但是它们都没有给我正确的结果(我的them中的另一个成员在Python中对同一个文件做了同样的事情,所以我有一个参考结果应该是什么样的...

我错过了什么?如何正确地将字节转换为双字节?如果我只想在targetData中捕获32毫秒的文件,那么targerData的长度应该是多少?那么convertedData的长度是多少?

提前谢谢。


共2个答案

匿名用户

使用NIO缓冲区的转换应该不会太难。你所要做的就是应用一个因子,从16位范围归一化到< code>[-1.0…1.0]范围。

好吧,这并不容易,但对于大多数实际目的,决定一个因素就足够了:

AudioFormat decodedFormat = new AudioFormat(AudioFormat.Encoding.PCM_SIGNED, 
                                            8000, 16, 1, 2, 8000, true);
try(AudioInputStream in  = AudioSystem.getAudioInputStream(WAVfile);
    AudioInputStream din = AudioSystem.getAudioInputStream(decodedFormat, in);
    ReadableByteChannel inCh = Channels.newChannel(din)) {

    ByteBuffer inBuf=ByteBuffer.allocate(256);
    final double factor=2.0/(1<<16);
    while(inCh.read(inBuf) != -1) {
        inBuf.flip();
        double[] convertedData=new double[inBuf.remaining()/2];
        DoubleBuffer outBuf=DoubleBuffer.wrap(convertedData);
        while(inBuf.remaining()>=2) {
            outBuf.put(inBuf.getShort()*factor);
        }
        assert !outBuf.hasRemaining();
        inBuf.compact();
        processAudio(convertedData);
    }
}

上述解决方案有效地使用了…/(double)0x8000变量。由于我不知道processAudio对提供的缓冲区做了什么,例如它是否保持对它的引用,所以循环在每次迭代中都会分配一个新的缓冲区,但应该很容易将其更改为可重用的缓冲区。使用预先分配的缓冲区时,您只需注意实际的读/转换双精度数。

匿名用户

首先,阅读示例AudioFormat.Encoding.PCM_SIGNEDBigEndian使用的格式,然后阅读javaint(此数字的格式)。然后使用二进制移位运算符正确移动字节

我会把代码贴在这里,但我现在没有。这是我遵循的指示。

例如,我使用以下方法成功获取立体声音频数据:

AudioFormat format = new AudioFormat(8000, 16, 2, true, false);

然后通过以下方式转换它们:

   int l = (short) ((readedData[i*4+1]<<8)|readedData[i*4+0]);
   int r = (short) ((readedData[i*4+3]<<8)|readedData[i*4+2]);

所以你的比例应该是:

   double scaledL = l/32768d;
   double scaledR = r/32768d;