音ズレの件だけど
ソース見てないからどういうズレ方してるかわからんけども徐々にズレが大きくなっていくタイプなら
Audacityで再生時間を映像に合わせて解決できると思うんだけど

自分の手順は
@ffmpegで音と映像を分離(この時に映像と音声の時間をメモ)
A映像を見た感じでAudacityで起点を合わせつつ再生時間を映像に合わせる
Bffmpegで映像と音声を結合

てな流れで修正してる