HOBRB: Improving Task Learning With Reward Machines and Bilayer Buffers in a Hierarchical Framework