本發(fā)明屬于機(jī)器人強(qiáng)化學(xué)習(xí)與人機(jī)交互智能控制技術(shù)領(lǐng)域,特別涉及一種自適應(yīng)獎(jiǎng)勵(lì)的人在回路機(jī)器人真機(jī)強(qiáng)化學(xué)習(xí)方法。具體過程為:構(gòu)建用于監(jiān)督機(jī)器人內(nèi)部策略網(wǎng)絡(luò)執(zhí)行的獎(jiǎng)勵(lì)模型,并利用階段進(jìn)度標(biāo)簽標(biāo)注的預(yù)訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練后置入機(jī)器人中;當(dāng)獎(jiǎng)勵(lì)模型...