Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback

KingsmanVince@kbin.social · 1 year ago

Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback

AsAnAILanguageModel · 1 year ago

Thanks, it’s great to have more multilingual models! It’s a little surprising that RLHF outperforms SFT so consistently in their experiments. I guess it’s worth it after all.