Databricksは、大規模言語モデル(以下、LLM)「Dolly」の最新バージョンである『Dolly 2.0』をリリースし、同社ブログにて発表しました。
Meet Dolly 2.0: the first open-source, instruction-following LLM that’s available for commercial use & doesn’t require you to pay for API access or share data with third parties. Now, anyone can create a powerful LLM that understands how to talk to people! https://t.co/pchw6uZ9X7
— Databricks (@databricks) April 12, 2023
Meet Dolly 2.0: the first open-source, instruction-following LLM that’s available for commercial use & doesn’t require you to pay for API access or share data with third parties. Now, anyone can create a powerful LLM that understands how to talk to people! https://t.co/pchw6uZ9X7
— Databricks (@databricks) April 12, 2023
Dolly 2.0は、商用利用可能なオープンソースの命令追従型LLMです。リリースしたDatabricksによれば、Dolly 2.0が初の商用利用可能なオープンソースである命令追従型LLMとのこと。
Dolly 1.0をリリースした際、「商用利用が可能かどうか」という質問が多く寄せられました。Dolly 1.0は、OpenAI APIを利用したデータセットでトレーニングされていたので、同APIの利用規約に抵触しており、商用利用はできませんでした。
これを踏まえてDolly 2.0では、EleutherAIのpythiaモデルファミリーをベースに、5,000人以上のDatabricks従業員によって作られたレコードも含んだデータセットでトレーニングしたことで、商用利用を可能にしています。
こうして生まれたデータセット「databricks-dolly-15k」は、Dolly 1.0で使われたデータセットも小さいものですが、高品質であるといいます。
詳細は、「Free Dolly: Introducing the World’s First Truly Open Instruction-Tuned LLM」をご確認ください。
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM