資産価値が高まるオープンソースを未来のために厳重保管するプロジェクト
私たちはGitHub Universe 2019で、北極圏にソースコードを厳重に保管するプロジェクトGitHub Arctic Code Vaultを含むGitHub Archive Programを発表しました。GitHubは、コードを1000年間アーカイブ(保管)することで、次世代にオープンソースソフトウェアを残すというプロジェクトに着手してきたのですが、やっとそのその準備が整いました。GitHub Arctic Code Vaultが実施段階に入りました。
Vaultに何を保存するのか?
2020年2月2日、vault(貯蔵庫)内にアーカイブ保存するため、GitHub上に公開されているすべてのリポジトリのスナップショットを取りました。スナップショットには以下のリポジトリが含まれています。
- 2019年11月13日に開催された「GitHub Universe 2019」の発表から2020年2月2日まで行われたすべてのるコミット
- スナップショット以前の1年間にあたる2019年2月3日から2020年2月2日の期間に星が1つ以上付いたすべてのコミット
- 直近のアクティビティの発生時期にかかわらず、250以上の星が付いたもの
将来への道しるべ
北極圏にあるvaultに保存されたアーカイブには、コンテキストがわかるようにガイドがついています。これらインデックスとガイドには、各リポジトリの場所が詳細に記載されており、データの復旧方法も記載されています。ガイドには、ソフトウェアの概要のほか、オープンソースとその本質の説明、アーカイブの復元方法についての技術的な概要が記載されています。
1月23日、ガイドのドラフト0.1をオープンソースとして開示しましたが、このドラフトの改善には皆さんの協力が必要です。内容をご確認いただき、2020年2月29日、深夜12時(太平洋標準時間)までにGitHub Archive Programのリポジトリにpullリクエストを行ってください。
Archive Program諮問委員会
次世代にとって価値の高いアーカイブにするため、人類学、考古学、アーカイビング、歴史学、言語学、科学、長期プロジェクトなど、各専門家が構成する諮問委員会を立ち上げました。
1月16日~17日に第一回諮問会議を開催し、アーカイブプログラムを精査し、以下の通り3つの重要テーマを特定しました。
- 可視化:科学的なプロッティングコードを表示するなど、アーカイブ内容自体に視覚的表示を行うことを含みます。また、アーカイブの物理的アーチファクトを視覚的に目立たせ、わかりやすい外観にします。
- メタデータ:リポジトリメタデータ(リポジトリの説明、言語、コミットログ、関連するWikiなど)と、過去数回分のState of the OctoverseやWikipediaのスナップショットなど、関連性のある大規模メタデータが含まれます。
- 冗長性:具体的には小規模で「断片的な」アーカイブデポジットを作成し、星が最も多くついており、使用頻度の高い上位1万のリポジトリ、他のリポジトリからの少量のランダムサンプルなどのコンテンツを保存します。デポジットのコピーは、オックスフォード大学ボドリアン図書館など、世界中の著名なアーカイブやライブラリにも寄贈します。
今後の対応は?
本日より始動したArctic Code Vaultは、作業完了までに約2か月を要します。春にはノルウェーのスヴァールバル(Svalbard)で、Arctic Code VaultをArctic World Archiveに正式にデポジットします。
2020年5月にパリで開催されるSatelliteに是非お越しください。Archive Programの詳細や、次世代のためにGitHubが包括的に取り組むソフトウェア保存の重要性についてお伝えしたいと思います。
オープンソースコミュニティへのご協力に感謝申し上げます。