63 captures
02 Dec 2020 - 11 Mar 2026
Sep OCT Nov
06
2020 2021 2022
success
fail

About this capture

COLLECTED BY

Collection: Save Page Now Outlinks

TIMESTAMPS

The Wayback Machine - http://web.archive.org/web/20211006001051/https://archiveprogram.github.com/approach/
  skip to content  


Hot // Near real-time  

Warm // Updated monthly to yearly  

Cold // Updated every 5+ years  




GitHub


On every push to GitHub, we replicate your Git data to multiple datacenters around the world. Additionally, we store backups of Git data, Issues, Pull Requests, and all of your data on GitHub in multiple locations. All of this data is available live via the GitHub API.
 



GH Torrent


GHTorrent monitors the GitHub public event timeline, archives those events, and makes them queryable using BigQuery. You can also download snapshots by hour, day, or month.
 



GH Archive


GHArchive monitors the GitHub public event timeline, archives those events, and recursively crawl and archive their contents and dependencies. Those archives will then be made available for download on a daily or monthly basis.
 



Internet Archive


The Internet Archives well-known Wayback Machine will crawl GitHubs public repositoriesincluding new repositories, issues, pull requests, wikis, and moreand store copies on hard drives in San Francisco and other locations. These archives will be publicly available via git and https.
 



Software Heritage Foundation


The Software Heritage Foundation will crawl GitHub on a regular basis and add its public repos to their archive, to which they provide public API access.
 



Arctic world archive


On February 2, 2020, GitHub will capture a snapshot of every active public repository, to be preserved in the GitHub Arctic Code Vault. This data will be stored on 3,500-foot film reels, provided and encoded by Piql, a Norwegian company that specializes in very-long-term data storage. The film technology relies on silver halides on polyester. This medium has a lifespan of 500 years as measured by the ISO; simulated aging tests indicate Piqls film will last twice as long.
 



Bodleian Library


Oxford Universitys Bodleian Library will provide redundancy for the Arctic Code Vault by keeping GitHubs 10,000 most-starred and most-depended-upon repositories in their depository as duplicate Piql film reels.
 



Bibliotheca Alexandrina


The Bibliotheca Alexandrina will provide redundancy for the Arctic Code Vault by keeping open sources greatest hits containing 17,000 of the most-starred and most-depended-upon repositories in their depository as duplicate Piql film reels.
 



Stanford Library


Stanford Library will provide redundancy for the Arctic Code Vault by keeping open sources greatest hits containing 17,000 of the most-starred and most-depended-upon repositories in their depository as duplicate Piql film reels.
 



Project Silica: Microsoft Research


The GitHub Archive Program is partnering with Microsofts Project Silica to ultimately archive all active public repositories for over 10,000 years, by writing them into quartz glass platters using a femtosecond laser.
 






Tools for the future

How were ensuring the future can use our software




We assembled a GitHub Archive Program advisory panel, including experts in anthropology, archaeology, history, linguistics, archival science, futurism, and more, to advise us on what content should be included in the archive and how to best communicate with its inheritors.

A thousand years is a very long time. Ancient ruins such as Angkor Wat, Great Zimbabwe, and Macchu Picchu had not yet been built a thousand years ago. Nevertheless, we can consider and plan for a broad range of possibilities over the next 1,000 years. This program builds on the best ideas we have today.

The introduction to the archive will include technical guides to QR decoding, file formats, character encodings, and other critical metadata so that the raw data can be converted back into source code for use by others in the future. The archive will also include a Tech Treea roadmap and Rosetta Stone for future curious minds inheriting the archives data.
 


An overview of the archive and how to use it, the Tech Tree will serve as a quickstart manual on software development and computing, bundled with a user guide for the archive. It will describe how to work backwards from raw data to source code and extract projects, directories, files, and data formats.

Inspired by (and including elements of) the Long Nows Manual for Civilization, the archive will also include information and guidance for applying open source, with context for how we use it today, in case future readers need to rebuild technologies from scratch. Like the golden records of Voyager 1 and 2, it will help to communicate the story of our world to the future.

In the range of possible futures in which humanity has working modern computers, but no software to run on them, the archive and its Tech Tree could be extremely valuable. However, the value is more likely to be historical, perhaps ensuring that todays technology is not lost by a tomorrow that carelessly considers it irrelevantuntil an unexpected use for our software is discovered.
 







How the future might use our code.
 


Future historians will be able to learn about us from open source projects and metadata. They might regard our age of open source ubiquity, volunteer communities, and Moores Law as historically significant. We are already partnering with Stanford Libraries to help archive curated repositories along with the cultural and other context in which they are set, as key elements of wide-ranging historical and social research and analysis.

Because hardware can be much longer-lived than most of todays storage media, especially older ones and/or those with mask ROM, there exists a range of possible futures in which working modern computers exist, but their software has largely been lost to bit rot. The Archive Program will preserve that software.

Even in the near future, storing data with multiple partners provides options to people whose access might otherwise be restricted. If GitHub were to become unavailable in any location, for example due to an internet routing issue, those affected could access public code for their projects using the Internet Archive and Software Heritage Foundation.

There is a long history of lost technologies from which the world would have benefited, as well as abandoned technologies which found unexpected new uses, from Roman concrete, or the anti-malarial DFDT, to the hunt for mothballed Saturn V blueprints after the Challenger disaster. It is easy to envision a future in which todays software is seen as a quaint and long-forgotten irrelevancy, until an unexpected need for it arises. Like any backup, the GitHub Archive Program is also intended for currently unforeseeable futures as well.
 


code ascii pattern


FAQ  

Explore  outgoing link icon
Join GitHub  outgoing link icon
Become a Partner  outgoing link icon