Θέλετε να κρατήσετε κάθε σελιδοδείκτη που σας ενδιαφέρει offline;  Σας παρουσιάζουμε πώς μπορείτε να δημιουργήσετε το δικό σας αρχειοφυλάκιο ιστού ανοιχτού κώδικα.

Πώς να δημιουργήσετε το δικό σας Ιδιωτικό Hosted Read-It-αργότερα App

Διαφήμιση Το διαδίκτυο είναι ένας τεράστιος θησαυρός της γνώσης. Αλλά είναι φευγαλέα και δεν υπάρχουν εγγυήσεις ότι το περιεχόμενο που σας αρέσει θα είναι εκεί στο μέλλον. Εάν δεν μπορείτε να αντέξετε οικονομικά να χάσετε αυτό το περιεχόμενο, μπορείτε να χρησιμοποιήσετε ένα εργαλείο αρχειοθέτησης ιστού για να απ

Διαφήμιση

Το διαδίκτυο είναι ένας τεράστιος θησαυρός της γνώσης. Αλλά είναι φευγαλέα και δεν υπάρχουν εγγυήσεις ότι το περιεχόμενο που σας αρέσει θα είναι εκεί στο μέλλον. Εάν δεν μπορείτε να αντέξετε οικονομικά να χάσετε αυτό το περιεχόμενο, μπορείτε να χρησιμοποιήσετε ένα εργαλείο αρχειοθέτησης ιστού για να αποθηκεύσετε ένα αντίγραφο της ιστοσελίδας.

Πολλοί άνθρωποι χρησιμοποιούν υπηρεσίες ανάγνωσης για αποθήκευση άρθρων ιστού. Αυτές οι εφαρμογές λειτουργούν καλύτερα με περιεχόμενο με βάση το κείμενο και δεν χειρίζονται σωστά τα πολύπλοκα σχέδια ιστοσελίδων ή τα μέσα. Θέλετε λίγο περισσότερο έλεγχο;

Ας δούμε πώς μπορείτε να δημιουργήσετε έναν κλώνο του Instapaper ή Pocket στον υπολογιστή σας χωρίς να χάσετε οποιοδήποτε στοιχείο ιστοχώρου.

Παρουσίαση του αρχείου

Το ArchiveBox είναι μια λύση ανοιχτού κώδικα που μπορεί να σας βοηθήσει να φιλοξενήσετε τη δική σας εναλλακτική λύση σε μια υπηρεσία αρχειοθέτησης όπως η μηχανή Wayback. Δεν παραιτείται από το απόρρητό σας ή παραμένει κλειδωμένο σε μια υπηρεσία που δεν μπορείτε να ελέγξετε.

Παίρνει τη λίστα με τις διευθύνσεις URL που θέλετε να αρχειοθετήσετε και δημιουργεί έναν τοπικό, περιηγητό κλώνο HTML του περιεχομένου σε πολλές μορφές. Περιλαμβάνει τοπικά αντίγραφα σε HTML, στιγμιότυπο οθόνης της σελίδας, αρχείο PDF και WARC (Web ARChive).

Αυτά τα αντίγραφα παραμένουν μαζί σας, ακόμη και αν η αρχική ιστοσελίδα εξαφανιστεί στο μέλλον.

Το ArchiveBox είναι γραμμένο σε Python 3. Χρησιμοποιεί επίσης εξαρτήσεις όπως το Wget, το Headless Chrome, το Youtube-dl και άλλα εργαλεία Unix για να αποθηκεύσετε την ιστοσελίδα. Δεν χρειάζεστε έναν διακομιστή backend που λειτουργεί συνεχώς. Απλώς το εκτελέστε κάθε φορά που θέλετε να εισαγάγετε νέους συνδέσμους και να ενημερώσετε τη στατική έξοδο.

Αφού ολοκληρωθεί η αρχειοθέτηση, μπορείτε να ανοίξετε το παράγωγο output / index.html στο πρόγραμμα περιήγησής σας για να δείτε το αρχείο.

ArchiveBox

Πλεονεκτήματα του αρχείου

  • Αρχειοθετεί τους συνδέσμους σε διάφορες μορφές αρχείων που λειτουργούν ως αντίγραφα ασφαλείας.
  • Προσπαθεί να διατηρήσει την αρχική ιστοσελίδα χρησιμοποιώντας εξελιγμένες μεθόδους λήψης.
  • Έχει τη δυνατότητα να εξαγάγει αυτόματα το περιεχόμενο και να τα αποθηκεύσει σε ένα μόνο φάκελο.
  • Παρέχει επίσης μια απλή διεπαφή γραμμής εντολών για την αντιμετώπιση πολλαπλών συνδέσεων, τροφοδοσιών και σελιδοδεικτών. Πρέπει να το ορίσετε μία φορά και να το εκτελέσετε σε ένα χρονοδιάγραμμα για την αρχειοθέτηση νεότερων συνδέσμων.

Μειονεκτήματα του αρχείου

  • Το ArchiveBox εξάγει όλα τα στοιχεία από την ιστοσελίδα. Καταναλώνει σημαντικό χώρο στο δίσκο και είναι εντατική CPU.
  • Η εφαρμογή απαιτεί τρεις ή περισσότερες εξαρτήσεις πέραν της Python 3.5. Απαιτείται δοκιμή και σφάλμα για να λειτουργήσουν μαζί αυτά τα στοιχεία.
  • Η εφαρμογή δεν υποστηρίζει πλήρως τα Windows OS. Πρέπει να εγκαταστήσετε το Docker ή να ενεργοποιήσετε το Windows Subsystem για Linux (WSL) Πώς να εκτελέσετε μια επιφάνεια εργασίας Linux Χρησιμοποιώντας το υποσύστημα των Windows για Linux Πώς να εκτελέσετε μια επιφάνεια εργασίας Linux Χρησιμοποιώντας το υποσύστημα των Windows για το Linux Θέλετε να τρέξετε το Linux στον υπολογιστή σας των Windows; Δείτε πώς μπορείτε να εκτελέσετε μια επιφάνεια εργασίας Linux στα Windows χρησιμοποιώντας το Υποσύστημα των Windows για Linux. Διαβάστε περισσότερα . Ακόμα και κάποια χαρακτηριστικά μπορεί να λειτουργούν ή να μην λειτουργούν.

Υποστηριζόμενα λειτουργικά συστήματα

Το ArchiveBox υποστηρίζει επίσημα τα ακόλουθα λειτουργικά συστήματα:

  • macOS: 10.12 Σιέρα με Homebrew.
  • Linux: Ubuntu, Debian (με APT). Η εφαρμογή μπορεί (ή μπορεί να μην λειτουργεί) σε διανομές όπως Fedora, CentOS, SUSE, Arch και πολλά άλλα.
  • BSD: FreeBSD, OpenBSD, NetBSD (με pkg).

Εξαρτήσεις

Το ArchiveBox είναι ένα ευέλικτο εργαλείο αρχειοθέτησης ιστού. Πρέπει να εγκαταστήσετε τις παρακάτω εξαρτήσεις και να πληρούν τις ελάχιστες απαιτήσεις.

  • Python 3. Μην χρησιμοποιείτε την προεπιλεγμένη Python 2.0 που συνοδεύει το macOS.
  • Wget 1.16
  • Χρώμιο 59. Εάν χρησιμοποιείτε ήδη το Google Chrome, μην εγκαταστήσετε το Chromium.
  • Youtube-dl (Προαιρετικό): Οι πόροι των μέσων χρειάζονται πολύ χώρο αποθήκευσης. Δώστε μια λεπτομερή σκέψη πριν από την αρχειοθέτηση των σελιδοδεικτών σας.

Ρύθμιση αρχείου

Υπάρχουν δύο τρόποι ρύθμισης του πλαισίου ArchiveBox- Automatic και Manual .

Στην αυτόματη μέθοδο, ένα βοηθητικό script θα εγκαταστήσει την εφαρμογή και τις εξαρτήσεις της. Αλλά δεν θα μπορείτε να αντιμετωπίσετε το πρόβλημα αν προκύψει κάποιο σφάλμα. Είναι καλύτερο να εγκαταστήσετε την εφαρμογή χειροκίνητα.

Για τους σκοπούς της επίδειξης, θα χρησιμοποιήσουμε το macOS 10.14.6.

Εγκατάσταση των εξαρτήσεων

Ο καλύτερος τρόπος για να εγκαταστήσετε εξαρτήσεις είναι μέσω ενός διαχειριστή πακέτων που ονομάζεται Homebrew. Για να κατανοήσετε τα βασικά του, δείτε αυτό το άρθρο σχετικά με τον τρόπο εγκατάστασης εφαρμογών για Mac με το Homebrew.

Ανοίξτε το τερματικό και πληκτρολογήστε

 brew install python3 git wget curl youtube-dl 
 brew cask install chromium 

(Παράλειψη αν έχετε ήδη εγκατεστημένο το Google Chrome / Chromium στις εφαρμογές)

Ελέγξτε τον αριθμό έκδοσης όλων των εξαρτήσεων

Για να ελέγξετε τον αριθμό έκδοσης όλων των εξαρτήσεων, πληκτρολογήστε

 dependency app --version 

(Αντικαταστήστε την εφαρμογή εξάρτησης με python3, wget, youtube-dl και πολλά άλλα)

ελέγξτε την έκδοση όλων των εξαρτήσεων

Κάντε λήψη του αρχείου εξαγωγής σελιδοδεικτών

Όλες οι υπηρεσίες και τα προγράμματα περιήγησης που έχουν αναγνωστεί αργότερα μπορούν να εξάγουν τους σελιδοδείκτες σας ως αρχείο HTML. Ακολουθήστε τις οδηγίες σε αυτό το άρθρο σχετικά με τον τρόπο εξαγωγής σελιδοδεικτών από τον περιηγητή σας Πώς να μεταφέρετε σελιδοδείκτες μεταξύ του Chrome, του Firefox ή / και της άκρης Πώς να μεταφέρετε σελιδοδείκτες μεταξύ του Chrome, του Firefox και / ή του Edge Θέλετε να μεταφέρετε τους σελιδοδείκτες σας σε ένα νέο πρόγραμμα περιήγησης να τα αποθηκεύσετε για φύλαξη; Δείτε πώς μπορείτε να το κάνετε σε Chrome, Firefox και Edge. Διαβάστε περισσότερα . Μπορείτε επίσης να αποθηκεύσετε έναν μόνο σύνδεσμο ή τη λίστα των διευθύνσεων URL σε ένα αρχείο κειμένου.

Εγκατάσταση αρχείου

Κλωνοποιήστε το repo από το GitHub. Ανοίξτε το τερματικό και πληκτρολογήστε

 git clone https://github.com/pirate/ArchiveBox 

Επειτα,

 cd ArchiveBox/ 

Όταν κλωνοποιείτε αυτό το repo, το πρόγραμμα εγκατάστασης θα δημιουργήσει ένα φάκελο ArchiveBox στον οικείο κατάλογό σας. Αυτός ο φάκελος περιέχει όλα τα κύρια αρχεία εφαρμογών και ρυθμίσεων.

εγκαταστήστε το αρχείο ArchiveBox

Προσθέστε τη διεύθυνση URL σας στο αρχείο

Εάν θέλετε να αρχειοθετήσετε έναν μόνο σύνδεσμο, πληκτρολογήστε

 echo 'https://example.com'| ./archive 

αρχειοθέτηση ενός μόνο συνδέσμου

Μεταβείτε στο φάκελο του Αρχείου για να δείτε το φάκελο εξόδου που δημιουργήθηκε πρόσφατα. Εδώ θα δείτε ένα αρχείο index.html.

Αρχείο εξόδου αρχείου

Προσθήκη πολλών συνδέσεων στο αρχείο

Όταν θέλετε να αποθηκεύσετε πολλαπλούς συνδέσμους (δεκάδες ή περισσότερα), είναι καλύτερο να προσθέσετε τους συνδέσμους σας σε ένα αρχείο κειμένου. Η εφαρμογή θα αναλύσει τις διευθύνσεις URL μέσα στο αρχείο και θα τις αρχειοθετήσει. Ανοίξτε το τερματικό και πληκτρολογήστε

 ./archive [Path to Your File.txt] 

Εάν το αρχείο σας βρίσκεται στο φάκελο " Λήψεις ", η διαδρομή σας θα μοιάζει

 ./archive /Users/(Home directory name)/Downloads/links.txt 

Περιμένετε λίγα λεπτά / ώρες για να ολοκληρώσετε τη διαδικασία. Για να αποκτήσετε πρόσβαση στο αρχείο σας, ανοίξτε την έξοδο / index.html στο πρόγραμμα περιήγησής σας. Μπορείτε να ταξινομήσετε ανά στήλη, να αναζητήσετε τον τίτλο χρησιμοποιώντας το πλαίσιο στην επάνω δεξιά γωνία και να δείτε τον συνολικό αριθμό συνδέσμων στο κάτω μέρος.

αρχειοθετημένους συνδέσμους μέσω του αρχείου

Κάντε κλικ στο favicon στη στήλη Αρχεία για να επισκεφθείτε τη σελίδα λεπτομερειών. Θα βρείτε συνδέσμους σε μεμονωμένη μορφή αρχείου όπως φαίνεται στο στιγμιότυπο οθόνης. Ο ίδιος σύνδεσμος μεταφέρεται επίσης στο αρχείο archive.org.

λεπτομερή σελίδα κάθε αρχειοθετημένου συνδέσμου

Με τον ίδιο τρόπο, εξάγετε τους συνδέσμους Instapaper ή Pocket ως αρχείο HTML. Στη συνέχεια, πληκτρολογήστε

 ./archive ~/Downloads/instapaper-export.html 

Μπορείτε επίσης να εισάγετε μια λίστα συνδέσμων από τη διεύθυνση URL ροής. Αλλά θυμηθείτε ότι μπορεί να αντιμετωπίσετε πάρα πολλές αποτυχίες ή χρονικά περιόδους σύνδεσης. Εάν υπάρχουν χιλιάδες διευθύνσεις URL, είναι καλύτερο να τις σπάσετε σε μικρότερα αρχεία για να αυξήσετε το ποσοστό επιτυχίας.

Ρύθμιση αρχείου

Οι προεπιλεγμένες ρυθμίσεις λειτουργούν στις περισσότερες περιπτώσεις, αλλά υπάρχουν ορισμένες σημαντικές παράμετροι που μπορείτε να τροποποιήσετε για να λάβετε περισσότερες δυνατότητες. Το αρχείο διαμόρφωσης ζει

 ~/ArchiveBox/etc/ArchiveBox.conf.default 

Σημείωση: Μην τροποποιείτε αυτό το αρχείο, επειδή θα διαγραφούν κάθε φορά που ενημερώνετε την εφαρμογή. Για να δημιουργήσετε ένα αρχείο μόνιμης ρύθμισης, πληκτρολογήστε

 cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf 

Η εντολή cp θα δημιουργήσει ένα αντίγραφο του αρχείου ρυθμίσεων στον οικείο κατάλογό σας. Από προεπιλογή, το αρχείο δεν είναι ορατό στον κατάλογό σας. Για να εμφανίσετε πατήστε Cmd + Shift + Περίοδος . Ανοίξτε το αρχείο ρυθμίσεων στο TextEdit.

αντίγραφο του αρχείου ρυθμίσεων ArchiveBox

Παράμετροι

Το ArchiveBox σας προσφέρει πολλές επιλογές. Εδώ είναι μερικές σημαντικές.

  • ONLY_NEW : Ορίστε αυτό το στοιχείο σε True για να κάνετε λήψη του αρχείου για συνδέσεις που προστέθηκαν πρόσφατα. Έρχεται χρήσιμο εάν συνδέετε συχνά σελιδοδείκτες.
  • TIMEOUT : Οι πιθανές τιμές είναι 60 ή 120 δευτερόλεπτα. Εάν δείτε τα συχνά σφάλματα χρονικού ορίου, αυξήστε τα στα 120 δευτερόλεπτα.
  • URL_BLACKLIST : Μπορείτε να χρησιμοποιήσετε την έκφραση regex για να εξαιρέσετε ορισμένους τομείς, επεκτάσεις ή μοτίβα διευθύνσεων URL από το αρχείο.
  • FETCH_MEDIA : Λήψη όλων των αρχείων ήχου και βίντεο χρησιμοποιώντας το youtube-dl. Ορίστε αυτό στην επιλογή True μόνο όταν έχετε αρκετό χώρο αποθήκευσης.
  • WGET_USER_AGENT : Χρησιμοποιήστε το για να αλλάξετε τον παράγοντα χρήστη κατά τη διάρκεια της αρχειοθέτησης. Εάν αποκλείεστε από ορισμένους διακομιστές, αυτή η επιλογή είναι χρήσιμη.

Για να μάθετε περισσότερα σχετικά με τις λεπτομέρειες διαμόρφωσης, επισκεφθείτε τη διαμόρφωση του ArchiveBox για περισσότερες πληροφορίες.

Δημοσιεύοντας το αρχείο σας

Το αρχείο που παράγεται από το ArchiveBox είναι συμβατό με κάθε πάροχο που μπορεί να φιλοξενήσει στατικό κώδικα HTML. Για παράδειγμα, σελίδες GitHub.

Μπορείτε επίσης να το προβάλλετε από έναν κεντρικό διακομιστή ή το VPS φορτώνοντας απευθείας το φάκελο εξόδου στον κατάλογό σας στον ιστό.

Βεβαιωθείτε ότι δεν εκτελείτε κανένα περιεχόμενο όπως CGI ή PHP, θέλετε να φιλοξενήσετε μόνο στατικά αρχεία HTML.

Η φιλοξενία του αρχείου σας έχει πλεονεκτήματα και μειονεκτήματα. Όταν κάνετε λήψη συνδέσμων από τυχαία τοποθεσίες, πρέπει να κατανοήσετε τους κινδύνους της φιλοξενίας κακόβουλων αρχείων CSS και JS στον κοινόχρηστο τομέα σας. Ίσως θελήσετε επίσης να μαυρίσετε τα αρχεία σας στο αρχείο robots.txt για να παραμείνετε ιδιωτικά.

Κάντε λήψη ολόκληρων ιστοτόπων εκτός σύνδεσης

Η αρχειοθέτηση του ιστού έχει προσελκύσει την προσοχή τα τελευταία χρόνια. Καταγράφουν όλο το περιεχόμενο μιας ιστοσελίδας, συμπεριλαμβανομένης της πηγής HTML, των ενσωματωμένων εικόνων, των φύλλων στυλ και του κώδικα JavaScript. Το ArchiveBox χωράει στην ευρεία κατηγορία εργαλείων και υπηρεσιών αρχειοθέτησης ιστού.

Εάν είστε απογοητευμένοι με Instapaper ή Pocket, τότε το ArchiveBox είναι μια εξαιρετική εναλλακτική λύση. Εκτός από τα άρθρα ιστού, ίσως θέλετε να αρχειοθετήσετε ολόκληρους ιστότοπους για να τις αποκτήσετε εκτός σύνδεσης ή για να διατηρήσετε τις γνώσεις τους. Εάν αυτό σας ενδιαφέρει, διαβάστε αυτό το κομμάτι για το πώς να κατεβάσετε οποιαδήποτε ιστοσελίδα για την ανάγνωση ανάγνωση Πώς να κατεβάσετε μια ολόκληρη ιστοσελίδα για Offline Reading Πώς να κατεβάσετε μια ολόκληρη ιστοσελίδα για Offline Reading Εδώ είναι πώς μπορείτε να κατεβάσετε ολόκληρους δικτυακούς τόπους για ανάγνωση ανάγνωση έτσι έχετε πρόσβαση ακόμη όταν δεν έχετε Wi-Fi ή 4G. Διαβάστε περισσότερα .

Εξερευνήστε περισσότερα σχετικά με: Instapaper, Online Bookmarks, Open Source, Pocket, Το Αρχείο Internet.