Πώς να εισαγάγετε δεδομένα του Excel σε δέσμες ενεργειών Python χρησιμοποιώντας Pandas
Διαφήμιση
Το Microsoft Excel είναι το πιο ευρέως χρησιμοποιούμενο λογισμικό υπολογιστικών φύλλων στον κόσμο και για έναν καλό λόγο: το φιλικό προς το χρήστη περιβάλλον και τα ισχυρά ενσωματωμένα εργαλεία διευκολύνουν την εργασία με τα δεδομένα.
Αλλά αν θέλετε να κάνετε πιο προηγμένη επεξεργασία δεδομένων, θα πρέπει να υπερβείτε τις δυνατότητες του Excel και να αρχίσετε να χρησιμοποιείτε μια γλώσσα προγραμματισμού / προγραμματισμού όπως η Python. Αντί να αντιγράψετε μη αυτόματα τα δεδομένα σας σε βάσεις δεδομένων, ακολουθείστε ένα γρήγορο σεμινάριο σχετικά με τον τρόπο φόρτωσης των δεδομένων του Excel στη Python χρησιμοποιώντας το Pandas.
Σημείωση: Εάν δεν έχετε χρησιμοποιήσει ποτέ Python πριν, αυτό το σεμινάριο μπορεί να είναι δύσκολο. Σας συνιστούμε να αρχίσετε με αυτές τις ιστοσελίδες για να μάθετε Python Οι 5 καλύτερες ιστοσελίδες για να μάθετε Python Προγραμματισμός Οι 5 καλύτεροι ιστοχώροι για να μάθετε τον προγραμματισμό Python Θέλετε να μάθετε τον προγραμματισμό της Python; Εδώ είναι οι καλύτεροι τρόποι για να μάθετε online το Python, πολλά από τα οποία είναι εντελώς δωρεάν. Διαβάστε περισσότερα και αυτά τα βασικά παραδείγματα Python για να ξεκινήσετε 10 βασικά παραδείγματα Python που θα σας βοηθήσουν να μάθετε γρήγορα 10 βασικά παραδείγματα Python που θα σας βοηθήσουν να μάθετε γρήγορα Αυτό το άρθρο των βασικών παραδειγμάτων python είναι για όσους έχουν ήδη κάποια εμπειρία προγραμματισμού και απλά θέλουν να μετάβαση στη Python το συντομότερο δυνατό. Διαβάστε περισσότερα .
Τι είναι τα Pandas;
Η βιβλιοθήκη ανάλυσης δεδομένων Python ("Pandas") είναι μια βιβλιοθήκη ανοιχτού κώδικα για τη γλώσσα προγραμματισμού Python που χρησιμοποιείται για ανάλυση δεδομένων και χειρισμό δεδομένων.
Το Pandas φορτώνει δεδομένα σε αντικείμενα Python γνωστά ως Dataframes, τα οποία αποθηκεύουν δεδομένα σε σειρές και στήλες όπως μια παραδοσιακή βάση δεδομένων. Μόλις δημιουργηθεί ένα Dataframe, μπορεί να χρησιμοποιηθεί με τη χρήση της Python, ανοίγοντας έναν κόσμο δυνατοτήτων.
Εγκαθιστώντας Pandas
Σημείωση: Για να εγκαταστήσετε το Pandas πρέπει να έχετε Python 2.7 ή νεότερη έκδοση.
Για να αρχίσετε να εργάζεστε με το Pandas στο μηχάνημά σας, θα χρειαστεί να εισαγάγετε τη βιβλιοθήκη Pandas. Αν ψάχνετε για μια βαρέων βαρών λύση μπορείτε να κατεβάσετε το Anaconda Python Distribution, το οποίο έχει ενσωματωμένο Pandas. Αν δεν έχετε χρήση για το Anaconda, το Pandas είναι απλό να εγκατασταθεί στο τερματικό σας.
Το Pandas είναι ένα πακέτο PyPI, το οποίο σημαίνει ότι μπορείτε να εγκαταστήσετε χρησιμοποιώντας το PIP για Python μέσω της γραμμής εντολών. Σύγχρονα συστήματα Mac έρχονται με PIP. Για άλλα Windows, Linux και παλαιότερα συστήματα είναι εύκολο να μάθετε πώς να εγκαταστήσετε το PIP για Python Πώς να εγκαταστήσετε Python PIP στα Windows, Mac και Linux Πώς να εγκαταστήσετε το Python PIP σε Windows, Mac και Linux Πολλοί προγραμματιστές της Python βασίζονται σε ένα εργαλείο που ονομάζεται PIP για την Python για να κάνει τα πάντα ευκολότερα και ταχύτερα. Ακολουθεί ο τρόπος εγκατάστασης της Python PIP. Διαβάστε περισσότερα .
Μόλις ανοίξετε το τερματικό σας, μπορείτε να εγκαταστήσετε την τελευταία έκδοση του Pandas χρησιμοποιώντας την εντολή:
>> pip install pandas
Το Pandas απαιτεί επίσης τη βιβλιοθήκη NumPy, ας το εγκαταστήσουμε και στη γραμμή εντολών:
>> pip install numpy
Τώρα έχετε εγκατεστημένο το Pandas και είστε έτοιμοι να δημιουργήσετε το πρώτο σας DataFrame!
Προετοιμασία των δεδομένων του Excel
Για αυτό το παράδειγμα, ας χρησιμοποιήσουμε ένα δείγμα σύνολο δεδομένων: ένα βιβλίο εργασίας του Excel με τον τίτλο Cars.xlsx .
Αυτό το σύνολο δεδομένων εμφανίζει τη μάρκα, το μοντέλο, το χρώμα και το έτος των αυτοκινήτων που εισάγονται στον πίνακα. Ο πίνακας εμφανίζεται ως εύρος Excel. Ο Pandas είναι αρκετά έξυπνος για να διαβάσει σωστά τα δεδομένα.
Αυτό το βιβλίο εργασίας αποθηκεύεται στον κατάλογο Desktop, εδώ είναι η διαδρομή αρχείου που χρησιμοποιείται:
/Users/grant/Desktop/Cars.xlsx
Θα χρειαστεί να γνωρίζετε τη διαδρομή αρχείου του βιβλίου εργασίας για να χρησιμοποιήσετε το Pandas. Ας ξεκινήσουμε ανοίγοντας τον κώδικα Visual Studio για να γράψετε το σενάριο. Εάν δεν διαθέτετε πρόγραμμα επεξεργασίας κειμένου, συνιστούμε είτε κώδικα Visual Studio ή επεξεργαστή Atom Κωδικός Visual Studio εναντίον Atom: Ποιο πρόγραμμα επεξεργασίας κειμένου είναι κατάλληλο για εσάς; Κώδικας Visual Studio εναντίον Atom: Ποιο κείμενο επεξεργαστή είναι κατάλληλο για εσάς; Ψάχνετε για έναν ελεύθερο και ανοικτού κώδικα επεξεργαστή κώδικα; Ο κώδικας του Visual Studio και ο Atom είναι οι δύο ισχυρότεροι υποψήφιοι. Διαβάστε περισσότερα .
Γράφοντας το σενάριο Python
Τώρα που έχετε τον επεξεργαστή κειμένου της επιλογής σας, αρχίζει η πραγματική διασκέδαση. Θα συναντήσουμε το βιβλίο εργασίας Python και το αυτοκίνητό μας για να δημιουργήσουμε ένα Pandas DataFrame.
Εισαγωγή των βιβλιοθηκών Python
Ανοίξτε τον επεξεργαστή κειμένου και δημιουργήστε ένα νέο αρχείο Python. Ας το ονομάσουμε Script.py .
Για να συνεργαστείτε με το Pandas στο σενάριό σας, θα χρειαστεί να το εισαγάγετε στον κώδικα σας. Αυτό γίνεται με μια γραμμή κώδικα:
import pandas as pd
Εδώ φορτώνουμε τη βιβλιοθήκη Pandas και την προσαρμόζουμε σε μια μεταβλητή "pd". Μπορείτε να χρησιμοποιήσετε οποιοδήποτε όνομα θέλετε, χρησιμοποιούμε το pd ως σύντομο για το Pandas.
Για να συνεργαστείτε με το Excel χρησιμοποιώντας Pandas, χρειάζεστε ένα πρόσθετο αντικείμενο που ονομάζεται ExcelFile . Το ExcelFile ενσωματώνεται στο οικοσύστημα Pandas, επομένως εισάγετε απευθείας από το Pandas:
from pandas import ExcelFile
Εργασία με τη διαδρομή του αρχείου
Για να δώσετε πρόσβαση στο Pandas στο βιβλίο εργασίας σας, θα πρέπει να κατευθύνετε το σενάριο σας στη θέση του αρχείου. Ο ευκολότερος τρόπος για να το κάνετε αυτό είναι να παρέχετε τη δέσμη ενεργειών σας με την πλήρη διαδρομή στο βιβλίο εργασίας.
Ανακαλέστε τη διαδρομή μας σε αυτό το παράδειγμα: /Users/grant/Desktop/Cars.xlsx
Θα χρειαστείτε αυτή τη διαδρομή αρχείου που αναφέρεται στη δέσμη ενεργειών σας για να εξαγάγετε τα δεδομένα. Αντί να κάνετε αναφορά στη διαδρομή μέσα στη λειτουργία Read_Excel, κρατήστε τον κώδικα καθαρό αποθηκεύοντας τη διαδρομή σε μια μεταβλητή:
Cars_Path = '/Users/grant/Desktop/Cars.xlsx'
Τώρα είστε έτοιμοι να εξαγάγετε τα δεδομένα χρησιμοποιώντας μια λειτουργία Pandas!
Εξαγωγή δεδομένων Excel χρησιμοποιώντας Pandas.Read_Excel ()
Με την εισαγωγή Pandas και τη μεταβλητή που έχετε ορίσει, μπορείτε τώρα να χρησιμοποιήσετε λειτουργίες στο αντικείμενο Pandas για να ολοκληρώσετε την εργασία μας.
Η λειτουργία που θα χρειαστεί να χρησιμοποιήσετε είναι κατάλληλα ονομάζεται Read_Excel . Η συνάρτηση Read_Excel παίρνει τη διαδρομή αρχείου ενός βιβλίου εργασίας του Excel και επιστρέφει ένα αντικείμενο DataFrame με τα περιεχόμενα του βιβλίου εργασίας. Ο Pandas κωδικοποιεί αυτή τη λειτουργία ως εξής:
pandas.read_excel(path)
Το όρισμα "διαδρομή" πρόκειται να είναι η διαδρομή προς το βιβλίο εργασίας Cars.xlsx και έχουμε ήδη ρυθμίσει τη συμβολοσειρά διαδρομής στη μεταβλητή Pass_Path.
Είστε έτοιμοι να δημιουργήσετε το αντικείμενο DataFrame! Ας τα βάλουμε όλα μαζί και να ορίσουμε το αντικείμενο DataFrame σε μια μεταβλητή που ονομάζεται "DF":
DF = pd.read_excel(Cars_Path)
Τέλος, θέλετε να δείτε το DataFrame, ώστε να εκτυπώσετε το αποτέλεσμα. Προσθέστε μια δήλωση εκτύπωσης στο τέλος της δέσμης ενεργειών σας, χρησιμοποιώντας τη μεταβλητή DataFrame ως το επιχείρημα:
print(DF)
Ώρα να εκτελέσετε το σενάριο στο τερματικό σας!
Εκτέλεση του Script Python
Ανοίξτε το τερματικό ή τη γραμμή εντολών και μεταβείτε στον κατάλογο που φιλοξενεί τη δέσμη ενεργειών. Σε αυτήν την περίπτωση, έχω "Script.py" που βρίσκεται στην επιφάνεια εργασίας. Για να εκτελέσετε τη δέσμη ενεργειών, χρησιμοποιήστε την εντολή python ακολουθούμενη από το αρχείο δέσμης ενεργειών:
Η Python θα τραβήξει τα δεδομένα από το "Cars.xlsx" στο νέο σας DataFrame και θα εκτυπώσει το DataFrame στο τερματικό!
Μια πιο προσεκτική ματιά στο αντικείμενο DataFrame
Με την πρώτη ματιά, το DataFrame μοιάζει πολύ με έναν κανονικό πίνακα Excel. Τα δεδομένα Pandas DataFrames είναι εύκολο να ερμηνευτούν ως αποτέλεσμα.
Οι κεφαλίδες σας έχουν επισημανθεί στην κορυφή του συνόλου δεδομένων και η Python έχει συμπληρώσει τις σειρές με όλες τις πληροφορίες που διαβάζετε από το βιβλίο εργασίας "Cars.xlsx".
Παρατηρήστε την αριστερή στήλη, ένα δείκτη ξεκινώντας από το 0 και αρίθμησης των στηλών. Το Pandas θα εφαρμόσει αυτό το ευρετήριο στο DataFrame από προεπιλογή, το οποίο μπορεί να είναι χρήσιμο σε ορισμένες περιπτώσεις. Εάν δεν θέλετε να δημιουργηθεί αυτός ο δείκτης, μπορείτε να προσθέσετε ένα πρόσθετο όρισμα στον κώδικα σας:
DF = pd.read_excel(Cars_Path, index=False)
Ο ορισμός του όρου "ευρετήριο" σε False θα αφαιρέσει τη στήλη ευρετηρίου, αφήνοντάς σας μόνο με τα δεδομένα του Excel.
Κάνοντας περισσότερα με την Python
Τώρα που έχετε τη δυνατότητα να διαβάζετε δεδομένα από φύλλα εργασίας του Excel, μπορείτε να εφαρμόσετε τον προγραμματισμό Python με οποιονδήποτε τρόπο επιλέγετε. Η εργασία με το Pandas είναι ένας απλός τρόπος για τους έμπειρους προγραμματιστές της Python να δουλεύουν με τα δεδομένα που είναι αποθηκευμένα στα βιβλία εργασίας του Excel.
Η ευκολία με την οποία μπορεί να χρησιμοποιηθεί η Python για την ανάλυση και τον χειρισμό δεδομένων είναι ένας από τους πολλούς λόγους για τους οποίους η Python είναι η γλώσσα προγραμματισμού του μέλλοντος 6 Λόγοι για τους οποίους η Python είναι η γλώσσα προγραμματισμού του μέλλοντος 6 λόγοι για τους οποίους η Python είναι η γλώσσα προγραμματισμού του μέλλοντος Θέλετε να μάθετε ή να επεκτείνετε τις δεξιότητες προγραμματισμού; Εδώ είναι γιατί η Python είναι η καλύτερη γλώσσα προγραμματισμού για να μάθετε φέτος. Διαβάστε περισσότερα .
Πιστωτική εικόνα: Rawpixel / Depositphotos
Εξερευνήστε περισσότερα σχετικά με: Ανάλυση Δεδομένων, Microsoft Excel, Python, Scripting.