هي احد هياكل البيانات Data Structures التي تستخدم لتحليل البيانات وهي مبنية على مكتبة NumPy. يشبه هيكل بيانات pandas الجداول ويسمى اطار البيانات Data Frame، وعادة ما يتكون هيكل البيانات من مجموعة من الاعمدة والصفوف التي تحتوي على البيانات، يكون كل عمود فيها من نوع بيانات معين ويكون له عنوان محدد، تحتوى الصفوف على البيانات و يكون لكل صف رقم تسلسل index نستطيع استخدامه للوصول الى البيانات.
استيراد import المكتبة
تشغيلimport pandas as pd
عادة يتم استعمال الاسم المستعار pd للمكتبة اثناء كتابة البرامج.
انشاء اطار بيانات pandas
نستطيع انشاء اطر البيانات Data frames من عن طريق تحديد البيانات مباشرة كما بالمثال الاتي:
تشغيلdata = {'Country': ['Egypt', 'Tunisia', 'Syria','Saudi Arabia'], 'Capital': ['Cairo', 'Tunis', 'Damascus','Riyadh'], 'Population': [102334404, 11818619, 17549191,34813871]} df = pd.DataFrame(data,columns=['Country', 'Capital', 'Population'])
نستطيع ايضا انشاء اطار بيانات pandas من خلال استخدام ملفات CSV* كما بالمثال الاتي:
* csv هي نوع من الملفات تكون فيه البيانات على شكل جدول ولتفرقة الاعمدة نستخدم الفاصلة "," و يمثل كل صف سطر جديد.
pd.read_csv( 'file.csv')
نستطيع ايضا انشاء اطار البيانات من ملفات الاكسل excel كالاتي:
pd.read_excel( 'file.xlsx')
عرض البيانات
نستطيع عرض ملخص المعلومات عن هيكل البيانات مثل عدد الاعمدة ونوع بيانات كل منها وعدد الصفوف كالاتي:
تشغيلdf.info()
لعرض شكل shape اطار البيانات اي عدد الصفوف و الاعمدة نستخدم الاتي:
df.shape
نستطيع عرض عينة من اطار البيانات dataframe باستخدام دالة head
التي تعرض اول عدد معين من الصفوف، مثلا نعرض اول 3 صفوف:
df.head(3)
الاختيار والتصفية
كثيرا ما نحتاج الى اختيار بيانات عدد معين من الاعمدة والصفوف
اختيار بيانات صف و عمود معين:
تشغيلdf.iloc[[0],[0]]
اختيار بيانات عمود واحد:
_series = df['Country'] _series.head()
اختيار مجموعة من الاعمدة:
_df = df[['Country','Population']] _df.head()
التصفية عن طريق شرط condition:
# عرض الدول ذات عدد السكان اكبر من 20 مليون _df = df[df['Population']>20000000] _df.head()
عمليات التجميع Aggregation
نستطيع اجراء العديد من عمليات التجميع Aggregation مثل المجموع و المتوسط الحسابي وغيرها عن طريق دوال التجميع، مثال:
تشغيلdata = {'col1': [1,2,3,4], 'col2': [1.5,5.5,6.4,-1.3], 'col3': [100,200,500,700]} df = pd.DataFrame(data,columns=['col1', 'col2', 'col3']) df.head(4)
الوصف
نستطيع استعراض ملخص احصائي عن بيانات اطار البيانات باستخدام دالة describe
df.describe()
المجموع
نستطيع عرض مجموع قيم الاعمدة باستخدام دالة sum
:
df.sum()
المتوسط الحسابي
نستطيع عرض المتوسط الحسابي لقيم الاعمدة باستخدام دالة mean
:
df.mean()
الاصغر
نستطيع عرض اصغر قيمة في كل عمود باستخدام دالة min
:
df.min()
الاكبر
نستطيع عرض اكبر قيمة في كل عمود باستخدام دالة max
:
df.max()