Pandaların yinelemelerinde performans sorunları var mı?

| | | | | | | |

Pandalardan iterrows kullanırken performansın çok düşük olduğunu fark ettim.

Bu başkaları tarafından deneyimlenen bir şey mi? İterrowlara özel mi ve belirli bir boyuttaki veriler için bu işlevden kaçınılmalı mı (2-3 milyon satırla çalışıyorum)?

GitHub'daki bu tartışma, bunun veri çerçevesinde dtype'ları karıştırırken ortaya çıktığına inanmamı sağladı, ancak aşağıdaki basit örnek, bir dtype (float64) kullanırken bile orada olduğunu gösteriyor. makinemde 36 saniye sürüyor:

pandaları pd olarak içe aktar numpy as np içe aktar s1 = np.random.randn(2000000) s2 = np.random.randn(2000000) dfa = pd .DataFrame({"s1": s1, "s2": s2}) start = time.time() i=0 rowindex için, satır dfa.iterrows(): i+=1 end = time.time() print end - start 

Uygulama gibi vektörel işlemler neden bu kadar hızlı? benim durumumda iterrows kullanmamak (bunu gelecekteki bir soru için saklayacağım). Bu nedenle, bu yinelemeden sürekli olarak kaçınabildiyseniz, duymaktan memnun olurum. Ayrı veri çerçevelerindeki verilere dayalı hesaplamalar yapıyorum. Teşekkürler!

---Düzenle: Çalıştırmak istediklerimin basitleştirilmiş versiyonu aşağıya eklendi---

pandaları pd olarak içe aktar numpy'yi np olarak içe aktar #%% Orijinal tabloları oluştur t1 = {"harf":["a","b"], "sayı1":[50,-10]} t2 = {"harf ":["a","a","b","b"], "sayı2":[0.2,0.5,0.1,0.4]} tablo1 = pd.DataFrame(t1) tablo2 = pd.DataFrame(t2) #%% Yeni tablonun gövdesini oluşturun table3 = pd.DataFrame(np.nan, column=["letter","number2"], index=[0]) #%% İlgili verileri filtreleyerek, optimize ederek, döndürerek yineleyin row_index için bilgi, tablo1.iterrows() içindeki satır: t2info = tablo2[table2.letter == satır["harf"]].reset_index() tablo3.ix[row_index,] = optimize(t2info,satır["number1"] ) #%% Optimizasyonu tanımla def optimize(t2info, t1info): hesaplama = indeks için [], t2info.iterrows() içinde r: hesaplama.append(r["number2"]*t1info) maxrow = hesaplama.index(max( hesaplama)) döndür t2info.ix[maxrow] 

Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method