唆のメモ

ラボに配属されて遺伝子発現解析などでデータ解析とかが必要になりそうな大学生の技術学習メモ。あくまでもメモです。もし、このブログを参考にする場合は自己責任でお願いします。

Pandas DataFrameの基本

Pandas DataFrameの基本的な使い方を確認しながらメモ

基本のき

とりあえずPandasをimportする。

import pandas as pd

まずはDataFrame型のインスタンスをつくってみる。

df=pd.DataFrame([1,2,3,4,5])
print(df)

出力

   0
0  1
1  2
2  3
3  4
4  5

あれ、これだと列ベクトルになるのか(行ベクトルのつもりだった)。

行ベクトルにするには以下のようにすればいい。

df=pd.DataFrame([[1,2,3,4,5,]])
print(df)

出力

   0  1  2  3  4
0  1  2  3  4  5

次に3行4列のDataFrameをつくってみる。

df=pd.DataFrame([[11,12,13,14],[21,22,23,24],[31,32,33,34]])
print(df)

出力

    0   1   2   3
0  11  12  13  14
1  21  22  23  24
2  31  32  33  34

データの中身は数値でなくともよい

df=pd.DataFrame([['A',True,3,4],['B','True',3,4],['C',False,3,4]])
print(df)

出力

   0      1  2  3
0  A   True  3  4
1  B   True  3  4
2  C  False  3  4

column名,indexの変更

まずは先ほどのDataFrameのcolumn名(ラベル)を変更する

df.columns=['col1','col2','col3','col4']
print(df)

とすると、以下が出力される。

出力

  col1   col2  col3  col4
0    A   True     3     4
1    B   True     3     4
2    C  False     3     4

次に行ラベルを変更する。

df.index=['idx1','idx2','idx3']
print(df)

とすればよい。

出力

     col1   col2  col3  col4
idx1    A   True     3     4
idx2    B   True     3     4
idx3    C  False     3     4

ラベルの一覧を見るにはそれぞれ

print(df.columns)
print(df.index)

として

出力

Index(['col1', 'col2', 'col3', 'col4'], dtype='object')
Index(['idx1', 'idx2', 'idx3'], dtype='object')

を得る。




loc,iloc,ixを用いて特定の行または列を抜き出すことも書きたいけれど、長くなりそうなので記事を分割して後日書くことにする。

投稿テストを兼ねた最初の投稿

 ラボに配属されたらRNAseqなどのためデータ分析をする必要が出てきた。必然的に簡単なプログラミングも要求されるので、そのあたりの勉強メモとして書いていく。

 言語はpython3を使うつもりだが、遺伝子発現解析の分野では、いろいろR言語によるパッケージがすでに開発されているので、適宜使い分けるか、どちらか一本に絞るかは勉強しながら考えたい。

 したがって、内容としてはpython、R、遺伝子発現解析、その他生物学の話題が主になりそう。

以下、投稿テスト

hoge='hoge'