提问者:小点点

Pandas:将分隔符值传递给read_csv(),以便忽略其中一列的分隔符值


我从Kaggle那里得到了泰坦尼克号列车数据集,我正在尝试将其导入熊猫数据帧中。以下是数据集中的一些记录:

乘客,幸存,Pclass,姓名,性别,年龄,SibSp,Parch,车票,票价,客舱,登机

>

3,1,3,“海基宁,小姐。Laina",女,26,0,0, STON/O2. 3101282,7.925, S

我想将其导入到dataframe,这样名称字段值(包含在双引号下)中的逗号就不会被视为分隔符,列也不会在该逗号处拆分。例如,对于上面示例中的第二条记录,具有值“Heikkinen,Miss.Laina”的名称字段被视为单个值,并且不会在Heikkinen和Miss之间的逗号处拆分。拉伊纳


共1个答案

匿名用户

从…起https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html熊猫文件:

Quitechar: str(长度1),可选

用于表示引用项的开始和结束的字符。带引号的项可以包含分隔符,它将被忽略。

引用:int或csv。QUOTE_*实例,默认值为0

每个csv的控件字段引用行为。引用*常量。使用QUOTE_MINIMAL(0)、QUOTE_ALL(1)、QUOTE_NONE(2)或QUOTE_NONE(3)之一。

doublequote:boolean,默认为True

当指定了quotechar且QUOTE不是QUOTE_NONE时,请指示是否将字段内的两个连续quotechar元素解释为单个quotechar元素。

所以我建议在你的read_csv中指定报价。