PostgreSQL 基础补课

接触 MIMIC 数据库一小阵,勉强一边 Google 一边看 mimic-code 提供的脚本搞定了本地数据库并且把所有提供的 concepts 都建立好了。 过程中 R 配合 RPostgreSQL 来连接和操作数据已经相对很容易了

MIMIC iii 数据 + PostgreSQL 数据库

申请的 MIMIC III 数据库 今天终于通过了,下载发现一堆 csv.gz 大小也是惊人。所以自己一一个直接用表格数据导入 R 怕是不可能了,只能去用他们推荐的数据库管理了。

Shell 字符串取子集和输出重定向

最近处理数据经常需要取某个字符串一部分用来重命名结果生成的新文件的情况,比如 sample1.fastq.gz 比对到基因组想要取出其中的 sample1 用来命名生成的 sam 文件,或者想看跑的

Linux 下的动态共享库

0. 前言 通过上次那个 Rtudio 输入法的事情 (解决 Debian 中 Mendeley Desktop 和 RStudio 无法使用 fcitx 输入中文的问题) ,我又觉得编译啊共享库啊什么的很有趣,然后我懂的太少。所以补课看

R 启动时加载包的正确姿势

今天看 Hadley Wickham 大大的 《R for Data Science》 的时候无意踩坑了,记录一下。 看到章节 4. Workflow: basics 的 4.4 节做练习的时候,本来这一章十分简单,5 分钟看完的,练习

sed 和 awk 学习

sed 、awk 和 grep 都是 Linux 系统下的非交互式的文本处理工具。 sed 的基本处理单位为记录 (record),简单理解的话就是文件的行;而 awk 的基本处理单位为域

在 Debian 中使用 Zotero 文献管理软件

我在 Debian 中用 Zotero 管理文献时发现 PDF 导入后获取文件信息获取不到。以下时解决过程记录,主要参考 Configuring Zotero PDF full text indexing in Debian Jessie。 安装 pdftotext 和 pdfinfo: 1 sudo apt-get install poppler-utils 查看内

简单的 Conda 入门

Conda 的话对于需要 Python 环境但是又没有系统权限,或者想要一个和多个相互隔离的 Python 环境的情况是很好的解决办法。而且使用起来够傻瓜。最受欢迎的应该是 Ana

R 启动设置

在 Linux 系统中,R 启动时默认加载 ~/.Rprofile 文件,这就为自定义多种 R 选项提供了方便。 我的 ~/.Rprofile 文件内容: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 # 设置