Lesson 3: In-class exercises

Instructions: For each problem, write code in the provided code block. Don't forget to run your code to make sure it works.

1. Simple loop practice

Write code to accomplish each of the following tasks using a for loop or a while loop. Choose whichever type of loop you want for each problem (you can try both, if you want extra practice). Note: you may want to refer to the Lesson 3 "extra material" for some hints on how to use range() to make these problems easier.

(A) Print the integers between 3 and 35, inclusive.

In [6]:

for i in range(3,36):
    print i

(B) Print the positive integers less than 100 that are multiples of 7.

In [7]:

for i in range(1, 100,7):
    print i

(C) Starting with x = 1, double x until it's greater than 1000. Print each value of x as you go along.

In [8]:

x = 1
while 2*x < 1000:
    print x
    x = x+1

(D) Print each character of the string "supercalifragilisticexpialidocious" on a separate line.

In [1]:

for i in "supercalifragilisticexpialidocious":
    print i

s
u
p
e
r
c
a
l
i
f
r
a
g
i
l
i
s
t
i
c
e
x
p
i
a
l
i
d
o
c
i
o
u
s

2. File reading practice

For these problems, use the file sequences.txt provided with this document. This file contains several DNA sequences of different lengths. You can assume each sequence is on a separate line.

(A) Using a loop, read in each sequence from the file and print it. Make sure to remove any newline characters (\n) while reading in the data.

In [7]:

Seq = "sequences.txt"

inSeq = open(Seq, 'r')
for line in inSeq:
    line = line.rstrip('\r\n')
    print line
inSeq.close()

CTGTGCCTGATCTTGAGGTGCCAATGAGACTCAGCGA
TAAATCACCGCCCAAGAAGTATAATGCTTGGGGGTGATAGGTTTTACATATTTTTAAGTTCGCTAGCTAAAAATTATCCGTATCATAGGCTGAA
CAGTCCTGCCAATAAAAGAAATATCCCAAGACAGATTAAGCTTTAATCTTTGCTCAACCACGTCGTGGTTATGAATTCGCTAAATTAGTTGATCTCGTTGG
TGAGGGCGAATTACCCAAGCACCGACTCACTTGTCACGGAAAAATACCGGACAATTTGTATAACTCAACAAAGTTTCGGA
TAGCTATGTCAGCCGGAGACCAGAAAGACTCTCTTGTATTTAAGGTCAGGGCTATGGCTATCGAGT
TACCGTTATTGCGTGAAACGGTGTAGCTATAGGGCTGAGTGTGTCTTTGTTTCTTCACTCCTATTGGGCTGACTACGATTGCCCTTAGGTTTTCATTTAGTTGTTAATAATCGCTACT
TTCTTAAGACCGCCGAGCTTCGTCTTTTATGGCC
GAACGACCAACATGCACGGTTAGGGGTTGGAATGCTATCGATTACGTCGGACCGAAAAGTCAGGAAAAAG
ATGTGTTGGGGGTCTGGGACCGCGTCGACACCTAGCGCCTTCCACGTAGCATACAGCCTGGCTCACGCGGTTCTGCGGACCCTACATAGT
GATCCGATTTGTTTCTACCGGAAGCTCCACGCAGGAGGGAGCAACGCAA
CAATAATTAGCCTCTCCCCAGGGCTCACATGCCCCCATGGTTAAATAGCACAAAGCAGATCGGTGACTGGAACCCCCTTCGTTGATGTCCGCTAATCGATGAG
CTAATTACCGCTGACTGCAGGGTGTTTCTGGTGTACACTATTCCTATATCGCAATCAATT
ACAAGTGATCATCCCGGTCATGCTAAAACGGTGATTAAGGGTACTATGCGAAGTGTAGATATGCCCTGAGCCTCTGGCCGGGCCCATCTTGCA
CCGGAACGTGGGAGCTGTTTAAAGGCCGAACATATAACGGATAAGTCTGTGTTAGCGACTAGGCCTGCAGATCAGTTTGAGCTAATAAATTCCA
AAAGTGGACTTGAGTAGAGGTGTCGAACAATGATGAGGCCTCTATTTGAATATAAACTGAACGCCAGTAGGTCCAGG
AGTCTTCAAAGAGCTGGGAAGGATCTCAGAGTGCGCCACCGACCAGCGTCCGTCCTTAGGTTGATTCTAACGCGAGGGTCTGTACATAACTTCTGTTTGACCTAAATGTATCACA
TATTGAATATCAGGCTGAGCGTCCTGACCGGTAAAAAAAACATAAAT
CAGAATAGGGGTCTTTCTCTCCCTGTTCATGTATTGTGCACACCTGGCAATGGTACTA
CGTAACCTCATGGAAGTTGCCATTAATGTAGAGTCAGACTTGCCCAGCTTCTCGATCACCCAAAATG
TTCGTAAGCCCTGACGTGTCTAGCTAAGTTTGTCCGCACGGAGCTA
GCGCTGCCGCCATCGGTTGTGCGTCATCGCAATTAGTACCAGGACGGGCGTAGCTAA
ACTCGGCCCAACGCTGGCGATATGGGGAAAAACACGGGTACAGGACGACCCTGCGAGCCTCGGAGACAGGCGATAGCGCCCGATCCTGAACT
GACGATAATAGCGGCTTTTAAACCCATAGATGGGAAACGCAATGGGTGCGCACGGTGCAGGTAAAGAGTAACAACACGGTGAACGGA
ACCCCAACCCTTCAACCCATCTTGGCCCACACTGATCAGTCCAGGTATGAACTGAGGAAGGATAAGGGCAGTGCTGTGTCATACGGGCACCCCACATAACGCCGAT
TTACACTAGCCCCGCTATGTTAACACTCGCCCCCCGTGGGCTTTTGCTCCACTGATGTTCGATCTTGTCAGGTCGCGTCTAGGTGAGTGAGTGAAGAT

(B) Now, instead of printing the sequences, output the length of each sequence to the terminal screen. At the end, print the average length of the sequences. (You should get 77.56 as the average.)

Hint: use the concept of an "accumulator" variable to help with computing the average.

In [39]:

lengthline = 0 #initialize length of the line 
numlines = 0 #initialize the number of lines seen

Seq = "sequences.txt"
inSeq = open(Seq, 'r') #open Seq into read mode 

for line in inSeq:
    line = line.rstrip('\r\n')
    lengthline = lengthline + len(line) #keep running tab instead of overwriting the previous one
    numlines = numlines + 1 
print float(lengthline)/numlines

77.56

3. File writing practice

(A) Write a script that prints "Hello, world" to a file called hello.txt

In [11]:

fileHello = "hello.txt"
outFile = open(fileHello, 'w')

outFile.write("Hello, world")

outFile.close()

(B) Write a script that prints the following pieces of data to a file called meow.txt. Each piece of data must be printed to a separate line.

In [12]:

# data to be printed:
name = "Mitsworth"
age = 11
birthday = "9/1/04"
coloring = "Tabby"
livesRemaining = 8

# write your code here:
fileName = "meow.txt"
outFile = open(fileName, 'w')
outFile.write("name = Mitsworth\nage = 11\nbirthday = 9/1/04\ncoloring = Tabby\nlivesRemaining = 8")
outFile.close()

Homework exercise (10 Points)

String manipulation 101

These problems follow from problem 2 above. Continue using the file sequences.txt.

(A) Instead of printing lengths as before, print the GC content of each sequence (GC content is the number of G's and C's in a DNA sequence divided by the total sequence length). Make sure not to do integer division! (You should get ~0.4877 as the average.) (5 Points)

In [47]:

GCcount = 0
GCcontent = 0
TotalGCcount = 0
TotalBaseLength = 0


Seq = "sequences.txt"
inSeq = open(Seq, 'r')

for line in inSeq:
    line = line.strip('\r\n')
    GCcount = 0 
    GCcontent = 0 
    for i in line:
        if i=="G" or i=="C": #for each character in line 
            GCcount = GCcount + 1 
        GCcontent = float(GCcount)/len(line)
    print "The GC content for this sequence is"
    print GCcontent

inSeq.close()
Seq = "sequences.txt"
inSeq = open(Seq, 'r')
GCcount = 0

for line in inSeq: 
    line = line.strip('\r\n')
    TotalBaseLength = TotalBaseLength + float(len(line))
    for i in line: 
        if i=="G" or i=="C": #for each character in line 
            GCcount = GCcount + 1 
    AvgGCcontent = GCcount/float(TotalBaseLength) 
print "The average GC is", AvgGCcontent

The GC content for this sequence is
0.540540540541
The GC content for this sequence is
0.36170212766
The GC content for this sequence is
0.386138613861
The GC content for this sequence is
0.4375
The GC content for this sequence is
0.469696969697
The GC content for this sequence is
0.415254237288
The GC content for this sequence is
0.5
The GC content for this sequence is
0.485714285714
The GC content for this sequence is
0.611111111111
The GC content for this sequence is
0.551020408163
The GC content for this sequence is
0.514563106796
The GC content for this sequence is
0.416666666667
The GC content for this sequence is
0.516129032258
The GC content for this sequence is
0.457446808511
The GC content for this sequence is
0.441558441558
The GC content for this sequence is
0.486956521739
The GC content for this sequence is
0.36170212766
The GC content for this sequence is
0.465517241379
The GC content for this sequence is
0.462686567164
The GC content for this sequence is
0.521739130435
The GC content for this sequence is
0.59649122807
The GC content for this sequence is
0.619565217391
The GC content for this sequence is
0.494252873563
The GC content for this sequence is
0.547169811321
The GC content for this sequence is
0.530612244898
The average GC is 0.486333161423
0.486333161423

(B) Convert each sequence to its reverse complement. This means changing each nucleotide to its complement (A->T, T->A, G->C, C->G) and reversing the entire sequence. (5 Points)

Hint: we've already touched on everything you need to know to do this. See the practice problems from Lesson 3 for some hints on reversing..

In [62]:

Seq = "sequences.txt"
inSeq = open(Seq, 'r')



for line in inSeq: 
    complement = ""
    for i in line:
        c = i.replace("A", "t").replace("T", "a").replace("G", "c").replace("C", "g")
        complement = c + complement
    reversecomp = ""
    for i in complement: 
        d = i.replace("t", "T").replace("a", "A").replace("c", "C").replace("g", "G")
        reversecomp = d + reversecomp
    print "The reverse complement for each seq is"
    print reversecomp

The reverse complement for each seq is
GACACGGACTAGAACTCCACGGTTACTCTGAGTCGCT

The reverse complement for each seq is
ATTTAGTGGCGGGTTCTTCATATTACGAACCCCCACTATCCAAAATGTATAAAAATTCAAGCGATCGATTTTTAATAGGCATAGTATCCGACTT

The reverse complement for each seq is
GTCAGGACGGTTATTTTCTTTATAGGGTTCTGTCTAATTCGAAATTAGAAACGAGTTGGTGCAGCACCAATACTTAAGCGATTTAATCAACTAGAGCAACC

The reverse complement for each seq is
ACTCCCGCTTAATGGGTTCGTGGCTGAGTGAACAGTGCCTTTTTATGGCCTGTTAAACATATTGAGTTGTTTCAAAGCCT

The reverse complement for each seq is
ATCGATACAGTCGGCCTCTGGTCTTTCTGAGAGAACATAAATTCCAGTCCCGATACCGATAGCTCA

The reverse complement for each seq is
ATGGCAATAACGCACTTTGCCACATCGATATCCCGACTCACACAGAAACAAAGAAGTGAGGATAACCCGACTGATGCTAACGGGAATCCAAAAGTAAATCAACAATTATTAGCGATGA

The reverse complement for each seq is
AAGAATTCTGGCGGCTCGAAGCAGAAAATACCGG

The reverse complement for each seq is
CTTGCTGGTTGTACGTGCCAATCCCCAACCTTACGATAGCTAATGCAGCCTGGCTTTTCAGTCCTTTTTC

The reverse complement for each seq is
TACACAACCCCCAGACCCTGGCGCAGCTGTGGATCGCGGAAGGTGCATCGTATGTCGGACCGAGTGCGCCAAGACGCCTGGGATGTATCA

The reverse complement for each seq is
CTAGGCTAAACAAAGATGGCCTTCGAGGTGCGTCCTCCCTCGTTGCGTT

The reverse complement for each seq is
GTTATTAATCGGAGAGGGGTCCCGAGTGTACGGGGGTACCAATTTATCGTGTTTCGTCTAGCCACTGACCTTGGGGGAAGCAACTACAGGCGATTAGCTACTC

The reverse complement for each seq is
GATTAATGGCGACTGACGTCCCACAAAGACCACATGTGATAAGGATATAGCGTTAGTTAA

The reverse complement for each seq is
TGTTCACTAGTAGGGCCAGTACGATTTTGCCACTAATTCCCATGATACGCTTCACATCTATACGGGACTCGGAGACCGGCCCGGGTAGAACGT

The reverse complement for each seq is
GGCCTTGCACCCTCGACAAATTTCCGGCTTGTATATTGCCTATTCAGACACAATCGCTGATCCGGACGTCTAGTCAAACTCGATTATTTAAGGT

The reverse complement for each seq is
TTTCACCTGAACTCATCTCCACAGCTTGTTACTACTCCGGAGATAAACTTATATTTGACTTGCGGTCATCCAGGTCC

The reverse complement for each seq is
TCAGAAGTTTCTCGACCCTTCCTAGAGTCTCACGCGGTGGCTGGTCGCAGGCAGGAATCCAACTAAGATTGCGCTCCCAGACATGTATTGAAGACAAACTGGATTTACATAGTGT

The reverse complement for each seq is
ATAACTTATAGTCCGACTCGCAGGACTGGCCATTTTTTTTGTATTTA

The reverse complement for each seq is
GTCTTATCCCCAGAAAGAGAGGGACAAGTACATAACACGTGTGGACCGTTACCATGAT

The reverse complement for each seq is
GCATTGGAGTACCTTCAACGGTAATTACATCTCAGTCTGAACGGGTCGAAGAGCTAGTGGGTTTTAC

The reverse complement for each seq is
AAGCATTCGGGACTGCACAGATCGATTCAAACAGGCGTGCCTCGAT

The reverse complement for each seq is
CGCGACGGCGGTAGCCAACACGCAGTAGCGTTAATCATGGTCCTGCCCGCATCGATT

The reverse complement for each seq is
TGAGCCGGGTTGCGACCGCTATACCCCTTTTTGTGCCCATGTCCTGCTGGGACGCTCGGAGCCTCTGTCCGCTATCGCGGGCTAGGACTTGA

The reverse complement for each seq is
CTGCTATTATCGCCGAAAATTTGGGTATCTACCCTTTGCGTTACCCACGCGTGCCACGTCCATTTCTCATTGTTGTGCCACTTGCCT

The reverse complement for each seq is
TGGGGTTGGGAAGTTGGGTAGAACCGGGTGTGACTAGTCAGGTCCATACTTGACTCCTTCCTATTCCCGTCACGACACAGTATGCCCGTGGGGTGTATTGCGGCTA

The reverse complement for each seq is
AATGTGATCGGGGCGATACAATTGTGAGCGGGGGGCACCCGAAAACGAGGTGACTACAAGCTAGAACAGTCCAGCGCAGATCCACTCACTCACTTCTA

In [ ]: