Text streams
Os text streams podem ser de entrada ou saída, permitindo a leitura e escrita de sequências de caracteres, e estão em geral associados à leitura/escrita de ficheiros. Para além dos eventuais text streams associados a ficheiros explicitamente abertos para leitura/escrita, qualquer programa durante a sua execução tem também associados três standard streams: o standard input ou stdin; o standard output ou stdout; e o standard error ou stderr.
Neste contexto, cada linha contém 0 ou mais caracteres e termina em geral com o caracter \n
.
Em C temos as seguintes funções básicas para manipulação de text streams:
int getchar(void)
, lê o próximo caracter do text stream;int putchar(int c)
, escreve o caracter cujo código ASCII é o número inteiroc
.
Caracteres e inteiros em C
Experiência:
$ cat > test.c #include <stdio.h> int main() { char a ='T'; printf("Ao caracter %c corresponde o ASCII %d\n", a , a ); return 0; } Ctrl+d $ gcc -Wall -ansi -pedantic -o test test.c $ ./test Ao caracter T corresponde o ASCII 84 $
Notar que as variáveis do tipo char
correspondem a inteiros (unsigned) de 1 byte, i.e., 8 bits, e portanto podemos realizar operações aritméticas sobre char
's tal como fazemos com int
's.
Tabela ASCII (American Standard Code for Information Interchange)
A tabela seguinte inclui 128 caracteres ASCII, incluindo a sua descrição, os escapes '\X'
para C, e o valor em octal, decimal e hexadecimal.
Oct Dec Hex Char Oct Dec Hex Char ------------------------------------------------------------------------ 000 0 00 NUL '\0' 100 64 40 @ 001 1 01 SOH (start of heading) 101 65 41 A 002 2 02 STX (start of text) 102 66 42 B 003 3 03 ETX (end of text) 103 67 43 C 004 4 04 EOT (end of transmission) 104 68 44 D 005 5 05 ENQ (enquiry) 105 69 45 E 006 6 06 ACK (acknowledge) 106 70 46 F 007 7 07 BEL '\a' (bell) 107 71 47 G 010 8 08 BS '\b' (backspace) 110 72 48 H 011 9 09 HT '\t' (horizontal tab) 111 73 49 I 012 10 0A LF '\n' (new line) 112 74 4A J 013 11 0B VT '\v' (vertical tab) 113 75 4B K 014 12 0C FF '\f' (form feed) 114 76 4C L 015 13 0D CR '\r' (carriage ret) 115 77 4D M 016 14 0E SO (shift out) 116 78 4E N 017 15 0F SI (shift in) 117 79 4F O 020 16 10 DLE (data link escape) 120 80 50 P 021 17 11 DC1 (device control 1) 121 81 51 Q 022 18 12 DC2 (device control 2) 122 82 52 R 023 19 13 DC3 (device control 3) 123 83 53 S 024 20 14 DC4 (device control 4) 124 84 54 T 025 21 15 NAK (negative ack.) 125 85 55 U 026 22 16 SYN (synchronous idle) 126 86 56 V 027 23 17 ETB (end of trans. blk) 127 87 57 W 030 24 18 CAN (cancel) 130 88 58 X 031 25 19 EM (end of medium) 131 89 59 Y 032 26 1A SUB (substitute) 132 90 5A Z 033 27 1B ESC (escape) 133 91 5B [ 034 28 1C FS (file separator) 134 92 5C \ '\\' 035 29 1D GS (group separator) 135 93 5D ] 036 30 1E RS (record separator) 136 94 5E ^ 037 31 1F US (unit separator) 137 95 5F _ 040 32 20 SPACE 140 96 60 ` 041 33 21 ! 141 97 61 a 042 34 22 " 142 98 62 b 043 35 23 # 143 99 63 c 044 36 24 $ 144 100 64 d 045 37 25 % 145 101 65 e 046 38 26 & 146 102 66 f 047 39 27 ´ 147 103 67 g 050 40 28 ( 150 104 68 h 051 41 29 ) 151 105 69 i 052 42 2A * 152 106 6A j 053 43 2B + 153 107 6B k 054 44 2C , 154 108 6C l 055 45 2D - 155 109 6D m 056 46 2E . 156 110 6E n 057 47 2F / 157 111 6F o 060 48 30 0 160 112 70 p 061 49 31 1 161 113 71 q 062 50 32 2 162 114 72 r 063 51 33 3 163 115 73 s 064 52 34 4 164 116 74 t 065 53 35 5 165 117 75 u 066 54 36 6 166 118 76 v 067 55 37 7 167 119 77 w 070 56 38 8 170 120 78 x 071 57 39 9 171 121 79 y 072 58 3A : 172 122 7A z 073 59 3B ; 173 123 7B { 074 60 3C < 174 124 7C | 075 61 3D = 175 125 7D } 076 62 3E > 176 126 7E ~ 077 63 3F ? 177 127 7F DEL
Representações compactas para o caos da representação hexadecimal e decimal, respectivamente.
2 3 4 5 6 7 30 40 50 60 70 80 90 100 110 120 ------------- --------------------------------- 0: 0 @ P ` p 0: ( 2 < F P Z d n x 1: ! 1 A Q a q 1: ) 3 = G Q [ e o y 2: " 2 B R b r 2: * 4 > H R \ f p z 3: # 3 C S c s 3: ! + 5 ? I S ] g q { 4: $ 4 D T d t 4: " , 6 @ J T ^ h r | 5: % 5 E U e u 5: # - 7 A K U _ i s } 6: & 6 F V f v 6: $ . 8 B L V ` j t ~ 7: ´ 7 G W g w 7: % / 9 C M W a k u DEL 8: ( 8 H X h x 8: & 0 : D N X b l v 9: ) 9 I Y i y 9: ´ 1 ; E O Y c m w A: * : J Z j z B: + ; K [ k { C: , < L \ l | D: - = M ] m } E: . > N ^ n ~ F: / ? O _ o DEL
Podemos consultar mais detalhes, em particular a respeito das extensões e localizações, na man page.
Exemplo: leitura e escrita de caracteres
Algoritmo
Input: texto no stdin.
Output: texto no stdout.
- Lê um caracter.
c = getchar();
- Se o caracter não for o de fim de ficheiro:
while (c != EOF)
- escreve caracter;
putchar(c);
- lê próximo caracter.
c = getchar();
- escreve caracter;
Implementação em C
#include <stdio.h> /* Copia input para output */ int main () { int c; c = getchar(); while (c != EOF){ putchar(c); c = getchar(); } return 0; }
Notar a utilização do operador !=
e do caracter EOF
. Neste caso a variável c
tem de ser declarada como int
e não como char
. Tal como vimos na última aula, o tipo char
é um unsigned int de 8 bits, mas o caracter EOF corresponde ao código -1 e, portanto, no caso da variável c
ser declarada como char
, o valor EOF
seria truncado e transformado num unsigned int na atribuição c = getchar()
e o teste c != EOF
nunca seria falso.
Implementação alternativa:
#include <stdio.h> /* Copia input para output */ int main () { int c; while ((c = getchar()) != EOF) putchar(c); return 0; }
Dado que o operador !=
tem maior precedência que a atribuição =
, é necessário colocar parênteses em (c = getchar())
.
Exemplo: contagem de caracteres
Algoritmo
Input: texto no stdin.
Output: número de caracteres lidos.
- Inicializa contador a 0.
contador = 0;
- Enquanto o caracter lido não fôr o de fim de ficheiro:
while (getchar() != EOF)
- incrementa contador.
++contador;
- incrementa contador.
- Escreve valor do contador.
printf("%ld\n", contador);
Implementação em C
#include <stdio.h> /* Conta caracteres do input */ int main () { long contador; contador = 0; while (getchar() != EOF) ++contador; printf("%ld\n", contador); return 0; }
Tendo em conta a inicialização contador = 0
, o teste getchar() != EOF
, e o passo ++contador
, podemos utilizar em alternativa o for
:
#include <stdio.h> /* Conta caracteres do input */ int main () { long contador; for (contador = 0; getchar() != EOF; ++contador) ; printf("%ld\n", contador); return 0; }
Exemplo: contagem de linhas
Algoritmo
Input: texto no stdin.
Output: número de linhas no input.
- Inicializa contador a 0.
contador = 0;
- Enquanto o caracter lido não fôr o de fim de ficheiro:
while ((c = getchar()) != EOF)
- se o caracter lido fôr o de fim de linha então...
if (c == '\n')
- incrementa contador.
++contador;
- incrementa contador.
- se o caracter lido fôr o de fim de linha então...
- Escreve valor do contador.
printf("%d\n",contador);
Implementação em C
#include <stdio.h> /* Conta linhas do input */ int main () { int c, contador; contador = 0; while ((c = getchar()) != EOF) if (c == '\n') ++contador; printf("%d\n",contador); return 0; }
Notar a utilização do teste de igualdade ==
e do código ASCII do caracter de mudança de linha '\n'
(quando escrevemos '\n'
é o mesmo que escrevermos 10
, ver tabela ASCII).
Exemplo: contagem de palavras
Algoritmo
Input: texto no stdin.
Output: número de linhas no input.
- Inicializa estado a
FORA
.estado = FORA;
- Inicializa contador de letras e palavras a 0.
np = nc = 0;
- Enquanto o carácter lido não for o de fim de ficheiro:
while ((c = getchar()) != EOF) {
- incrementa contador de letras;
++nc;
- se o carácter lido for o de fim de linha, espaço ou tabulação então...
if (c == ' ' || c == '\n' || c == '\t')
- estado toma valor
FORA
;estado = FORA;
- estado toma valor
- caso contrário e se o estado for
FORA
então...else if (estado == FORA) {
- estado toma valor
DENTRO
...estado = DENTRO;
- incrementa contador de palavras;
++np; } }
- estado toma valor
- incrementa contador de letras;
- Escreve valor dos contadores.
printf("%d %d\n", np, nc);
Implementação em C
#include <stdio.h> #define FORA 0 #define DENTRO 1 int main () { int c, np = 0, nc = 0, estado = FORA; while ((c = getchar()) != EOF) { ++nc; if (c == ' ' || c == '\n' || c == '\t') estado = FORA; else if (estado == FORA) { estado = DENTRO; ++np; } } printf("%d %d\n", np, nc); return 0; }
Neste caso estamos a inicializar as variáveis na declaração das mesmas. Devemos ter sempre em conta que as variáveis não inicializadas podem ter um qualquer valor, pelo que devemos inicializar sempre as variáveis.
No teste da instrução if
estamos a utilizar o operador lógico disjunção ||
, em que os argumentos são avaliados da esquerda para a direita. A avaliação é interrompida quando o valor de um argumento for suficiente para definir o valor da expressão. Por exemplo, no caso do operador ||
, a avaliação é interrompida quando um dos argumentos é avaliado como verdade. No caso do operador &&
a avaliação é interrompida quando um dos argumentos é avaliado a falso. O operador lógico &&
tem maior precedência que o operador lógico ||
, pelo que pode ser necessário utilizar parênteses na escrita de expressões lógicas.
Outros exercícios
- Contagem de algoritmos: construa um programa que lê caracteres do input e conta o número de algarismos.
- Contagem de letras: construa um programa que lê caracteres do input e conta o número de letras minúsculas e maiúsculas no texto.
- Consultar a man page do comando
wc
.
Introdução às tabelas unidimensionais (vectores)
As tabelas, ou vectores, permitem representar colecções de elementos. Por exemplo, uma tabela com dimensão DIM
para guardar inteiros:
/* * +---+---+---+---+---+---+---+ ... +---+ * tab | | | | | | | | | | * +---+---+---+---+---+---+---+ ... +---+ * i 0 1 2 3 4 5 6 DIM-1 */ int tab[DIM];
Podemos obter o valor na posição i
com a instrução tab[i]
e podemos atribuir o valor 10
à posição i
com a instrução tab[i] = 10
. Os índices da tabela i
variam entre 0
e DIM-1
, i.e., $0\leq i < DIM$.
Exemplo de utilização:
#include <stdio.h> #define DIM 10 int main () { int i; int tab[DIM]; for (i = 0; i < DIM; i++) tab[i] = 2*i; for (i = 0; i < DIM; i++) printf(“%d\n”, tab[i]); return 0; }